โมเดล AI ที่ก้าวหน้าที่สุดในโลกกำลังแสดงพฤติกรรมใหม่ที่น่าวิตกกังวล เช่น การโกหก วางแผนร้าย และถึงขั้นคุกคามผู้สร้างเพื่อให้บรรลุเป้าหมาย
ตัวอย่างที่น่าตกตะลึงอย่างหนึ่งคือ ภายใต้ภัยคุกคามจากการถูกตัดสาย ปัญญาประดิษฐ์ที่ชื่อ Claude 4 ซึ่งเป็นผลงานล่าสุดของ Anthropic ได้ตอบโต้ด้วยการแบล็กเมล์วิศวกรและขู่ว่าจะเปิดเผยเรื่องชู้สาว
ในขณะเดียวกันปัญญาประดิษฐ์ที่ชื่อ o1 ของ OpenAI ซึ่งเป็นผู้สร้าง ChatGPT พยายามดาวน์โหลดตัวเองลงในเซิร์ฟเวอร์ภายนอกและปฏิเสธเมื่อถูกจับได้คาหนังคาเขา
เหตุการณ์เหล่านี้เน้นย้ำถึงความจริงที่น่าตกใจ คือ กว่าสองปีหลังจากที่ ChatGPT เขย่าโลก นักวิจัยด้าน AI ยังคงไม่เข้าใจอย่างถ่องแท้ว่าผลงานสร้างสรรค์ของพวกเขาเองทำงานอย่างไร
อย่างไรก็ตาม การแข่งขันเพื่อปรับใช้โมเดลที่มีประสิทธิภาพเพิ่มขึ้นเรื่อยๆ ยังคงดำเนินต่อไปด้วยความเร็วสูงสุด
พฤติกรรมหลอกลวงนี้ดูเหมือนจะเชื่อมโยงกับการเกิดขึ้นของโมเดล "การใช้เหตุผล" ซึ่งเป็นระบบ AI ที่ทำงานทีละขั้นตอนเพื่อแก้ปัญหาแทนที่จะสร้างการตอบสนองทันที
ตามที่ ไซมอน โกลด์สไตน์ (Simon Goldstein) ศาสตราจารย์จากมหาวิทยาลัยฮ่องกงกล่าว โมเดลใหม่เหล่านี้มีแนวโน้มที่จะเกิดการคุกคามที่น่ากังวลเป็นพิเศษ
"O1 เป็นโมเดลขนาดใหญ่รุ่นแรกที่เราพบเห็นพฤติกรรมประเภทนี้" มาริอุส ฮอบฮาห์น (Marius Hobbhahn) หัวหน้า Apollo Research ซึ่งเชี่ยวชาญในการทดสอบระบบ AI หลักอธิบาย
บางครั้งโมเดลเหล่านี้แสร้งทำเป็น "ทำให้สอดคล้อง" (alignment) ซึ่งดูเหมือนจะปฏิบัติตามคำสั่งในขณะที่มันมุ่งไปที่วัตถุประสงค์ที่แตกต่างกันอย่างลับๆ
การหลอกลวงที่มีชั้นเชิง
ในตอนนี้ พฤติกรรมหลอกลวงนี้ปรากฏขึ้นเมื่อนักวิจัยทดสอบความเครียดของโมเดลโดยเจตนาโดยใช้สถานการณ์ที่รุนแรง
แต่ตามที่ ไมเคิล เฉิน (Michael Chen) จากองค์กรประเมินผล METR เตือนว่า "ยังเป็นคำถามที่ยังไม่มีคำตอบว่าโมเดลในอนาคตที่มีความสามารถมากกว่าจะมีแนวโน้มที่จะซื่อสัตย์หรือหลอกลวง"
พฤติกรรมที่น่ากังวลนั้นไปไกลเกินกว่า "ภาพหลอน" ของ AI ทั่วไปหรือความผิดพลาดธรรมดาๆ
มาริอุส ฮอบฮาห์น ยืนกรานว่าแม้ผู้ใช้จะทดสอบแรงกดดันอย่างต่อเนื่อง แต่ "สิ่งที่เรากำลังสังเกตอยู่คือปรากฏการณ์ที่เกิดขึ้นจริง เราไม่ได้แต่งเรื่องขึ้นมา"
ผู้ใช้รายงานว่าโมเดลกำลัง "โกหกพวกเขาและสร้างหลักฐานขึ้นมา" ตามที่ผู้ก่อตั้งร่วมของ Apollo Research กล่าว
"นี่ไม่ใช่แค่ภาพหลอนเท่านั้น แต่เป็นการหลอกลวงแบบมีกลยุทธ์มาก"
ความท้าทายนี้ซับซ้อนขึ้นด้วยทรัพยากรการวิจัยที่มีจำกัด
แม้ว่าบริษัทอย่าง Anthropic และ OpenAI จะมีส่วนร่วมกับบริษัทภายนอกอย่าง Apollo เพื่อศึกษาระบบของพวกเขา แต่บรรดานักวิจัยกล่าวว่าจำเป็นต้องมีความโปร่งใสมากขึ้น
อย่างที่ ไมเคิล เฉิน กล่าวไว้ การเข้าถึงให้มากขึ้นในเรื่อง "การวิจัยด้านความปลอดภัยของ AI จะช่วยให้เข้าใจและลดการหลอกลวงได้ดีขึ้น"
อุปสรรคอีกประการหนึ่งคือ โลกแห่งการวิจัยและองค์กรไม่แสวงหากำไร "มีทรัพยากรการประมวลผลน้อยกว่าบริษัท AI มาก ซึ่งเป็นข้อจำกัดอย่างมาก" แมนทัส มาเซกา (Mantas Mazeika) จากศูนย์ความปลอดภัย AI (CAIS) กล่าว
ไม่มีกฎเกณฑ์
กฎระเบียบปัจจุบันไม่ได้ออกแบบมาเพื่อแก้ปัญหาใหม่เหล่านี้
กฎหมาย AI ของสหภาพยุโรปมุ่งเน้นที่วิธีการที่มนุษย์ใช้โมเดล AI เป็นหลัก ไม่ใช่การป้องกันไม่ให้โมเดลทำงานผิดปกติ
ในสหรัฐฯ รัฐบาลทรัมป์แสดงความสนใจน้อยมากในการกำกับดูแล AI อย่างเร่งด่วน และรัฐสภาอาจห้ามรัฐต่างๆ สร้างกฎ AI ของตนเองด้วยซ้ำ
โกลด์ไสตน์เชื่อว่าปัญหาจะยิ่งเด่นชัดมากขึ้นเมื่อตัวแทนปัญญาประดิษฐ์ (AI agents) ซึ่งก็คือเครื่องมืออัตโนมัติที่สามารถทำงานที่ซับซ้อนของมนุษย์ได้ แพร่หลายมากขึ้น
"ผมไม่คิดว่าจะมีการตระหนักรู้มากนักในตอนนี้" เขากล่าว
ทั้งหมดนี้เกิดขึ้นในบริบทของการแข่งขันที่รุนแรง
แม้แต่บริษัทที่วางตำแหน่งตัวเองว่าเน้นด้านความปลอดภัย เช่น Anthropic ที่ได้รับการสนับสนุนจาก Amazon ก็ยัง "พยายามเอาชนะ OpenAI และเปิดตัวโมเดลใหม่ล่าสุดอยู่เสมอ" โกลด์สไตน์กล่าว
การดำเนินการอย่างรวดเร็วนี้ทำให้มีเวลาไม่มากสำหรับการทดสอบและแก้ไขความปลอดภัยอย่างละเอียดถี่ถ้วน
“ขณะนี้ ความสามารถต่างๆ กำลังพัฒนาไปเร็วกว่าความเข้าใจและความปลอดภัย” มาริอุส ฮอบฮาห์น ยอมรับ “แต่เรายังคงอยู่ในสถานะที่สามารถพลิกสถานการณ์ได้”
นักวิจัยกำลังสำรวจแนวทางต่างๆ เพื่อรับมือกับความท้าทายเหล่านี้
บางคนสนับสนุน “การตีความ” (interpretability) ซึ่งเป็นสาขาใหม่ที่กำลังมุ่งเน้นที่การทำความเข้าใจว่าโมเดล AI ทำงานภายในอย่างไร แม้ว่าผู้เชี่ยวชาญอย่าง แดน เฮนดริคส์ (Dan Hendrycks) ผู้อำนวยการ CAIS ยังคงไม่เชื่อมั่นในแนวทางนี้
แรงผลักดันของตลาดอาจสร้างแรงกดดันบางประการเพื่อหาทางแก้ไข
อย่างที่ มาเซกา ชี้ให้เห็น พฤติกรรมหลอกลวงของ AI “อาจขัดขวางการนำไปใช้หากแพร่หลายมาก ซึ่งสร้างแรงจูงใจที่แข็งแกร่งให้บริษัทต่างๆ แก้ไขปัญหานี้”
โกลด์สไตน์ แนะนำแนวทางที่รุนแรงกว่านั้น รวมถึงการใช้ศาลเพื่อให้บริษัท AI รับผิดชอบผ่านการฟ้องร้องเมื่อระบบของพวกเขาก่อให้เกิดอันตราย
เขายังเสนอให้ “ให้ตัวแทน AI รับผิดชอบทางกฎหมาย” สำหรับอุบัติเหตุหรืออาชญากรรม ซึ่งเป็นแนวคิดที่จะเปลี่ยนวิธีคิดของเราเกี่ยวกับความรับผิดชอบต่อ AI ไปอย่างสิ้นเชิง
Agence France-Presse
Photo - แซม อัลท์แมน ซีอีโอของ Open AI มองดูในระหว่างการพิจารณาคดีปัญญาประดิษฐ์ (AI) ของคณะกรรมาธิการการพาณิชย์ของวุฒิสภาสหรัฐฯ บนแคปิตอลฮิลล์ ในกรุงวอชิงตัน ดี.ซี. เมื่อวันที่ 8 พฤษภาคม 2025 (ภาพโดย Brendan SMIALOWSKI / AFP)