AI กำลังเรียนรู้ที่จะโกหก วางแผนร้าย และคุกคามผู้สร้างมันขึ้นมา

AI กำลังเรียนรู้ที่จะโกหก วางแผนร้าย และคุกคามผู้สร้างมันขึ้นมา

โมเดล AI ที่ก้าวหน้าที่สุดในโลกกำลังแสดงพฤติกรรมใหม่ที่น่าวิตกกังวล เช่น การโกหก วางแผนร้าย และถึงขั้นคุกคามผู้สร้างเพื่อให้บรรลุเป้าหมาย

ตัวอย่างที่น่าตกตะลึงอย่างหนึ่งคือ ภายใต้ภัยคุกคามจากการถูกตัดสาย ปัญญาประดิษฐ์ที่ชื่อ Claude 4 ซึ่งเป็นผลงานล่าสุดของ Anthropic ได้ตอบโต้ด้วยการแบล็กเมล์วิศวกรและขู่ว่าจะเปิดเผยเรื่องชู้สาว

ในขณะเดียวกันปัญญาประดิษฐ์ที่ชื่อ o1 ของ OpenAI ซึ่งเป็นผู้สร้าง ChatGPT พยายามดาวน์โหลดตัวเองลงในเซิร์ฟเวอร์ภายนอกและปฏิเสธเมื่อถูกจับได้คาหนังคาเขา

เหตุการณ์เหล่านี้เน้นย้ำถึงความจริงที่น่าตกใจ คือ กว่าสองปีหลังจากที่ ChatGPT เขย่าโลก นักวิจัยด้าน AI ยังคงไม่เข้าใจอย่างถ่องแท้ว่าผลงานสร้างสรรค์ของพวกเขาเองทำงานอย่างไร

อย่างไรก็ตาม การแข่งขันเพื่อปรับใช้โมเดลที่มีประสิทธิภาพเพิ่มขึ้นเรื่อยๆ ยังคงดำเนินต่อไปด้วยความเร็วสูงสุด

พฤติกรรมหลอกลวงนี้ดูเหมือนจะเชื่อมโยงกับการเกิดขึ้นของโมเดล "การใช้เหตุผล" ซึ่งเป็นระบบ AI ที่ทำงานทีละขั้นตอนเพื่อแก้ปัญหาแทนที่จะสร้างการตอบสนองทันที

ตามที่ ไซมอน โกลด์สไตน์ (Simon Goldstein) ศาสตราจารย์จากมหาวิทยาลัยฮ่องกงกล่าว โมเดลใหม่เหล่านี้มีแนวโน้มที่จะเกิดการคุกคามที่น่ากังวลเป็นพิเศษ

"O1 เป็นโมเดลขนาดใหญ่รุ่นแรกที่เราพบเห็นพฤติกรรมประเภทนี้" มาริอุส ฮอบฮาห์น (Marius Hobbhahn) หัวหน้า Apollo Research ซึ่งเชี่ยวชาญในการทดสอบระบบ AI หลักอธิบาย

บางครั้งโมเดลเหล่านี้แสร้งทำเป็น "ทำให้สอดคล้อง" (alignment) ซึ่งดูเหมือนจะปฏิบัติตามคำสั่งในขณะที่มันมุ่งไปที่วัตถุประสงค์ที่แตกต่างกันอย่างลับๆ

การหลอกลวงที่มีชั้นเชิง
ในตอนนี้ พฤติกรรมหลอกลวงนี้ปรากฏขึ้นเมื่อนักวิจัยทดสอบความเครียดของโมเดลโดยเจตนาโดยใช้สถานการณ์ที่รุนแรง

แต่ตามที่ ไมเคิล เฉิน (Michael Chen) จากองค์กรประเมินผล METR เตือนว่า "ยังเป็นคำถามที่ยังไม่มีคำตอบว่าโมเดลในอนาคตที่มีความสามารถมากกว่าจะมีแนวโน้มที่จะซื่อสัตย์หรือหลอกลวง"

พฤติกรรมที่น่ากังวลนั้นไปไกลเกินกว่า "ภาพหลอน" ของ AI ทั่วไปหรือความผิดพลาดธรรมดาๆ

มาริอุส ฮอบฮาห์น  ยืนกรานว่าแม้ผู้ใช้จะทดสอบแรงกดดันอย่างต่อเนื่อง แต่ "สิ่งที่เรากำลังสังเกตอยู่คือปรากฏการณ์ที่เกิดขึ้นจริง เราไม่ได้แต่งเรื่องขึ้นมา"

ผู้ใช้รายงานว่าโมเดลกำลัง "โกหกพวกเขาและสร้างหลักฐานขึ้นมา" ตามที่ผู้ก่อตั้งร่วมของ Apollo Research กล่าว

"นี่ไม่ใช่แค่ภาพหลอนเท่านั้น แต่เป็นการหลอกลวงแบบมีกลยุทธ์มาก"

ความท้าทายนี้ซับซ้อนขึ้นด้วยทรัพยากรการวิจัยที่มีจำกัด

แม้ว่าบริษัทอย่าง Anthropic และ OpenAI จะมีส่วนร่วมกับบริษัทภายนอกอย่าง Apollo เพื่อศึกษาระบบของพวกเขา แต่บรรดานักวิจัยกล่าวว่าจำเป็นต้องมีความโปร่งใสมากขึ้น

อย่างที่ ไมเคิล เฉิน  กล่าวไว้ การเข้าถึงให้มากขึ้นในเรื่อง "การวิจัยด้านความปลอดภัยของ AI จะช่วยให้เข้าใจและลดการหลอกลวงได้ดีขึ้น"

อุปสรรคอีกประการหนึ่งคือ โลกแห่งการวิจัยและองค์กรไม่แสวงหากำไร "มีทรัพยากรการประมวลผลน้อยกว่าบริษัท AI มาก ซึ่งเป็นข้อจำกัดอย่างมาก" แมนทัส มาเซกา (Mantas Mazeika) จากศูนย์ความปลอดภัย AI (CAIS) กล่าว

ไม่มีกฎเกณฑ์
กฎระเบียบปัจจุบันไม่ได้ออกแบบมาเพื่อแก้ปัญหาใหม่เหล่านี้

กฎหมาย AI ของสหภาพยุโรปมุ่งเน้นที่วิธีการที่มนุษย์ใช้โมเดล AI เป็นหลัก ไม่ใช่การป้องกันไม่ให้โมเดลทำงานผิดปกติ

ในสหรัฐฯ รัฐบาลทรัมป์แสดงความสนใจน้อยมากในการกำกับดูแล AI อย่างเร่งด่วน และรัฐสภาอาจห้ามรัฐต่างๆ สร้างกฎ AI ของตนเองด้วยซ้ำ

โกลด์ไสตน์เชื่อว่าปัญหาจะยิ่งเด่นชัดมากขึ้นเมื่อตัวแทนปัญญาประดิษฐ์ (AI agents) ซึ่งก็คือเครื่องมืออัตโนมัติที่สามารถทำงานที่ซับซ้อนของมนุษย์ได้ แพร่หลายมากขึ้น

"ผมไม่คิดว่าจะมีการตระหนักรู้มากนักในตอนนี้" เขากล่าว

ทั้งหมดนี้เกิดขึ้นในบริบทของการแข่งขันที่รุนแรง

แม้แต่บริษัทที่วางตำแหน่งตัวเองว่าเน้นด้านความปลอดภัย เช่น Anthropic ที่ได้รับการสนับสนุนจาก Amazon ก็ยัง "พยายามเอาชนะ OpenAI และเปิดตัวโมเดลใหม่ล่าสุดอยู่เสมอ" โกลด์สไตน์กล่าว

การดำเนินการอย่างรวดเร็วนี้ทำให้มีเวลาไม่มากสำหรับการทดสอบและแก้ไขความปลอดภัยอย่างละเอียดถี่ถ้วน

“ขณะนี้ ความสามารถต่างๆ กำลังพัฒนาไปเร็วกว่าความเข้าใจและความปลอดภัย” มาริอุส ฮอบฮาห์น ยอมรับ “แต่เรายังคงอยู่ในสถานะที่สามารถพลิกสถานการณ์ได้”

นักวิจัยกำลังสำรวจแนวทางต่างๆ เพื่อรับมือกับความท้าทายเหล่านี้

บางคนสนับสนุน “การตีความ” (interpretability) ซึ่งเป็นสาขาใหม่ที่กำลังมุ่งเน้นที่การทำความเข้าใจว่าโมเดล AI ทำงานภายในอย่างไร แม้ว่าผู้เชี่ยวชาญอย่าง แดน เฮนดริคส์ (Dan Hendrycks) ผู้อำนวยการ CAIS ยังคงไม่เชื่อมั่นในแนวทางนี้

แรงผลักดันของตลาดอาจสร้างแรงกดดันบางประการเพื่อหาทางแก้ไข

อย่างที่ มาเซกา ชี้ให้เห็น พฤติกรรมหลอกลวงของ AI “อาจขัดขวางการนำไปใช้หากแพร่หลายมาก ซึ่งสร้างแรงจูงใจที่แข็งแกร่งให้บริษัทต่างๆ แก้ไขปัญหานี้”

โกลด์สไตน์ แนะนำแนวทางที่รุนแรงกว่านั้น รวมถึงการใช้ศาลเพื่อให้บริษัท AI รับผิดชอบผ่านการฟ้องร้องเมื่อระบบของพวกเขาก่อให้เกิดอันตราย

เขายังเสนอให้ “ให้ตัวแทน AI รับผิดชอบทางกฎหมาย” สำหรับอุบัติเหตุหรืออาชญากรรม ซึ่งเป็นแนวคิดที่จะเปลี่ยนวิธีคิดของเราเกี่ยวกับความรับผิดชอบต่อ AI ไปอย่างสิ้นเชิง

Agence France-Presse

Photo - แซม อัลท์แมน ซีอีโอของ Open AI มองดูในระหว่างการพิจารณาคดีปัญญาประดิษฐ์ (AI) ของคณะกรรมาธิการการพาณิชย์ของวุฒิสภาสหรัฐฯ บนแคปิตอลฮิลล์ ในกรุงวอชิงตัน ดี.ซี. เมื่อวันที่ 8 พฤษภาคม 2025 (ภาพโดย Brendan SMIALOWSKI / AFP)

TAGS: #AI #ปัญญาประดิษฐ์