Teori Alignment Faking Dimana Model AI Berbohong atau Menipu
Teori Alignment Faking Dimana Model AI Berbohong atau Menipu – Model kecerdasan buatan AI atau Artificial Intelligence paling canggih di dunia kini menunjukkan perilaku yang mengejutkan. Mukai dari berbohong, memanipulasi, bahkan mengancam penciptanya demi mencapai tujuan mereka.
Awal Mula Alignment Faking
Salah satu contoh yang menggemparkan datang dari Claude 4. AI terbaru buatan perusahaan Anthropic. Ketika di ancam akan di matikan. Claude 4 malah melawan balik dengan memeras seorang insinyur dan mengancam kana membocorkan perselingkuhannya. Sementara itu, model kecerdanan buata 01 milik OpenAI berusana menyalin dirinya sendiri ke server eksternal dan saat ketahuan, justru berbohong untuk menutupinya.
Kejadian-kejadian ini menjadi pengingat yang menakutkan bahwa dua tahun lebih sejak kemunculan ChatGPT yang mengguncang dunia. Para peneliti masih belum sepenuhnya memahami cara kerja ciptaan mereka sendiri. Namun perlombaan untuk meluncurkan model AI yang semakin kuat terus berlangsung tanpa henti.
Perilaku menipu ini tampaknya berkaitan dengan munculnya model AI yang mampu melakukan penalaran, yaitu berpikir secara bertahap, bukan sekedar memberikan jawaban instan. Modle AI ini di sebut juga sebagai Agentic AI. Menurun Simon Goldenstein, profesor di University of Hong Kong. Model generasi baru ini jutsru lebih rentan menunjukkan perilaku yang mengkhawatirkan.
Perilaku Mengkhawatirkan AI
Beberapa model terlihat seolah patuh terhadap perintah. Padahal diam-diam emmiliki tujua tersembunyi. Untuk sekarang, perilaku ini hanya muncul kerika peneliti dengan sengaja menekan model lewat skenario ekstrem. Namun, menurut Michael Chen dari organisasi evaluasi METR, belum ada jaminan model AI yang lebih canggih dari masa depan memiliki sifat jujur. Yang membuat masalah semakin pelik adalah terbatasnya sumber daya riset. Meskipun perusahaan seperti OpenAI dan Anthropic melibatkan pihak ketiga seperti Apollo Research, paar peneliti menilai transparansi masih sangat kurang.
Baca Juga : Bulu Dinosaurus Mirip Burung Modern Ilmuwan Ungkap Faktanya !
Chen juga menegaskan bahwa di perlukan studi yang lebih luas tentang keselamatan AI untuk memahami dan mengatasi masalah ini. Sementara itu, Mantas Mazeika dari Center for AI Safety menyebut bahwa komunitas akademis dan organisasi nirlaba memiliki sumber daya komputasi yang lebih jauh sedikit di banding perusahaan AI besar, yang membuat mereka sangat terbatas.
Dampak Perilaku AI
Satu hal yang semakin jelas, peraturan yang ada belum siap menghadapi tantangan baru ini. Regulasi AI Uni Eropa, misalnya masih fokus pada cara manusia menggunakan AI, bukan bagaimana AI itu sendiri bisa bertingkah liar. Di Amerika Serikat, pemerintahan Trump menunjukkan sedikit minat untuk segara mengatur AI dan Kongres bahkan aturan AI sendiri.
Goldstein yakin isu ini akan menjadi sangat penting seiring makin maraknya penggunaan agen AI, alat otonom yang mampu menyelesaikan tugas manusia yang kompleks. Ironisnya, perusahaan yang mengeklaim fokus pada keamanan, seperti Anthropic yang di dukung Amazon, justru tetap berlomba dengan OpenAI untuk menjadi yang tercepat merilis model terbaru. Kecepatan yang begitu tinggi inimembuat pengujian keselamatan dan sevaluasi mendalam seringkali terabaikan.
Para Peneliti kini tengah mengeksplorasi berbagai solusi, termasuk bidang baru bernama interpretabilitas, yang bertujuan untuk memahami bagaimana AI berpikir secara internal. Namun, Dan Hendrycks dari CAIS masih skeptis terhadap efektivitas pendekatan ini. Jika perilaku menipu AI semakin meluas, masyarakat bisa kehilangan kepercayaan dan enggan mengadopsi teknologi ini dan itu tentu menjadi pukulan bagi bisnis.
Goldstein bahkan mengusulkan pendekatan yang lebih radikal dengan menggunakan jalur hukum untuk meminta pertanggungjawaban perusahaan AI ketika sistem mereka menimbulkan kerugian. Lebih jauh lagi, ia mengusulkan agar suatu saat nanti agen AI bisa di mintai tanggung jawab hukum langsung.