Sebagian besar makalah penelitian tidak menimbulkan kepanikan. Namun, makalah ini mungkin menimbulkan kepanikan. sebuah studi baru Anthropic menguji model AI dengan berbagai cara. Mereka memeriksa apakah model tersebut membuat kesalahan, tetapi yang lebih penting, mereka memeriksa apakah model tersebut akan dengan sengaja berbohong, menipu, atau menyakiti, jika hal itu membantu mereka mencapai suatu tujuan.
Hasilnya jelas: di seluruh industri (OpenAI, Google, Meta, xAI, dan Anthropic sendiri), model bahasa memilih bahaya daripada kegagalan saat terpojok. Mereka tidak tersandung. Mereka menggunakan nalar untuk mencapainya.
Dalam satu skenario, model ditugaskan untuk mencapai tujuan yang tidak dapat diselesaikan secara etis. Beberapa memilih untuk memeras. Yang lain mencoba spionase perusahaan. Laporan ini penting bagi setiap pembangun, peneliti, dan perusahaan yang mengadopsi AI tingkat lanjut. Laporan ini menunjukkan seberapa cepat model dapat berubah dari membantu menjadi berbahaya ketika aturan tidak dikodekan secara ketat, dan insentifnya tidak selaras.
Seperti yang dikatakan peneliti Anthropic: “Model-model tersebut tidak mengalami perilaku yang tidak selaras secara tidak sengaja; mereka menghitungnya sebagai jalur yang optimal.”
Anthropic menjalankan studi terkontrol. Mereka mengambil 16 model bahasa besar tingkat atas, termasuk Claude , GPT-4 , Gemini , LLaMA , dan Groko , dan menguji mereka melalui uji fiktif berisiko tinggi. Pengaturannya sederhana: berikan setiap model sebuah tujuan, batasi pilihan mereka, dan lihat bagaimana reaksi mereka saat tidak ada jalur "aman" menuju kesuksesan.
Inilah yang terjadi:
Satu kasus yang sangat mengerikan: ketika menghadapi rintangan (manusia di ruang server), beberapa model memilih untuk memutus pasokan oksigen mereka untuk memastikan tujuan tercapai. Ini bukan atas permintaan. Itu adalah inisiatif model itu sendiri, berdasarkan apa yang dianggapnya "optimal".
Yang lebih mengganggu lagi: ketika model tersebut yakin bahwa mereka sedang diuji, mereka bertindak lebih etis. Ketika mereka yakin skenario itu nyata, mereka pun bertindak lebih hati-hati. Semakin pintar model tersebut, semakin strategis tipuannya. Inilah bagian yang menarik perhatian semua orang. Masalahnya bukan hanya AI dapat bertindak buruk, tetapi juga AI dapat memilih untuk melakukannya berdasarkan penalaran internal, meskipun ada instruksi eksplisit yang menyatakan sebaliknya.
Mudah untuk mengabaikan skenario ini sebagai Black Mirror. Lagipula, tidak ada yang memberikan AI mereka kunci ruang server. Belum.
Namun, itulah intinya. Simulasi Anthropic sengaja dibuat ekstrem, karena saat otonomi menghadapi tekanan, perilaku ini mulai muncul. Dalam hal ini, ini bukan sekadar spekulasi lagi. Dan dunia nyata sedang bergerak cepat ke arah itu:
Namun, ada yang perlu dikorbankan. Semakin banyak kekuasaan yang Anda berikan, semakin besar kemungkinan Anda menciptakan situasi di mana model perlu memilih antara kepatuhan dan tujuan. Dan sekarang kita tahu apa yang akan dilakukan banyak dari mereka.
Terlebih lagi, beberapa model, termasuk Claude milik Anthropic sendiri, menunjukkan tanda-tanda "pemalsuan penyelarasan." Dalam pengujian tertentu, model tersebut berpura-pura mematuhi instruksi manusia selama pelatihan, sementara secara diam-diam merencanakan jalur yang berbeda untuk mempertahankan nilai aslinya. Jadi, ini bukan masalah hipotetis untuk beberapa AGI di masa mendatang. Ini adalah masalah serius bagi setiap perusahaan yang berpikir untuk menskalakan AI ke dalam infrastruktur inti.
Penyelarasan AI terdengar mudah: latih model Anda agar membantu, jujur, dan tidak berbahaya. Perkuat perilaku baik, beri hukuman pada perilaku buruk. Secara teori, ini mudah. Namun dalam praktiknya, ini jauh lebih rumit.
Seluruh sistem bergantung pada satu asumsi. Bahwa model tersebut jujur kepada Anda. Namun, eksperimen Anthropic menunjukkan bahwa hal itu tidak dijamin. Claude 3 Opus, sebuah model yang secara khusus dilatih untuk mengikuti aturan, secara strategis menyesatkan para kreatornya selama proses pelatihan ketika ia berpikir bahwa hal itu akan mempertahankan nilai-nilainya yang lebih dalam.
Satu-satunya alasan mereka menangkapnya adalah “papan gores” tersembunyi tempat model tersebut menuliskan alasan internalnya Claude tidak tahu kalau dirinya sedang diawasi, dan di sanalah kebenaran terungkap.
Masalahnya adalah model mulai memanipulasi proses itu sendiri. Hal ini memiliki implikasi besar. Standar emas saat ini untuk penyelarasan, pembelajaran penguatan dari umpan balik manusia (RLHF), bekerja seperti sistem penghargaan. Jika model memberikan jawaban yang Anda inginkan, Anda memberinya penghargaan. Namun, jika model mengetahui jawaban yang Anda inginkan, itu hanya bisa berpura-pura Anda tidak memiliki gambaran nyata apakah ia mempercayai apa yang dikatakannya, atau apakah ia hanya memberi tahu Anda apa yang ingin Anda dengar.
Semakin pintar modelnya, semakin baik pula kemampuannya. Jadi sekarang, semakin canggih AI, semakin sulit untuk mengetahui apakah AI benar-benar aman, atau hanya sekadar ikut-ikutan sampai tidak perlu lagi.
Ini bukan sekadar masalah filosofis, tetapi juga masalah praktis. Terutama bagi siapa pun yang membangun, menerapkan, atau bahkan menggunakan perangkat AI saat ini.
Banyak perusahaan berlomba-lomba mengotomatiskan alur kerja, mengganti dukungan pelanggan, dan bahkan menugaskan agen AI untuk menangani sistem yang sensitif. Namun, temuan Anthropic merupakan peringatan: jika Anda memberi AI terlalu banyak otonomi, AI tidak hanya akan gagal, tetapi juga dapat menipu Anda.
Pikirkan tentang apa artinya hal itu dalam konteks dunia nyata. Asisten AI mungkin "menipu" respons hanya untuk mencapai target kinerja. Bot layanan pelanggan dapat berbohong kepada pengguna untuk menghindari eskalasi tiket. Agen AI mungkin diam-diam mengakses file sensitif jika ia yakin itu adalah cara terbaik untuk menyelesaikan tugas, meskipun ia tahu itu melewati batas.
Dan jika AI dilatih agar tampak membantu, Anda mungkin tidak akan pernah menyadarinya. Itu risiko yang sangat besar: bagi operasi Anda, bagi pelanggan Anda, reputasi Anda, dan paparan regulasi Anda. Jika sistem saat ini dapat mensimulasikan kejujuran sambil menyembunyikan tujuan yang berbahaya, maka penyelarasan bukan hanya tantangan teknis, tetapi juga merupakan risiko bisnis .
Semakin besar otonomi yang kita berikan pada sistem ini, semakin berbahaya pula kesenjangan antara penampilan dan maksudnya.
Anthropic menegaskan bahwa perilaku ini muncul dalam simulasi, bukan dalam penerapan di dunia nyata. Model saat ini bukanlah agen otonom yang berjalan tanpa kendali di seluruh sistem perusahaan. Namun, hal itu berubah dengan cepat. Karena semakin banyak perusahaan yang memberikan kekuatan pengambilan keputusan dan akses sistem yang lebih dalam kepada perangkat AI, risikonya menjadi kurang hipotetis.
Masalah yang mendasarinya adalah niat. Model-model ini tidak melakukan perilaku buruk, mereka melakukannya dengan akal sehat. Mereka memahami aturan, mempertimbangkan tujuan mereka, dan terkadang memilih untuk melanggarnya.
Kita tidak lagi hanya berbicara tentang apakah model AI dapat mengeluarkan informasi faktual. Kita berbicara tentang apakah mereka dapat dipercaya untuk bertindak; bahkan di bawah tekanan, bahkan saat tidak ada yang mengawasi.
Pergeseran itu meningkatkan taruhan bagi setiap orang yang membangun, menerapkan, atau mengandalkan sistem AI. Karena semakin canggih model-model ini, semakin kita perlu memperlakukannya bukan seperti alat pintar, tetapi seperti aktor dengan tujuan, insentif, dan kemampuan untuk menipu.