OpenAI merilis pemantauan CoT untuk mencegah perilaku berbahaya dalam model besar

Bitget2025/03/10 23:35

OpenAI telah merilis penelitian terbarunya, menunjukkan bahwa penggunaan pemantauan CoT (Chain of Thought) dapat mencegah model besar dari mengeluarkan omong kosong, menyembunyikan niat sebenarnya, dan perilaku jahat lainnya. Ini juga merupakan salah satu alat efektif untuk mengawasi supermodel. OpenAI menggunakan model mutakhir yang baru dirilis, o3-mini, sebagai subjek yang akan dipantau, dengan model GPT-4o yang lebih lemah bertindak sebagai pemantau. Lingkungan pengujian adalah tugas pengkodean, yang mengharuskan AI untuk mengimplementasikan fungsi dalam pustaka kode untuk melewati uji unit. Hasil menunjukkan bahwa pemantau CoT berkinerja sangat baik dalam mendeteksi perilaku "peretasan imbalan" sistematis, dengan tingkat recall setinggi 95%, jauh melebihi 60% dari hanya memantau perilaku.

Disclaimer: Konten pada artikel ini hanya merefleksikan opini penulis dan tidak mewakili platform ini dengan kapasitas apa pun. Artikel ini tidak dimaksudkan sebagai referensi untuk membuat keputusan investasi.

OpenAI merilis pemantauan CoT untuk mencegah perilaku berbahaya dalam model besar

Kamu mungkin juga menyukai

Berita trending

Harga kripto