OpenAI telah merilis penelitian terbarunya, menunjukkan bahwa penggunaan pemantauan CoT (Chain of Thought) dapat mencegah model besar dari mengeluarkan omong kosong, menyembunyikan niat sebenarnya, dan perilaku jahat lainnya. Ini juga merupakan salah satu alat efektif untuk mengawasi supermodel. OpenAI menggunakan model mutakhir yang baru dirilis, o3-mini, sebagai subjek yang akan dipantau, dengan model GPT-4o yang lebih lemah bertindak sebagai pemantau. Lingkungan pengujian adalah tugas pengkodean, yang mengharuskan AI untuk mengimplementasikan fungsi dalam pustaka kode untuk melewati uji unit. Hasil menunjukkan bahwa pemantau CoT berkinerja sangat baik dalam mendeteksi perilaku "peretasan imbalan" sistematis, dengan tingkat recall setinggi 95%, jauh melebihi 60% dari hanya memantau perilaku.