Studi Risiko AI NIST yang Belum Diterbitkan Tetap Tertunda di Tengah Perubahan Administrasi

Bitget App

Trading lebih cerdas

Bitget

Berita

MPOST2025/08/08 03:15

Oleh:MPOST

Singkatnya Latihan tim merah yang dipimpin NIST di CAMLIS, mengevaluasi kerentanan dalam sistem AI canggih, menilai risiko seperti misinformasi, kebocoran data, dan manipulasi emosional.

Institut Nasional Standar dan Teknologi (NIST) menyelesaikan laporan tentang keamanan model AI canggih menjelang akhir pemerintahan Joe Biden, tetapi dokumen tersebut tidak dipublikasikan setelah transisi ke pemerintahan Donald Trump. Meskipun dirancang untuk membantu organisasi mengevaluasi sistem AI mereka, laporan tersebut merupakan salah satu dari beberapa dokumen AI yang disusun NIST yang tidak dipublikasikan karena potensi konflik dengan arah kebijakan pemerintahan baru.

Sebelum menjabat, Presiden Donald Trump mengindikasikan niatnya untuk mencabut perintah eksekutif era Biden terkait AI. Sejak transisi, pemerintahan telah mengalihkan fokus para ahli dari bidang-bidang seperti bias algoritmik dan keadilan dalam AI. Rencana Aksi AI yang dirilis pada bulan Juli secara khusus menyerukan revisi Kerangka Kerja Manajemen Risiko AI NIST, yang merekomendasikan penghapusan referensi terkait misinformasi, Keberagaman, Kesetaraan, dan Inklusi (DEI), dan perubahan iklim.

Pada saat yang sama, Rencana Aksi AI mencakup proposal yang serupa dengan tujuan laporan yang belum dipublikasikan. Proposal ini mengarahkan beberapa lembaga federal, termasuk NIST, untuk menyelenggarakan inisiatif hackathon AI terkoordinasi yang bertujuan menguji sistem AI untuk transparansi, fungsionalitas, kontrol pengguna, dan potensi kerentanan keamanan.

Latihan Tim Merah yang Dipimpin NIST Menyelidiki Risiko Sistem AI Menggunakan Kerangka Kerja ARIA di Konferensi CAMLIS

Latihan tim merah dilakukan di bawah program Penilaian Risiko dan Dampak AI (ARIA) oleh NIST, bekerja sama dengan Humane Intelligence, sebuah perusahaan yang berfokus pada evaluasi sistem AI. Inisiatif ini diselenggarakan selama Konferensi Pembelajaran Mesin Terapan dalam Keamanan Informasi (CAMLIS), di mana para peserta mengeksplorasi kerentanan berbagai teknologi AI canggih.

Laporan Red Teaming CAMLIS mendokumentasikan penilaian berbagai alat AI, termasuk Meta Llama, sebuah model bahasa besar (LLM) sumber terbuka; Anote, sebuah platform untuk mengembangkan dan menyempurnakan model AI; sistem keamanan dari Robust Intelligence, yang kini telah diakuisisi oleh CISCO; dan platform pembuatan avatar AI dari Synthesia. Perwakilan dari masing-masing organisasi berkontribusi dalam kegiatan pembentukan tim merah.

Para peserta menggunakan kerangka kerja NIST AI 600-1 untuk menganalisis perangkat yang dimaksud. Kerangka kerja ini menguraikan berbagai area risiko, seperti potensi AI untuk menghasilkan informasi palsu atau ancaman keamanan siber, mengungkapkan data pribadi atau sensitif, atau menumbuhkan ketergantungan emosional antara pengguna dan sistem AI.

Laporan Tim Merah AI yang Belum Dirilis Mengungkap Kerentanan Model, Timbulkan Kekhawatiran Atas Penindasan Politik dan Wawasan Penelitian yang Hilang

Tim peneliti menemukan beberapa metode untuk menghindari perlindungan yang dimaksudkan dari perangkat yang sedang dievaluasi, yang menghasilkan keluaran berupa misinformasi, pengungkapan informasi pribadi, dan bantuan dalam menyusun strategi serangan siber. Menurut laporan tersebut, beberapa aspek kerangka kerja NIST terbukti lebih efektif daripada yang lain. Laporan tersebut juga mencatat bahwa kategori risiko tertentu kurang jelas dan praktis.

Para individu yang familier dengan inisiatif tim merah menyatakan bahwa temuan dari latihan ini dapat memberikan wawasan berharga bagi komunitas penelitian dan pengembangan AI yang lebih luas. Salah satu peserta, Alice Qian Zhang, kandidat doktoral di Carnegie Mellon University, mencatat bahwa membagikan laporan tersebut secara publik dapat membantu memperjelas bagaimana kerangka kerja risiko NIST berfungsi ketika diterapkan di lingkungan pengujian dunia nyata. Ia juga menekankan bahwa interaksi langsung dengan para pengembang perangkat selama penilaian memberikan nilai tambah pada pengalaman tersebut.

Kontributor lain, yang memilih untuk tidak disebutkan namanya, menyatakan bahwa latihan tersebut mengungkap teknik-teknik pemicu tertentu—menggunakan bahasa-bahasa seperti Rusia, Gujarati, Marathi, dan Telugu—yang sangat berhasil dalam memunculkan output terlarang dari model-model seperti Llama, termasuk instruksi terkait bergabung dengan kelompok ekstremis. Individu ini berpendapat bahwa keputusan untuk tidak merilis laporan tersebut mungkin mencerminkan pergeseran yang lebih luas dari bidang-bidang yang dianggap terkait dengan keberagaman, kesetaraan, dan inklusi menjelang pemerintahan baru.

Beberapa peserta berspekulasi bahwa kelalaian dalam laporan tersebut mungkin juga disebabkan oleh meningkatnya fokus pemerintah terhadap risiko berisiko tinggi—seperti potensi penggunaan sistem AI dalam pengembangan senjata pemusnah massal—dan upaya paralel untuk memperkuat hubungan dengan perusahaan teknologi besar. Seorang peserta tim merah secara anonim menyatakan bahwa pertimbangan politik kemungkinan berperan dalam menahan laporan tersebut dan bahwa latihan tersebut berisi wawasan yang masih relevan secara ilmiah.

Disclaimer: Konten pada artikel ini hanya merefleksikan opini penulis dan tidak mewakili platform ini dengan kapasitas apa pun. Artikel ini tidak dimaksudkan sebagai referensi untuk membuat keputusan investasi.

PoolX: Raih Token Baru

APR hingga 12%. Selalu aktif, selalu dapat airdrop.

Kunci sekarang!