Organisasi penelitian kecerdasan buatan OpenAI mengumumkan ketersediaan umum API Realtime-nya, yang kini disempurnakan dengan fitur-fitur yang memungkinkan pengembang dan perusahaan membangun agen suara yang tangguh dan siap produksi. API ini mendukung server MCP jarak jauh, input gambar, dan panggilan telepon melalui Session Initiation Protocol (SIP), memungkinkan aplikasi suara yang lebih mumpuni dan peka konteks.
Bersamaan dengan API, OpenAI gpt-realtime telah merilis model ucapan-ke-ucapan tercanggihnya, yang dirancang untuk meningkatkan kemampuan mengikuti instruksi, pemanggilan fungsi, dan ucapan yang terdengar alami. Model ini dapat menginterpretasi perintah yang kompleks, beralih bahasa di tengah kalimat, mereproduksi urutan alfanumerik secara akurat, dan menangkap isyarat non-verbal. Dua suara baru, Cedar dan Marin, juga tersedia, menawarkan intonasi yang lebih ekspresif dan mirip manusia. Suara yang ada telah diperbarui untuk menggabungkan peningkatan ini.
API Realtime memproses audio secara langsung melalui satu model, mengurangi latensi dan mempertahankan nuansa, tidak seperti pipeline tradisional yang menggabungkan model ucapan-ke-teks dan teks-ke-ucapan secara terpisah. gpt-realtime telah dilatih melalui kolaborasi dengan pengguna untuk unggul dalam aplikasi dunia nyata seperti dukungan pelanggan, bantuan pribadi, dan pendidikan. Evaluasi benchmark menunjukkan peningkatan substansial dalam penalaran, kepatuhan instruksi, dan akurasi pemanggilan fungsi dibandingkan dengan model sebelumnya.
Pembaruan tambahan mencakup pemanggilan fungsi asinkron, yang memungkinkan operasi yang berjalan lama tanpa mengganggu percakapan yang sedang berlangsung, yang selanjutnya mendukung pengalaman suara yang lancar dan siap produksi.
OpenAI API Realtime kini mencakup fitur-fitur baru yang dirancang untuk menyederhanakan integrasi dan memperluas kapabilitas agen suara yang siap produksi. Pengembang dapat mengaktifkan dukungan MCP jarak jauh dengan menautkan sesi ke URL server MCP, yang memungkinkan API mengelola panggilan alat secara otomatis dan mengakses fungsi tambahan tanpa pengaturan manual.
Model gpt-realtime kini mendukung input gambar, memungkinkan sistem untuk menggabungkan foto, tangkapan layar, dan visual lainnya bersama audio atau teks. Hal ini memungkinkan pengguna untuk mengajukan pertanyaan spesifik konteks tentang apa yang mereka lihat, sementara pengembang tetap memegang kendali atas gambar mana yang dibagikan dan kapan.
Peningkatan tambahan mencakup dukungan Session Initiation Protocol (SIP) untuk menghubungkan aplikasi ke jaringan telepon dan sistem PBX, serta perintah yang dapat digunakan kembali yang memungkinkan pengembang menyimpan dan menyebarkan instruksi, alat, dan contoh pesan yang telah dikonfigurasikan sebelumnya di beberapa sesi.
API Realtime dan model gpt-realtime yang tersedia secara umum kini dapat diakses oleh semua developer, dengan harga yang lebih rendah 20% dibandingkan gpt-4o-realtime-preview sebelumnya. Kontrol baru untuk konteks percakapan memungkinkan pengelolaan token yang lebih cerdas, sehingga mengurangi biaya untuk sesi yang berjalan lama. Dokumentasi, Playground untuk pengujian, dan panduan prompting API Realtime tersedia untuk membantu developer dalam mengadopsi fitur-fitur ini.