OpenAI Meluncurkan GPT-Model Ucapan-ke-Ucapan Realtime dengan Dukungan Multimodal dan Kemampuan Percakapan Tingkat Lanjut

Organisasi penelitian kecerdasan buatan OpenAI mengumumkan ketersediaan umum API Realtime-nya, yang kini disempurnakan dengan fitur-fitur yang memungkinkan pengembang dan perusahaan membangun agen suara yang tangguh dan siap produksi. API ini mendukung server MCP jarak jauh, input gambar, dan panggilan telepon melalui Session Initiation Protocol (SIP), memungkinkan aplikasi suara yang lebih mumpuni dan peka konteks.

Bersamaan dengan API, OpenAI gpt-realtime telah merilis model ucapan-ke-ucapan tercanggihnya, yang dirancang untuk meningkatkan kemampuan mengikuti instruksi, pemanggilan fungsi, dan ucapan yang terdengar alami. Model ini dapat menginterpretasi perintah yang kompleks, beralih bahasa di tengah kalimat, mereproduksi urutan alfanumerik secara akurat, dan menangkap isyarat non-verbal. Dua suara baru, Cedar dan Marin, juga tersedia, menawarkan intonasi yang lebih ekspresif dan mirip manusia. Suara yang ada telah diperbarui untuk menggabungkan peningkatan ini.

API Realtime memproses audio secara langsung melalui satu model, mengurangi latensi dan mempertahankan nuansa, tidak seperti pipeline tradisional yang menggabungkan model ucapan-ke-teks dan teks-ke-ucapan secara terpisah. gpt-realtime telah dilatih melalui kolaborasi dengan pengguna untuk unggul dalam aplikasi dunia nyata seperti dukungan pelanggan, bantuan pribadi, dan pendidikan. Evaluasi benchmark menunjukkan peningkatan substansial dalam penalaran, kepatuhan instruksi, dan akurasi pemanggilan fungsi dibandingkan dengan model sebelumnya.

Pembaruan tambahan mencakup pemanggilan fungsi asinkron, yang memungkinkan operasi yang berjalan lama tanpa mengganggu percakapan yang sedang berlangsung, yang selanjutnya mendukung pengalaman suara yang lancar dan siap produksi.

API Realtime secara resmi keluar dari versi beta dan siap untuk agen suara produksi Anda!

Kami juga memperkenalkan gpt-realtime—model ucapan-ke-ucapan kami yang paling canggih—ditambah suara dan kemampuan API baru:

🔌 MCP Jarak Jauh
🖼️ Masukan gambar
Panggilan telepon SIP
♻️ Prompt yang dapat digunakan kembali foto.twitter.com/fX5yvt0CDD
- OpenAI Pengembang (@OpenAIPengembang) 28 Agustus 2025

OpenAI Memperluas API Realtime dengan Dukungan MCP, Input Gambar, Integrasi SIP, dan Kontrol Penghematan Biaya untuk Agen Suara

OpenAI API Realtime kini mencakup fitur-fitur baru yang dirancang untuk menyederhanakan integrasi dan memperluas kapabilitas agen suara yang siap produksi. Pengembang dapat mengaktifkan dukungan MCP jarak jauh dengan menautkan sesi ke URL server MCP, yang memungkinkan API mengelola panggilan alat secara otomatis dan mengakses fungsi tambahan tanpa pengaturan manual.

Model gpt-realtime kini mendukung input gambar, memungkinkan sistem untuk menggabungkan foto, tangkapan layar, dan visual lainnya bersama audio atau teks. Hal ini memungkinkan pengguna untuk mengajukan pertanyaan spesifik konteks tentang apa yang mereka lihat, sementara pengembang tetap memegang kendali atas gambar mana yang dibagikan dan kapan.

Peningkatan tambahan mencakup dukungan Session Initiation Protocol (SIP) untuk menghubungkan aplikasi ke jaringan telepon dan sistem PBX, serta perintah yang dapat digunakan kembali yang memungkinkan pengembang menyimpan dan menyebarkan instruksi, alat, dan contoh pesan yang telah dikonfigurasikan sebelumnya di beberapa sesi.

API Realtime dan model gpt-realtime yang tersedia secara umum kini dapat diakses oleh semua developer, dengan harga yang lebih rendah 20% dibandingkan gpt-4o-realtime-preview sebelumnya. Kontrol baru untuk konteks percakapan memungkinkan pengelolaan token yang lebih cerdas, sehingga mengurangi biaya untuk sesi yang berjalan lama. Dokumentasi, Playground untuk pengujian, dan panduan prompting API Realtime tersedia untuk membantu developer dalam mengadopsi fitur-fitur ini.

OpenAI Meluncurkan GPT-Model Ucapan-ke-Ucapan Realtime dengan Dukungan Multimodal dan Kemampuan Percakapan Tingkat Lanjut

OpenAI Memperluas API Realtime dengan Dukungan MCP, Input Gambar, Integrasi SIP, dan Kontrol Penghematan Biaya untuk Agen Suara

Kamu mungkin juga menyukai

Berita trending

Harga kripto