Bitget App
Trade smarter
Buka
BerandaDaftar
Bitget>
Berita>
OpenAI Meluncurkan GPT-Model Ucapan-ke-Ucapan Realtime dengan Dukungan Multimodal dan Kemampuan Percakapan Tingkat Lanjut

OpenAI Meluncurkan GPT-Model Ucapan-ke-Ucapan Realtime dengan Dukungan Multimodal dan Kemampuan Percakapan Tingkat Lanjut

MPOST2025/09/01 21:50
Oleh: MPOST
Singkatnya OpenAI merilis model ucapan-ke-ucapan gpt-realtime dengan dukungan multimodal, keterampilan percakapan tingkat lanjut, dan kinerja penalaran audio yang kuat.

Organisasi penelitian kecerdasan buatan OpenAI mengumumkan ketersediaan umum API Realtime-nya, yang kini disempurnakan dengan fitur-fitur yang memungkinkan pengembang dan perusahaan membangun agen suara yang tangguh dan siap produksi. API ini mendukung server MCP jarak jauh, input gambar, dan panggilan telepon melalui Session Initiation Protocol (SIP), memungkinkan aplikasi suara yang lebih mumpuni dan peka konteks.

Bersamaan dengan API, OpenAI gpt-realtime telah merilis model ucapan-ke-ucapan tercanggihnya, yang dirancang untuk meningkatkan kemampuan mengikuti instruksi, pemanggilan fungsi, dan ucapan yang terdengar alami. Model ini dapat menginterpretasi perintah yang kompleks, beralih bahasa di tengah kalimat, mereproduksi urutan alfanumerik secara akurat, dan menangkap isyarat non-verbal. Dua suara baru, Cedar dan Marin, juga tersedia, menawarkan intonasi yang lebih ekspresif dan mirip manusia. Suara yang ada telah diperbarui untuk menggabungkan peningkatan ini.

API Realtime memproses audio secara langsung melalui satu model, mengurangi latensi dan mempertahankan nuansa, tidak seperti pipeline tradisional yang menggabungkan model ucapan-ke-teks dan teks-ke-ucapan secara terpisah. gpt-realtime telah dilatih melalui kolaborasi dengan pengguna untuk unggul dalam aplikasi dunia nyata seperti dukungan pelanggan, bantuan pribadi, dan pendidikan. Evaluasi benchmark menunjukkan peningkatan substansial dalam penalaran, kepatuhan instruksi, dan akurasi pemanggilan fungsi dibandingkan dengan model sebelumnya.

Pembaruan tambahan mencakup pemanggilan fungsi asinkron, yang memungkinkan operasi yang berjalan lama tanpa mengganggu percakapan yang sedang berlangsung, yang selanjutnya mendukung pengalaman suara yang lancar dan siap produksi.

API Realtime secara resmi keluar dari versi beta dan siap untuk agen suara produksi Anda!

Kami juga memperkenalkan gpt-realtime—model ucapan-ke-ucapan kami yang paling canggih—ditambah suara dan kemampuan API baru:

🔌 MCP Jarak Jauh
🖼️ Masukan gambar
Panggilan telepon SIP
♻️ Prompt yang dapat digunakan kembali foto.twitter.com/fX5yvt0CDD

- OpenAI Pengembang (@OpenAIPengembang) 28 Agustus 2025

OpenAI Memperluas API Realtime dengan Dukungan MCP, Input Gambar, Integrasi SIP, dan Kontrol Penghematan Biaya untuk Agen Suara

OpenAI API Realtime kini mencakup fitur-fitur baru yang dirancang untuk menyederhanakan integrasi dan memperluas kapabilitas agen suara yang siap produksi. Pengembang dapat mengaktifkan dukungan MCP jarak jauh dengan menautkan sesi ke URL server MCP, yang memungkinkan API mengelola panggilan alat secara otomatis dan mengakses fungsi tambahan tanpa pengaturan manual.

Model gpt-realtime kini mendukung input gambar, memungkinkan sistem untuk menggabungkan foto, tangkapan layar, dan visual lainnya bersama audio atau teks. Hal ini memungkinkan pengguna untuk mengajukan pertanyaan spesifik konteks tentang apa yang mereka lihat, sementara pengembang tetap memegang kendali atas gambar mana yang dibagikan dan kapan.

Peningkatan tambahan mencakup dukungan Session Initiation Protocol (SIP) untuk menghubungkan aplikasi ke jaringan telepon dan sistem PBX, serta perintah yang dapat digunakan kembali yang memungkinkan pengembang menyimpan dan menyebarkan instruksi, alat, dan contoh pesan yang telah dikonfigurasikan sebelumnya di beberapa sesi.

API Realtime dan model gpt-realtime yang tersedia secara umum kini dapat diakses oleh semua developer, dengan harga yang lebih rendah 20% dibandingkan gpt-4o-realtime-preview sebelumnya. Kontrol baru untuk konteks percakapan memungkinkan pengelolaan token yang lebih cerdas, sehingga mengurangi biaya untuk sesi yang berjalan lama. Dokumentasi, Playground untuk pengujian, dan panduan prompting API Realtime tersedia untuk membantu developer dalam mengadopsi fitur-fitur ini.

Disclaimer: Konten pada artikel ini hanya merefleksikan opini penulis dan tidak mewakili platform ini dengan kapasitas apa pun. Artikel ini tidak dimaksudkan sebagai referensi untuk membuat keputusan investasi.
PoolX: Raih Token Baru
APR hingga 12%. Selalu aktif, selalu dapat airdrop.
Kunci sekarang!

Kamu mungkin juga menyukai

Pasangan perdagangan margin spot baru - BARD/USDT
Bitget Announcement2025/09/19 07:28
Pasangan perdagangan margin spot baru - FLOCK/USDT
Bitget Announcement2025/09/18 06:55

Berita trending

Lainnya
1
Pasangan perdagangan margin spot baru - BARD/USDT
2
Pasangan perdagangan margin spot baru - FLOCK/USDT

Harga kripto

Lainnya
Bitcoin
Bitcoin
BTC
$115,737.62
-1.02%
Ethereum
Ethereum
ETH
$4,478.02
-1.38%
XRP
XRP
XRP
$3
-1.46%
Tether USDt
Tether USDt
USDT
$1
+0.02%
BNB
BNB
BNB
$996.86
+0.52%
Solana
Solana
SOL
$239.4
-2.35%
USDC
USDC
USDC
$0.9999
-0.00%
Dogecoin
Dogecoin
DOGE
$0.2665
-3.40%
TRON
TRON
TRX
$0.3466
-0.29%
Cardano
Cardano
ADA
$0.8985
-1.86%
Cara menjual PI
Bitget listing PI - Beli atau jual PI dengan cepat di Bitget!
Trading sekarang
Belum menjadi Bitgetter?Paket sambutan senilai 6200 USDT untuk para Bitgetter baru!
Daftar sekarang
Trade smarter