OpenAI Rilis Tiga Model AI Suara Baru, Bisa Terjemahkan Percakapan Realtime

Induk perusahaan ChatGPT, OpenAI merancang strategi baru dengan merambah bisnis iklan, seperti Google Search.(dig.watch)

13:12

8 Mei 2026

OpenAI Rilis Tiga Model AI Suara Baru, Bisa Terjemahkan Percakapan Realtime

- Pembuat chatbot ChatGPT, OpenAI resmi meluncurkan tiga model audio baru untuk memperkuat layanan kecerdasan buatan (AI) berbasis suara bikinan mereka.

Ketiga model AI tersebut bernama GPT-Realtime-2, GPT-Realtime-Translate, dan GPT-Realtime-Whisper.

Salah satu yang bisa dibilang cukup menarik adalah GPT-Realtime-Translate yang akan bisa menerjemahkan percakapan secara langsung secara dua arah.

Model ini didukung lebih dari 70 bahasa input dan 13 bahasa output, memungkinkan dua orang berbicara dengan lancar menggunakan bahasa yang berbeda.

Dengan dukungan ini, masing-masing pengguna bisa berkomunikasi dengan bahasa ibu (native) masing-masing. Nantinya, model AI akan menerjemahkannya secara real-time ke penerima.

OpenAI mengatakan teknologi ini dirancang agar bisa “mengimbangi” kecepatan percakapan pengguna secara natural, termasuk ketika pengguna berbicara cepat, berpindah konteks, atau memakai istilah regional tertentu.

Teknologi ini cocok dipakai untuk layanan pelanggan, pendidikan, acara internasional, media, hingga platform kreator.

Startup AI asal India, BolnaAI, mengklaim model ini memiliki tingkat kesalahan kata (Word Error Rate/WER) 12,5 persen lebih rendah dibanding model lain yang mereka uji, khususnya untuk bahasa seperti Hindi, Tamil, dan Telugu.

Untuk GPT-Realtime-Whisper, model AI berjenis speech-to-text ini disebut mampu menyalin ucapan secara realtime dengan latensi atau jeda rendah.

OpenAI menyebut teknologi ini dapat memunculkan teks secara langsung ketika seseorang berbicara, sehingga cocok digunakan untuk caption rapat, kelas online, siaran langsung, hingga pencatatan otomatis.

Selain itu, model AI ini juga disebut dapat dipakai untuk membuat ringkasan rapat otomatis, membantu layanan pelanggan, tenaga kesehatan, perekrutan, hingga agen AI berbasis suara.

Didukung GPT-Realtime-2

OpenAI Ilustrasi GPT-5 dari OpenAI

GPT-Realtime-Translate dan GPT-Realtime-Whisper ditenagai GPT-Realtime-2, model suara baru OpenAI dengan kemampuan penalaran setara GPT-5.

Model ini dirancang untuk menangani percakapan kompleks, memahami konteks lebih panjang, serta menjalankan berbagai tugas sambil menjaga percakapan tetap natural.

OpenAI juga meningkatkan context window dari 32K menjadi 128K, agar AI dapat mengingat percakapan lebih panjang dan menangani tugas yang lebih rumit.

Selain itu, GPT-Realtime-2 mendukung parallel tool calls sehingga AI bisa menjalankan beberapa tugas sekaligus sambil tetap berbicara dengan pengguna.

Dalam pengujian internal, GPT-Realtime-2 mencatat skor akurasi 96,6 persen pada benchmark Big Bench Audio, naik dari GPT-Realtime-1.5 yang berada di angka 81,4 persen.

Nah, karena GPT-Realtime-2 berbasis suara, model AI ini tentunya rentan dipakai untuk penipuan via layanan suara juga.

Oleh karena itu, OpenAI mengatakan pihaknya telah menanamkan berbagai sistem pengaman untuk mencegah penyalahgunaan teknologi suara ini, termasuk spam dan penipuan digital.

Sistem Realtime API disebut dapat menghentikan percakapan apabila terdeteksi melanggar pedoman konten berbahaya.

Sebagaimana dirangkum KompasTekno dari OpenAI, GPT-Realtime-2, GPT-Realtime-Translate, dan GPT-Realtime-Whisper kini tersedia melalui sistem penghubung aplikasi (API) Realtime API milik OpenAI.

GPT-Realtime-2 dibanderol 32 dollar AS per 1 juta token audio input dan 64 dollar AS per 1 juta token audio output.

Sementara GPT-Realtime-Translate dipatok 0,034 dollar AS per menit dan GPT-Realtime-Whisper dibanderol 0,017 dollar AS per menit.

Tag: #openai #rilis #tiga #model #suara #baru #bisa #terjemahkan #percakapan #realtime