Google Luncurkan Gemini 3.1 Flash TTS, AI untuk Bikin Suara Natural Bisa Bicara 70 Bahasa

Google merilis model AI text-to-speech (TTS) terbarunya, Gemini 3.1 Flash TTS. Model AI ini diklaim bisa menghasilkan suara yang lebih natural dan mirip manusia. (Google)

17:12

16 April 2026

Google Luncurkan Gemini 3.1 Flash TTS, AI untuk Bikin Suara Natural Bisa Bicara 70 Bahasa

– Google meluncurkan model AI text-to-speech (TTS) terbarunya, Gemini 3.1 Flash TTS, Rabu (15/4/2026). Model AI ini diklaim dapat menghadirkan suara lebih natural dan ekspresif.

Model ini merupakan bagian dari pengembangan keluarga Gemini 3.1 dan dirancang untuk menghasilkan suara AI yang terdengar lebih mirip manusia.

Salah satu keunggulan utamanya adalah dukungan lebih dari 70 bahasa, serta kemampuan menangani percakapan dengan lebih dari satu pembicara (multi-speaker).

Salah satu fitur menarik di Gemini 3.1 Flash TTS adalah Audio Tags. Fitur ini memungkinkan pengguna mengatur cara AI berbicara dengan lebih fleksibel.

Lewat perintah teks sederhana, pengguna bisa menentukan bagaimana suara AI terdengar. Misalnya, mengatur kecepatan bicara, gaya penyampaian, hingga emosi dalam satu kalimat.

Pengguna juga bisa memberi instruksi seperti meminta AI berbicara dengan nada "antusias", "senang", atau "serius dan informatif".

Tak hanya itu, Google juga menyediakan berbagai pilihan gaya suara dan aksen.

Pengguna bisa menyesuaikan suara sesuai kebutuhan, mulai dari gaya santai seperti podcast, narasi audiobook, hingga gaya formal seperti pembawa berita. Aksen yang tersedia pun beragam, seperti Inggris dan Amerika.

Dengan fitur tersebut, suara yang dihasilkan bisa disesuaikan dengan berbagai kebutuhan, mulai dari narasi santai hingga dialog formal.

Bisa Bahasa Indonesia dan ada watermark AI

Seperti disebutkan sebelumnya, Gemini 3.1 Flash TTS hadir dengan dukungan lebih dari 70 bahasa, termasuk berbagai variasi regional. Bahasa seperti Indonesia, Jepang, Jerman, hingga Hindi sudah bisa diucapkan dengan lancar oleh AI ini.

Dalam pengujian oleh Artificial Analysis, model ini mencatat skor Elo 1.211 dan dinilai unggul dalam rasio kualitas dan biaya. Gemini 3.1 Flash TTS disebut mampu melampaui kualitas model ElevenLabs v3 dan berada sedikit di bawah Inworld 1.5 Max.

Untuk penggunaan, Google menyediakan versi gratis dari model ini. Namun, data dari pengguna gratis akan digunakan untuk pengembangan produk.

Sementara untuk versi berbayar, tarif yang dikenakan adalah 1 dollar AS per juta token untuk input teks dan 20 dollar AS per juta token untuk output audio.

Google juga menyediakan mode batch yang menawarkan biaya lebih murah, masing-masing 0,5 dollar AS dan 10 dollar AS.

Gemini 3.1 Flash TTS saat ini tersedia dalam tahap pratinjau melalui API Gemini, Vertex AI untuk pengguna perusahaan, serta Google Vids bagi pengguna Workspace. Selain itu, pengguna umum juga bisa mencoba fitur ini secara gratis melalui Google AI Studio.

Untuk memastikan transparansi, audio yang dihasilkan oleh model ini akan diberi watermark digital menggunakan teknologi SynthID milik Google. Watermark ini menandakan bahwa konten tersebut dibuat oleh kecerdasan buatan.

Tanda ini tertanam langsung dalam file suara, tetapi tidak bisa didengar oleh manusia. Meski begitu, sistem komputer tetap bisa mengenalinya sebagai konten buatan AI, bukan suara asli manusia, dirangkum KompasTekno dari The Decoder.

Tag: #google #luncurkan #gemini #flash #untuk #bikin #suara #natural #bisa #bicara #bahasa