Google Rilis AI Gemma 4 12B, AI Canggih untuk Laptop Tanpa Bergantung Cloud

Gemma 4 12B merupakan model AI multimodal yang diklaim mampu memahami berbagai jenis input, mulai dari teks, gambar, hingga audio secara native, langsung di perangkat. (Google)

15:42

4 Juni 2026

Google Rilis AI Gemma 4 12B, AI Canggih untuk Laptop Tanpa Bergantung Cloud

- Google memperkenalkan model kecerdasan buatan (arfiticial intelligence/AI) open-source terbarunya, bernama Gemma 4 12B pada Rabu (3/6/2026).

Gemma 4 12B dirancang untuk menghadirkan kemampuan AI multimodal langsung ke laptop dan komputer pengguna, tanpa membutuhkan spesifikasi hardware kelas atas.

Salah satu keunggulan yang ditawarkan Gemma 4 12B adalah kemampuannya untuk berjalan secara lokal (on-device) dengan VRAM atau mempori terpadu (unified memory) 16 GB.

Dengan kemampuan tersebut, model ini memungkinkan pengalaman AI multimodal dan agentic berjalan langsung di perangkat tanpa memerlukan server cloud.

Gemma 4 12B merupakan model AI multimodal yang dikalim mampu memahami berbagai jenis input, mulai dari teks, gambar, hingga audio.

Google menyebut, Gemma 4 12B menjadi model Gemma berukuran menengah pertama yang mendukung input audio secara langsung (native).

Model ini tidak lagi membutuhkan encoder terpisah untuk memproses gambar maupun suara sebelum diteruskan ke model bahasa utama.

Input visual dan audionya dapat langsung diproses oleh fondasi LLM backbone, yang menurut Google bisa mengurangi waktu pemrosesan, penggunaan memori, serta latensi sistem.

Adapun untuk pemrosesan gambar, Google mengganti vision encoder dengan modul embedding ringan yang terdri dari satu operasi perkalian matriks, positional embedding, dan normalisasi.

Sementara untuk audio, Google menghapus audio encoder speenuhnya dan memproyeksikan sinyal audio mentah langsung ke ruang representasi yang sama dengan token teks.

Bisa analisis video dan mengenali suara

Karena menjadi model Gemma pertama yang mendukung pemrosesan audio secara native, Gemma 4 12B juga dapat digunakan untuk menangani tugas audio yang lebih kompleks.

Beberapa di antaranya yaitu pengenalan suaran (speech recognition), transkripsi audio, penerjemahan suara, pembuatan kode, hingga analisis video.

Dalam panduan pengembang (Developer Guide) yang dibagikan Google, model ini disebut mampu memahami video berdurasi lima menit dengan menganalisis frame gambar dan audio secara bersamaan.

Google sendiri mendemonstrasikan kemampuan tersebut menggunakan cuplikan presentasi Google I/O. Dalam demonstrasi itu, Gemma 4 12B memproses 313 frame video dengan kecepatan satu frame per detik sekaligus menganalisis audio yang menyertainya.

Performa mendekati Gemma 26B

Google mengatakan, Gemma 4 12B hadir sebagai jembatan antara model Gemma E4B yang dirancang untuk perangkat edge dan model Gemma 26B Mixture of Experts (MoE) yang lebih bertenaga.

Kendati memiliki ukuran yang lebih kecil, performa Gemma 4 12B diklaim mendekati model Gemma 26B yang memiliki ukuran dua kali lebih besar.

Adapun beberapa pengujian benchmark yang dilakukan, yaitu GPQA Diaomond, MMLU Pro, dan DocVOA.

Google juga mencatat model AI barunya ini bahkan mampu mengungguli Gemma 3 27B generasi sebelumnya di sejumlah pengujian.

Gemma 4 12B sendiri kini telah tersedia di berbagai platform seperti Hugging Face, Ollama, LM Studio, dan platform lainnya.

Model ini dirilis dengan lisensi Apache 2.0 yang memungkinkan penggunaan untuk kebutuhan komersial, sebagaimana dihimpun KompasTekno dari TheDecoder.

Tag: #google #rilis #gemma #canggih #untuk #laptop #tanpa #bergantung #cloud