Media90 – Raksasa teknologi Google kembali memperkuat dominasinya di dunia kecerdasan buatan dengan merilis model text-to-speech (TTS) terbaru, Gemini 3.1 Flash TTS, pada Rabu (15/4/2026). Model ini dirancang untuk menghadirkan sintesis suara yang jauh lebih natural, ekspresif, serta memiliki kontrol presisi yang belum pernah ada sebelumnya.
Sebagai bagian dari keluarga besar Gemini 3.1, model ini tidak hanya mengedepankan kualitas audio yang menyerupai suara manusia, tetapi juga mendukung lebih dari 70 bahasa, termasuk Bahasa Indonesia. Kemampuan percakapan multi-pembicara (multi-speaker) menjadikan Gemini 3.1 Flash TTS sebagai kandidat kuat standar baru dalam pengembangan antarmuka suara berbasis AI.
Kendali Kreatif Lewat Audio Tags
Salah satu inovasi paling menarik adalah fitur Audio Tags. Dengan fitur ini, pengguna dapat mengatur gaya bicara AI hanya melalui instruksi teks sederhana. Emosi seperti “antusias”, “senang”, hingga nada “serius dan informatif” kini bisa disesuaikan dengan mudah.
Tak hanya itu, Audio Tags juga memungkinkan pengaturan kecepatan bicara dan aksen secara lebih detail. Google menyediakan berbagai gaya, mulai dari narasi santai untuk podcast dan audiobook hingga gaya formal seperti pembawa berita. Berdasarkan pengujian dari Artificial Analysis, model ini mencatat skor Elo sebesar 1.211, menjadikannya salah satu solusi paling kompetitif dari segi kualitas dan biaya.
Ekspansi ke Dunia Fisik Lewat Robot AI
Bersamaan dengan peluncuran model suara, Google juga memperkenalkan Gemini Robotics-ER 1.6. Model AI ini dirancang untuk memungkinkan robot menjalankan tugas kompleks di dunia nyata melalui pendekatan “embodied thinking”.
Dikembangkan oleh Google DeepMind dan bekerja sama dengan Boston Dynamics, teknologi ini memungkinkan robot memahami lingkungan secara spasial, merencanakan tindakan, hingga mengevaluasi hasil secara mandiri. Dalam pengujian keamanan, model ini bahkan mencatat peningkatan akurasi hingga 10% dalam analisis video dibanding generasi sebelumnya.
Ekosistem Baru di macOS dan Inovasi Video
Google juga memperluas jangkauan ekosistem AI-nya dengan menghadirkan aplikasi Gemini native untuk macOS. Pengguna kini dapat mengakses Gemini dengan cepat melalui pintasan Option + Space.
Aplikasi ini dilengkapi fitur berbagi jendela untuk transfer konteks instan, serta dukungan pembuatan gambar melalui Nano Banana dan video menggunakan Veo. Untuk menjaga transparansi, Google menyematkan teknologi SynthID, yaitu watermark digital tak terdengar yang ditanamkan pada setiap audio hasil AI agar tetap dapat dideteksi oleh sistem komputer.
Akses dan Skema Harga
Untuk akses, Google menyediakan versi gratis melalui Google AI Studio, meskipun data pengguna akan dimanfaatkan untuk pengembangan produk. Sementara itu, pengguna profesional dikenakan biaya sekitar 1 dolar AS per juta token input teks dan 20 dolar AS per juta token output audio.
Tersedia pula opsi batch dengan harga 50% lebih murah untuk kebutuhan skala besar. Saat ini, Gemini 3.1 Flash TTS sudah bisa diakses melalui API Gemini, Vertex AI untuk kalangan bisnis, serta Google Vids bagi pengguna Workspace.
Dengan peluncuran ini, Google semakin menegaskan posisinya sebagai pemain utama dalam integrasi AI, tidak hanya di ranah digital seperti suara dan video, tetapi juga hingga ke dunia fisik melalui teknologi robotika canggih.














