Media90 – Raksasa teknologi chip, Nvidia, baru saja memperkenalkan inovasi revolusioner yang berpotensi mengubah peta komputasi kecerdasan buatan (AI). Teknologi bernama Dynamic Memory Sparsification (DMS) ini diklaim mampu memangkas kebutuhan memori GPU hingga delapan kali lipat, tanpa menurunkan akurasi model AI.
Inovasi ini muncul di tengah krisis ketersediaan unit pemroses grafis (GPU) dan tingginya biaya operasional pusat data AI di seluruh dunia. Dengan DMS, Nvidia menargetkan kendala utama dalam pengembangan Large Language Model (LLM) modern: keterbatasan memori saat melakukan proses penalaran (reasoning).
Solusi untuk Kendala ‘Bottleneck’ Memori
Saat menjalankan model bahasa besar, AI menghasilkan teks atau token demi token yang disimpan dalam key-value cache (KV cache)—memori sementara yang terus membengkak seiring panjangnya konteks.
Semakin panjang proses penalaran model, semakin banyak memori GPU yang tersedot. Kondisi ini sering menjadi bottleneck, menyebabkan biaya komputasi melonjak dan membatasi jumlah pengguna yang dapat dilayani secara bersamaan. DMS hadir untuk mengelola KV cache agar tetap efisien tanpa mengorbankan informasi penting.
Cara Kerja Dynamic Memory Sparsification (DMS)
Berbeda dengan metode tradisional yang menghapus data memori lama secara heuristik, DMS bekerja lebih cerdas. Model AI “mengelola memorinya sendiri,” mengenali token mana yang relevan untuk penalaran selanjutnya dan mana yang bisa dihapus.
Nvidia juga menerapkan delayed eviction, menunda penghapusan token agar model sempat menyerap konteks penting sebelum memori dibersihkan. Hasilnya: beban GPU berkurang signifikan, tanpa mengganggu kualitas output AI.
Akurasi Tetap Terjaga, Performa Meningkat
Dalam pengujian pada model populer seperti Qwen dan Llama, DMS menunjukkan hasil impresif. Misalnya, pada Qwen3-8B, akurasi tetap stabil di berbagai benchmark seperti MATH 500, HumanEval, hingga AIME 2024. Bahkan, dalam beberapa skenario coding dan matematika, model dengan DMS mencatat skor sedikit lebih tinggi dibanding versi standar.
Efisiensi memori ini langsung meningkatkan kecepatan sistem. GPU tidak perlu terus-menerus membaca dan menulis data besar ke memori, sehingga latensi berkurang dan throughput meningkat. Model AI kini bisa memproses konteks lebih panjang tanpa risiko kehabisan memori (out of memory).
Kompatibilitas dan Kemudahan Adopsi
DMS dirancang agar mudah diadopsi. Nvidia menyatakan teknologi ini dapat diterapkan pada model pretrained tanpa perlu pelatihan ulang yang mahal.
DMS kompatibel dengan infrastruktur standar dan telah dirilis sebagai bagian dari framework Model Optimizer Nvidia, dapat diintegrasikan ke ekosistem AI populer seperti Hugging Face dan sistem yang mendukung FlashAttention. Perusahaan pengembang AI pun bisa segera mengimplementasikan teknologi ini untuk menekan biaya infrastruktur.
Dampak Ekonomi bagi Industri AI
Penghematan memori hingga delapan kali lipat berarti pengurangan biaya operasional yang signifikan. Satu GPU kini dapat menangani beban kerja yang sebelumnya membutuhkan kapasitas jauh lebih besar, atau melayani lebih banyak pengguna dengan perangkat keras yang sama.
Bagi perusahaan yang kesulitan mendapatkan chip AI terbaru, DMS memberi solusi perangkat lunak yang mengoptimalkan perangkat yang ada. Dengan teknologi ini, Nvidia memastikan kemajuan AI tidak terhambat oleh keterbatasan fisik memori semata.
Dengan DMS, kecepatan, efisiensi, dan biaya operasional AI kini berada pada level yang lebih terjangkau, menandai era baru komputasi AI yang lebih cerdas dan hemat sumber daya.














