F5 dan Nvidia Punya Solusi Bikin Infrastruktur AI Lebih Optimal dan Hemat Biaya

- F5, perusahaan teknologi asal AS yang fokus pada infrastruktur aplikasi, jaringan, dan keamanan siber mengumumkan perluasan kolaborasinya dengan Nvidia.

Ekspansi ini bertujuan untuk membantu perusahaan menjalankan sistem kecerdasan buatan (AI) dengan lebih efisien dan hemat biaya.

Lewat integrasi terbaru ini, kedua perusahaan ingin membuat infrastruktur AI mampu menghasilkan lebih banyak output tanpa harus terus-menerus menambah GPU baru yang harganya mahal.

Solusi tersebut menggabungkan platform BIG-IP Next for Kubernetes milik F5 dengan Nvidia BlueField-3 DPU.

Keduanya dirancang untuk mengoptimalkan proses inferensi AI, yakni tahap ketika model AI yang sudah dilatih mulai digunakan untuk menghasilkan jawaban, ringkasan, gambar, atau respons lain untuk pengguna.

F5 mengatakan, saat ini banyak perusahaan mulai bergeser dari sekadar bereksperimen dengan AI menjadi benar-benar menjadikannya layanan bisnis yang menghasilkan uang. Karena itu, fokus industri AI pun ikut berubah.

Jika sebelumnya perusahaan berlomba membeli GPU sebanyak mungkin, kini perhatian mulai beralih ke efisiensi penggunaan GPU tersebut.

Sederhananya, perusahaan kini ingin memastikan GPU yang mereka miliki benar-benar bekerja optimal dan tidak banyak "menganggur".

Dalam sistem AI modern, output AI diukur menggunakan satuan bernama token. Token dapat berupa kata, simbol, atau potongan data yang diproses AI saat menghasilkan jawaban.

Semakin cepat dan banyak token diproduksi, semakin responsif layanan AI yang digunakan pengguna.

Karena itu, muncul istilah “tokenomics” di industri AI, yakni cara mengukur efisiensi dan nilai ekonomi dari produksi token AI. Metriknya meliputi jumlah token yang dihasilkan, biaya untuk menghasilkan token, kecepatan AI mulai merespons pengguna, dan pendapatan yang bisa dihasilkan dari setiap GPU.

F5 dan Nvidia mengatakan solusi gabungan mereka dirancang untuk meningkatkan efisiensi tersebut.

"Infrastruktur AI bukan hanya tentang akses ke GPU atau peningkatan skala implementasinya. Ia telah berevolusi menjadi upaya memaksimalkan output ekonomi per akselerator," kata Chief Product Officer F5, Kunal Anand, dikutip dari keterangan resmi yang diterima KompasTekno.

Menurut Anand, BIG-IP Next for Kubernetes memungkinkan AI factory memperlakukan produksi token sebagai metrik bisnis yang terukur. Sistem ini diklaim dapat meningkatkan hasil kerja GPU sekaligus menekan biaya per token.

Bagaimana sistem ini bekerja?

F5 menjelaskan platform mereka kini dapat membaca berbagai data telemetri dari infrastruktur Nvidia, seperti statistik Nvidia NIM, sinyal runtime Dynamo, hingga kondisi GPU secara real-time.

Dengan informasi tersebut, sistem bisa menentukan beban kerja AI mana yang paling cocok dijalankan di GPU tertentu sebelum proses dimulai.

Analogi sederhananya seperti sistem lalu lintas pintar yang mengarahkan kendaraan ke jalur paling lancar agar perjalanan lebih cepat dan tidak macet.

Pendekatan ini penting karena sistem AI modern kini semakin kompleks. Banyak layanan AI terbaru menggunakan pendekatan agentic AI, yakni AI yang dapat menjalankan tugas secara lebih mandiri dan sadar konteks, bukan sekadar menjawab pertanyaan seperti chatbot biasa.

Karena itu, pengaturan trafik data AI menjadi jauh lebih rumit dibanding load balancing tradisional.

F5 mengatakan solusi terbaru ini mendukung routing berbasis inferensi untuk agentic AI, pengelolaan Nvidia BlueField DPU, keamanan multi-tenant, serta observability atau pemantauan sistem AI dalam lingkungan Kubernetes.

Konsep multi-tenant di sini berarti satu infrastruktur GPU dapat dipakai bersama oleh banyak unit bisnis atau pelanggan berbeda secara aman tanpa saling mengganggu performa.

Klaim peningkatan performa

Dalam pengujian yang divalidasi oleh The Tolly Group, F5 mengklaim integrasi dengan Nvidia BlueField-3 DPU mampu meningkatkan token throughput hingga 40 persen, mempercepat time to first token (TTFT) hingga 61 persen, dan mengurangi latensi permintaan hingga 34 persen.

TTFT sendiri merupakan waktu yang dibutuhkan AI untuk mulai memberikan respons pertama kepada pengguna setelah menerima permintaan.

Peningkatan tersebut dicapai dengan memindahkan tugas seperti networking, enkripsi, load balancing AI, dan manajemen trafik ke DPU Nvidia BlueField-3.

Dengan begitu, CPU dan GPU bisa lebih fokus menjalankan proses inferensi AI.

"F5 dan Nvidia bersama-sama memberdayakan perusahaan untuk meningkatkan skala inferensi pada AI factory secara efisien dan ekonomis," kata SVP Networking Nvidia, Kevin Deierling.

Menariknya, F5 mengatakan peningkatan performa tersebut dapat diterapkan tanpa perlu memodifikasi model AI yang sudah ada.

Artinya, perusahaan tidak perlu melatih ulang model AI mereka untuk mendapatkan peningkatan efisiensi.

F5 menyebut pendekatan ini dapat membantu perusahaan mengurangi kebutuhan overprovisioning, yakni membeli kapasitas GPU berlebihan hanya untuk mengantisipasi lonjakan beban kerja AI.

Ke depan, F5 dan Nvidia menargetkan solusi ini menjadi semacam “control plane” untuk AI factory, yakni sistem pusat yang mengatur alur trafik, konsumsi token, keamanan, dan efisiensi infrastruktur AI secara keseluruhan.

Tag: #nvidia #punya #solusi #bikin #infrastruktur #lebih #optimal #hemat #biaya