Setelah hanya dua bulan sejak peluncuran model AI besar terakhirnya, Meta kembali membuat gebrakan baru dengan memperkenalkan model AI terbuka pertama yang mampu memproses gambar dan teks. Model terbaru ini, Llama 3.2, menjanjikan peluang baru bagi para pengembang untuk menciptakan aplikasi AI yang lebih canggih, seperti aplikasi augmented reality (AR) yang bisa memberikan pemahaman real-time tentang video, mesin pencari gambar berbasis konten, hingga analisis dokumen yang mampu meringkas teks panjang dengan cepat.
Apa yang Membuat Llama 3.2 Istimewa?
Llama 3.2 hadir sebagai langkah signifikan dari Meta untuk memberikan akses yang lebih mudah bagi pengembang. Dilansir dari The Verge, Menurut Ahmad Al-Dahle, Wakil Presiden AI Generatif di Meta, pengembang hanya perlu menambahkan “modality baru” ini untuk menunjukkan gambar ke Llama dan membiarkannya berkomunikasi secara otomatis.
Model ini juga akan mendukung hardware seperti kacamata Ray-Ban Meta, yang tengah dikembangkan Meta untuk memperkuat kemampuan AI dalam perangkat kerasnya.
Fitur Utama Llama 3.2
- Dukungan Multimodal (Gambar dan Teks) Llama 3.2 dilengkapi dengan kemampuan pemrosesan gambar dan teks. Hal ini memungkinkan model untuk menganalisis visual, serta berkomunikasi menggunakan teks, yang menjadi nilai tambah besar dalam aplikasi seperti pencarian gambar visual dan augmented reality.
- Skalabilitas Tersedia dua model vision dengan kapasitas 11 miliar dan 90 miliar parameter, serta dua model ringan khusus teks dengan 1 miliar dan 3 miliar parameter. Model yang lebih kecil ini dirancang agar dapat bekerja pada hardware seperti Qualcomm dan MediaTek, yang sering digunakan pada perangkat mobile.
- Peningkatan Kemampuan AI Meskipun Meta baru memulai model multimodal, perusahaan seperti OpenAI dan Google sudah lebih dulu meluncurkan model sejenis tahun lalu. Namun, Llama 3.2 diharapkan dapat bersaing dengan dukungan untuk perangkat mobile dan integrasi yang mudah.
- Kompatibilitas dengan Llama 3.1 Meskipun Llama 3.2 baru dirilis, Meta tidak sepenuhnya meninggalkan model sebelumnya. Llama 3.1, yang dirilis pada Juli lalu dengan 405 miliar parameter, tetap menjadi pilihan untuk aplikasi yang membutuhkan kapasitas lebih besar, khususnya untuk menghasilkan teks yang lebih kompleks.
Potensi Pengembangan Aplikasi AI yang Lebih Lanjut
Dengan kemampuan untuk memproses gambar dan teks, Llama 3.2 membuka pintu bagi berbagai jenis aplikasi baru. Beberapa contoh potensial meliputi:
- Aplikasi AR yang dapat memberikan informasi secara real-time dengan memahami lingkungan visual pengguna.
- Pencarian Gambar Visual, di mana mesin pencari mampu mengelompokkan gambar berdasarkan konten yang dianalisis.
- Pengolahan Dokumen dan Teks, yang bisa secara otomatis meringkas informasi panjang menjadi lebih singkat dan mudah dipahami.
Meta berharap Llama 3.2 dapat menjadi alat yang diandalkan oleh pengembang untuk menciptakan inovasi-inovasi baru, terutama dengan kemampuannya yang mudah diintegrasikan dan diterapkan.
Meta vs Kompetitor: Siapa Unggul?
Meskipun Meta baru merilis model multimodal, mereka memiliki keunggulan dengan menghadirkan model yang dapat bekerja pada perangkat mobile. Dalam persaingan dengan OpenAI dan Google, yang telah lebih dulu meluncurkan model serupa, Meta mengambil pendekatan yang lebih fokus pada integrasi dengan perangkat keras, seperti kacamata pintar Ray-Ban Meta. Dengan demikian, Llama 3.2 diharapkan tidak hanya mendominasi di ranah software, tetapi juga memperkuat posisi Meta di pasar perangkat keras pintar.
Kesimpulan
Meta terus mendorong batasan inovasi dengan model AI terbuka terbaru, Llama 3.2. Dengan kemampuannya yang bisa memproses gambar dan teks, serta mendukung perangkat mobile, model ini siap menjadi alat yang diandalkan oleh pengembang untuk menciptakan aplikasi AI generasi berikutnya. Perangkat seperti kacamata Ray-Ban Meta hanya permulaan dari apa yang bisa dilakukan Meta dengan teknologi baru ini.