Google, çok modlu yapay zeka alanındaki yeni adımı olan Gemini Embedding 2 modelini ön izleme sürümüyle erişime açtı. Gemini mimarisi üzerine kurulan model, yalnızca metinle sınırlı kalan geleneksel embedding yaklaşımının ötesine geçerek görsel, video, ses ve PDF gibi farklı veri türlerini aynı anlamsal düzlemde işleyebiliyor.

Şirketin paylaştığı bilgilere göre Gemini Embedding 2, hem Gemini API hem de Vertex AI üzerinden kullanılabiliyor. Model, özellikle çapraz modlu arama, içerik eşleştirme, tavsiye sistemleri ve büyük veri kümelerinde benzerlik hesaplamaları gibi kullanım alanları için konumlandırılıyor. Böylece metin, görsel, video ve ses içerikleri arasında daha güçlü anlamsal ilişkiler kurulabiliyor.

Teknik açıdan bakıldığında model, 8.192 token giriş kapasitesiyle geliyor. Varsayılan olarak 3072 boyutlu vektörler üretebilen sistem, daha düşük boyut seçenekleriyle de kullanılabiliyor. Bu yapı, depolama maliyeti ile işlem performansı arasında daha esnek tercihler yapılmasına imkan tanıyor.

Gemini Embedding 2, çok modlu veri işleme tarafında da dikkat çekici bir esneklik sunuyor. Model, tek bir istekte birden fazla görseli, video verisini, ses dosyalarını ve PDF formatındaki dokümanları işleyebiliyor. Bu da geliştiricilerin farklı medya türlerini tek bir ortak anlam alanında değerlendiren uygulamalar geliştirmesini kolaylaştırıyor.

Google, yeni modeli özellikle gelişmiş arama sistemleri, öneri motorları, doküman tabanlı yapay zeka çözümleri ve medya analizi gibi alanlarda öne çıkarıyor. Çok modlu yapay zeka kullanımının yaygınlaştığı bir dönemde Gemini Embedding 2’nin, geliştiricilere daha kapsamlı ve esnek bir altyapı sunması bekleniyor.

İlgili Yazılar