OpenAI ve Google arasındaki son yapay zeka mücadelesinin ardından Meta’nın yapay zeka araştırmacıları, kendi modelleriyle yarışmaya katılmaya hazırlanıyor.
Çok modlu yapay zeka modelleri, metinler, resimler, ses kayıtları ve videolar gibi çeşitli medya biçimlerini işleyebildikleri için büyük dil modellerinin geliştirilmiş versiyonları olarak kabul ediliyor.
Örneğin, artık kameranızı açabilir ve OpenAI’nin en yeni GPT-4 AI modelinden çevrenizle ilgili bir açıklama yazmasını isteyebilirsiniz.
BUKALEMUN: META’NIN ÇOK MODLU YAPAY ZEKA YAKLAŞIMI
Facebook’un ana şirketi Meta, kendi multi modeli Chameleon (Bukalemun) ile benzer bir araç piyasaya sürmeyi planlıyor.
Chameleon adı verilen yeni sistem, eski bir füzyon mimarisi üzerine inşa edildi ve bu nedenle, diğer sistemlerin çoğunda mümkün olmayan şekillerde birden fazla girdiyi bir araya getirebiliyor.
Bugüne kadar bu tür modellerin çoğu, işlemenin ilk aşamalarında bu tür verileri ayrı varlıklar olarak işliyordu ve daha sonra bunları ilişkilendirmeleri aramak için bir araya getiriyordu. Bu teknik geç füzyon olarak adlandırıldı.
Böyle bir yaklaşımın işe yaradığı görüldü ancak entegrasyonla ilgili sınırlamaları var. Bunun üstesinden gelmek için Meta ekibi, modellerini erken füzyon mimarisine dayandırdı.
Meta’nın Chameleon ekibine göre model, ‘görüntüleri ve metni herhangi bir rastgele sırayla anlama ve oluşturma kapasitesine sahip erken füzyon belirteci tabanlı karma modeller’ dizisinden oluşuyor.
Erken füzyon mimarisini kullanan yapay zeka modelleri, geç füzyon yaklaşımının sınırlamalarının ötesine geçmeyi vaat ediyor.
Araştırmacılar, Gemini’den farklı olarak Chameleon’un uçtan uca bir model olduğunu ve bu durumun görüntü kod çözücülere olan ihtiyacı gereksiz hale getirdiğini belirtiyor.