Meta, Tek Bir Modelle 100 Farklı Dili Konuşabilen Yeni Çoklu Moda Sahip Tercümanını Tanıttı

Yaklaşık 6.500 farklı dilde gerçekleşen sözlü ve yazılı iletişimi başarılı bir şekilde çevirmek, insanların farklı kültürler arasında etkili bir iletişim kurmasına yardımcı oluyor.

Yapay zeka destekli çeviri sistemleri, çeşitli diller arasında hızlı ve doğru bir şekilde çeviri yapabiliyor. Bu teknoloji sayesinde insanlar dünyanın dört bir yanındaki bilgiye erişebiliyor, farklı kültürlerden insanlarla iletişim kurabiliyor ve uluslararası işbirliklerini kolaylaştırabiliyor.

Çeviri teknolojileri, metin tabanlı çevirilerin ötesine geçerek sesli iletişimi de kapsayacak şekilde geliştiriliyor. Sesli çeviri özellikleri sayesinde anlık konuşmalar da gerçekleştirilebiliyor ve bu da insanların farklı dillerdeki konuşmaları anlayabilmelerini sağlıyor.

Meta Tek Bir Modelle Çok Daha Fazla İş Yapacak

Her bir modelin genellikle sadece bir veya iki görevi etkili bir şekilde yerine getirme yeteneği vardır. Bunları metni konuşmaya çevirme, konuşmayı metne dönüştürme veya farklı diller arasında çeviri yapma gibi sıralamak mümkün. Bu çoklu görevleri aynı anda yerine getirebilmek ise karmaşık bir hesaplama gerektirir. Bu nedenle, Meta tek bir model geliştirerek bu zorluğun üstesinden gelmeyi amaçladı.

Meta'nın salı günü yayınladığı blog yazısına göre, SeamlessM4T adını verdikleri bu model, "konuşmayı ve metni sorunsuz bir şekilde tercüme edebilen temel, çok dilli ve çok görevli bir model" olarak tanımlanıyor.

Bu yeni tercüman, konuşmayı metne veya metinden metine tercüme yeteneklerine sahip olmanın yanı sıra, 100 farklı dil arasında çeviri yapabiliyor. Ayrıca, aynı diller arasında konuşmadan konuşmaya veya metinden konuşmaya geçiş yapabiliyor ve bu işlemleri diğer 36 dilden herhangi birine çıktı olarak verebiliyor, bunun içinde İngilizce de bulunuyor.

Meta, SeamlessM4T'yi, zaten çeşitli modal çevirileri gerçekleştiren mevcut PyTorch tabanlı çok görevli UnitY model mimarisini temel alarak oluşturdu. BERT 2.0 sistemini ses kodlaması için kullanırken, analiz için girdileri bileşen belirteçlerine ayırır ve sesli yanıtlar oluşturmak için HiFi-GAN birimi ve ses kodlayıcısını kullanır.