Yapay zeka çılgınlığına Microsoft da katılıyor. Microsoft araştırmacıları, üç saniyelik ses örneği verildiğinde bir kişinin sesini simüle edebilen yapay zeka projesini açıkladı. VALL-E adlı yeni “metinden konuşmaya yapay zeka” modeli, EnCodec adlı bir teknolojiyi temel alıyor.
Microsoft Vall-E yapay zeka nedir?
Microsoft, yalnızca üç saniyelik bir ses örneğiyle kişinin sesini taklit edebilen yapay zeka tabanlı modelini duyurdu. Dalga biçimlerini değiştirerek konuşmayı sentezleyen diğer yöntemlerinin aksine, VALL-E bir kişinin çıkardığı sesi analiz edebiliyor. Bu bilgiyi bileşenlere ayıran model, eğitim verilerini kullanarak o sesin “codec” bilgilerini çıkarabiliyor.
Microsoft, VALL-E’nin konuşma sentezleme yeteneğini, Meta tarafından oluşturulan halka açık sesli kitaplar ile geliştirdiğini ifade etti. 7000’den fazla konuşmacıdan 60 bin saatlik İngilizce konuşmayı içeren LibriLight adlı bir ses kitaplığını kullandı.
VALL-E, önceden tasarlanmış hazır sesler olmadan çalışabilir ve analiz ederek öğrenme yeteneğine sahip. Yani daha önce hiç duymadığı kelimeleri bile öğrenerek çıkartabilir. Microsoft’un yapay zeka modeli, henüz halka açık olarak sunulmadı.
Şirket başta güvenlik olmak üzere çeşitli konularda önlem almayı ihmal etmedi. Bir kişinin sesini taklit etme veya belirli bir konuşmacının kimliğine bürünme gibi durumlar için algılama modeli üzerinde çalıştığını dile getirdi.
Apple ise daha önce kitapları sesli hale getiren yapay zeka modelini duyurmuştu. Apple Books, yapay zeka ile ses sentezleme modelini kullanarak birçok kitabı sesli hale getirmeyi planlıyor.
Siz bu konu hakkında ne düşünüyorsunuz? Fikirlerinizi yorumlar kısmında bizlerle paylaşabilirsiniz.
{{user}} {{datetime}}
{{text}}