Microsoft, Yapay Zeka Dayanaklı Ses Simüle Tahlilini Duyurdu

by Aybike Güzel
0 comment

Microsoft araştırmacıları, üç saniyelik bir ses örneği verildiğinde bir kişinin sesini simüle edebilen VALL-E isimli yeni bir yapay zeka modeli geliştirdi. Geliştirilen yapay zeka sırf üç saniyelik bir ses alıntısı ile mükemmeller yaratabiliyor, uzun soluklu metinler tıpkı bireye aitmiş üzere seslendirilebiliyor.

VALL-E, şahıstan alınan sesi sentezleyebiliyor ve bunu duygusal tonu koruyacak halde yapabiliyor. Yazılım şirketi VALL-E’yi bir “nöral kodek lisan modeli” olarak isimlendirmiş. Bu vakte kadar geliştirilen metinden-konuşmaya yapay zeka tahlilleri, dalga biçimlerini işleyerek konuşmayı standart bir formda sentezliyordu. VALL-E ise metin ve akustik ile farklı ses kodek kodları üretebiliyor. Temel olarak bir kişinin nasıl ses çıkardığını tahlil ediyor, EnCodec sayesinde tüm bilgileri ayrıştırıyor ve yapay zeka eğitim modeli sayesinde verilen örnek dışındaki telaffuz formunu varsayım edebiliyor. Microsoft’un tanımlaması ise şu biçimde:

VALL-E, şahsileştirilmiş konuşma sentezleme için konuşmacı ve içerik bilgilerini kısıtlayan 3 saniyelik kayıtla bile akustik bilgileri ve ses bilgilerine bağlık olarak akustik örnekler üretir. Son olarak, üretilen akustik örnekler ilgili nöral kod çözücü ile kesin dalga biçimini sentezlemek için kullanılır.

Microsoft, VALL-E’nin konuşma sentezi yeteneklerini Meta tarafından bir ortaya getirilen LibriLight isimli bir ses kütüphanesi üzerinde eğitti. Bu kütüphane, çoğunluğu halka açık LibriVox sesli kitaplardan alınan, 7.000’den fazla konuşmacının 60.000 saatlik İngilizce konuşmasını içeriyor. VALL-E’nin güzel bir sonuç üretebilmesi için üç saniyelik örnekteki sesin eğitim bilgilerindeki bir sesle yakından eşleşmesi gerekiyor.

Bir konuşmacının vokal tınısını ve duygusal tonunu müdafaanın yanı sıra, Microsoft’un tahlili örnek sesin “akustik ortamını” da taklit edebiliyor. Örneğin mevcut ses bir telefon görüşmesinden alındı diyelim. Ses çıkışı, bir telefon görüşmesinin akustik ve frekans özellikleri sentezlenmiş çıktısında simüle ediliyor.

You may also like

Leave a Comment