Yapay zeka dudak okuma konusunda bizden daha âlâ

by Aybike Güzel
0 comment

Yüzüklerin Efendisi’nin ünlü direktörü Peter Jackson‘ın Birinci Dünya Savaşı sırasında yaşayan İngiliz ve Yeni Zelandalı askerlerin ömürlerini ve hasretlerini husus alan 2018 üretimi belgeseli They Shall Not Grow Old‘un yüz yılı aşkın sessiz çekimleri, hem renklendirme hem de daha evvel var olmayan diyaloglar için yeni ses kaydı yoluyla modernize edildi.

Yazdığınız cümleyi görüntüye dönüştüren yapay zeka da geliştirildi

17 sa. evvel eklendi

Jackson, arşiv imajlarında yer alan kişilerin ne söylediklerine dair bir fikir edinmek için, kaydedilen konuşmalarını iddia etmek üzere isimli dudak okuyucularından oluşan bir grup tuttu. Söylendiğine nazaran, “dudak okuyucular o kadar hassastılar ki konuşan bireylerin lehçe ve aksanlarını bile belirleyebildiler.”

Jackson 2018’de Daily Sentinel’e verdiği demeçte, “Bu adamlar siyah beyaz, sessiz bir dünyada yaşamadılar ve bu sinema savaşla ilgili değil; askerlerin savaş tecrübesiyle ilgili” dedi. “İzleyicinin askerlerin ne gördüğünü, nasıl gördüğünü ve duyduğunu mümkün olduğunca yakından görmesini istedim.” tabirlerini kullandı.

Bu, 2009 yılında yapılan bir araştırmanın birçok insanın dudak okumada yalnızca yüzde 20’lik bir doğruluk oranına sahip olduğunu ortaya koyduğu ve CDC’nin Çocuklarda İşitme Kaybı Ebeveyn Rehberi‘nin “iyi bir konuşma okuyucusunun 12 sözlük bir cümlede yalnızca 4 ila 5 kelimeyi görebileceğini” kestirim ettiği göz önüne alındığında oldukça büyük bir dilsel muvaffakiyet. Emsal biçimde, Oklahoma Üniversitesi’nde 2011 yılında yapılan bir çalışmada da deneklerin yalnızca yüzde 10’unun gerçek okuyabildiği görülmüş.

Bağlam önemli

Dudak okuma uygulaması geliştiricisi Liopa’nın CTO’su Dr. Fabian Campbell-West Engadget’a e-posta yoluyla yaptığı açıklamada, “Konuşmayı çoklukla duyduğumuz şey olarak düşünürüz, lakin konuşmanın duyulabilir kısmı yalnızca bir parçasıdır” dedi. “Algıladığımız biçimiyle, bir kişinin konuşması görsel ve işitsel ünitelere ayrılabilir. Vizem ismi verilen görsel üniteler dudak hareketleri olarak görülür. Fonem adı verilen işitsel üniteler ise ses dalgaları olarak duyulur.”

“Birbirimizle bağlantı kurarken çoklukla yüz yüze iletişim tercih edilir zira hem görsel hem de işitsel bilgilere duyarlıyız” diye devam etti. “Bununla birlikte, görsel öğelerin yaklaşık üç katı kadar sesbirim vardır. Öbür bir deyişle, dudak hareketleri tek başına konuşmanın işitilebilir kısmı kadar bilgi içermez.”

O zamanki Oxford Üniversitesi araştırmacısı ve LipNet geliştiricisi Yannis Assael, 2016 yılında Fisher’ın daha evvelki çalışmalarına atıfta bulunarak “Dudakların ve bazen lisan ve dişlerin yanı sıra dudak okuma hareketlerinin çoğu kapalıdır ve bağlam olmadan meçhullüğü gidermek zordur” dedi.

Daha büyük bir dönüşümün genel bağlamına ek olarak, insanların konuşurken aktardıkları şeylerin birçok kelamsız olarak gerçekleşir. Campbell-West, “Kişiyi duymanın yanı sıra görebildiğinizde iletişim ekseriyetle daha kolaydır” diyor ve ekliyor: “Ancak son vakitlerde manzaralı aramaların yaygınlaşması hepimize bunun yalnızca kişiyi görmekle ilgili olmadığını, çok daha fazla nüans olduğunu gösterdi. İnsan irtibatını anlamaya yönelik akıllı otomatik sistemler oluşturmak için şu anda mümkün olandan çok daha fazla potansiyel var.”

Ağaca bakarken, ormanı gözden kaçırmak

İnsan ve makine dudak okuyucuları tıpkı genel son gayeye sahip olsa da, ferdî süreçlerinin maksatları büyük ölçüde farklılık göstermekte. İran Bilim ve Teknoloji Üniversitesi’nden bir küme araştırmacının 2021’de savunduğu üzere, “Geçtiğimiz yıllarda, bir kişinin dudak okuması için çeşitli usuller önerildi, lakin bu usuller ile yapay zekada önerilen dudak okuma sistemleri ortasında kıymetli bir fark var. Makine tarafından dudak okuma için önerilen prosedürlerin maksadı, görsel bilgileri sözlere dönüştürmek… Fakat, beşerler tarafından dudak okumanın temel hedefi, konuşmanın her bir sözünü anlamak değil, konuşmanın manasını çözmek.”

Kısacası, “insanlar genellikle tembeldir ve çok fazla ön bilgiye sahip olduğumuz için bağlama güvenirler” diye açıklanıyor bu durum. Ve süreçteki bu uyumsuzluk – ağaca bakarken, ormanı gözden kaçırmanın dilbilimsel muadili – dudak okumayı otomatikleştirme gayesi için eşsiz bir zorluk teşkil ediyor.

Hao, “Dudak okuma çalışmalarındaki en büyük manilerden biri standart ve pratik bir data tabanının olmamasıdır” dedi. “Veritabanının boyutu ve kalitesi bu modelin eğitim tesirini belirler ve kusursuz bir veritabanı da dudak okuma misyonlarında giderek daha karmaşık ve sıkıntı meselelerin keşfedilmesini ve çözülmesini teşvik edecektir.” Diğer engeller ortasında zayıf aydınlatma ve değişen art planlar üzere çevresel faktörler, konuşmacının cilt tonu, başının dönme açısı (ağzın görüş açısını değiştirir) ve kırışıklıkların ve sakalların belirsizleştirici varlığı, makine görüş sistemlerini karıştırabilir.

Assael‘in belirttiği üzere, “Makineyle dudak okuma zordur zira görüntüden uzamsal-zamansal özelliklerin çıkarılmasını gerektirir (çünkü hem pozisyon hem de hareket önemlidir).” Bununla birlikte, Xinjiang Üniversitesi‘nden Mingfeng Hao’nun 2020 tarihli A Survey on Lip Reading Technology’de açıkladığı üzere, “video sınıflandırmasına ilişkin olan hareket tanıma, tek bir imaj aracılığıyla sınıflandırılabilir.” Hasebiyle, “dudak okumanın çoklukla tek bir imgeden konuşma içeriğiyle ilgili özellikleri çıkarması ve içeriği çıkarmak için tüm manzara dizisi ortasındaki vakit münasebetini tahlil etmesi gerekir.” Bu, üstesinden gelmek için hem doğal lisan sürece hem de makine görüşü yetenekleri gerektiren bir pürüzdür.

Kısaltma çorbası

Günümüzde konuşma tanıma, girdi kaynağına bağlı olarak üç çeşittir. Bugün bahsettiğimiz şey Görsel Konuşma Tanıma (VSR) araştırması kapsamına giriyor – yani ne iletildiğini anlamak için sadece görsel araçlar kullanıyor. Buna karşılık, tamamen sese dayanan Otomatik Konuşma Tanıma (ASR), yani “Hey Siri” ve iddialarına hem işitsel hem de görsel ipuçlarını dahil eden İşitsel-Görsel Otomatik Konuşma Tanıma (AV-ASR) vardır.

Campbell-West, “Otomatik konuşma tanıma (ASR) araştırmaları son derece olgunlaşmış durumda ve şu anki son teknoloji, araştırmaların başladığı devirde mümkün olanlarla kıyaslandığında tanınmaz halde” dedi. “Görsel konuşma tanıma (VSR) hala nispeten erken basamaklarda ve sistemler olgunlaşmaya devam edecek.” Liopa’nın hastanedeki hastaların etkin olarak sözlü bağlantı kurup kuramadıklarına bakılmaksızın bağlantı kurmalarını sağlayan SRAVI uygulaması, ikinci metodolojiye dayanıyor. “Bu, başkasının eksikliklerinin üstesinden gelmeye yardımcı olmak için her iki bilgi modunu da kullanabilir” dedi. “Gelecekte, anlamayı desteklemek için ek ipuçları kullanan sistemler kesinlikle olacaktır.”

“Campbell-West kelamlarına şöyle devam etti: “VSR uygulamaları ortasında çeşitli farklılıklar var. “Teknik açıdan bakıldığında modellerin nasıl oluşturulduğuna dair mimari farklıdır… Derin öğrenme sorunlarına iki farklı açıdan yaklaşılabilir. Birincisi mümkün olan en düzgün mimariyi aramak, ikincisi ise mümkün olduğunca fazla varyasyonu kapsayacak biçimde büyük ölçüde data kullanmak. Her iki yaklaşım da kıymetlidir ve birleştirilebilir.”

VSR araştırmalarının birinci günlerinde, AVLetters üzere data kümelerinin elle etiketlenmesi ve kategorize edilmesi gerekiyordu; bu da makine tahsili modellerini eğitmek için mevcut data ölçüsünü önemli biçimde kısıtlayan yoğun emek gerektiren bir sınırlamaydı. Bu nedenle, birinci araştırmalar evvel mutlak temellere (alfabe ve sayı seviyesinde tanımlama) odaklanmış, daha sonra söz ve söz öbeği seviyesinde tanımlamaya ilerlemiş ve cümle seviyesi, insan konuşmasını daha doğal ortamlarda ve durumlarda anlamayı amaçlayan günümüzün en son teknolojisidir.

Son yıllarda, modelleri esasen internetin geneli üzerinde eğiten daha gelişmiş derin öğrenme tekniklerinin yükselişi ve çevrimiçi olarak yayınlanan toplumsal ve görsel medyanın muazzam genişlemesi, araştırmacıların çeşitli BBC programlarından binlerce konuşulan satıra dayanan Oxford-BBC Dudak Okuma Cümleleri 2 (LRS2) üzere çok daha büyük bilgi kümeleri oluşturmasına imkan sağlamıştır. LRS3-TED, çeşitli TED programlarından 150.000 cümle toplarken, LSVSR (Büyük Ölçekli Görsel Konuşma Tanıma) veritabanı, şu anda var olan en büyükler ortasında, 2.934.899 konuşma tabiri ve 127.000‘den fazla söz içeren 140.000 saatlik ses segmenti sunmaktadır.

Ve bu yalnızca İngilizce değil: Emsal data setleri, bir dizi Çince şiire dayanan HIT-AVDB-II yahut birebir 15 cümleyi söyleyen 300 şahıstan oluşan bir Fransızca bilgi tabanı olan IV2 üzere bir dizi lisan için mevcuttur. Benzeri setler Rusça, İspanyolca ve Çekçe uygulamaları için de mevcut.

İleriye bakmak

Campbell-West, VSR’nin geleceğinin ASR’nin geçmişine çok benzeyebileceğini söylüyor: “Son birkaç on yıldaki gelişimi sırasında ASR için olduğu üzere VSR’nin benimsenmesinin önünde de birçok mahzur var.” Kapalılık bunlardan en büyüğü elbette. Campbell-West, genç jenerasyonların hayatlarını internet üzerinden belgelemekten daha az çekindiklerini belirtiyor ve ekliyor: “İnsanlar haklı olarak mahremiyet konusunda eskisinden daha şuurlu. Beşerler bir kameraya tahammül edemezken bir mikrofona tahammül edebilirler.”

Her şeye karşın Campbell-West, VSR’nin yüksek doğrulukta otomatik altyazı üzere gelecekteki potansiyel uygulamaları konusunda heyecanını koruyor. Campbell-West, “Biriyle konuşurken gözlüğünüze canlı altyazı alabilmeniz için gerçek vakitli bir altyazı sistemi öngörüyorum” dedi. “İşitme zahmeti çeken herkes için bu hayat değiştiren bir uygulama olabilir, fakat gürültülü ortamlarda genel kullanım için bile bu faydalı olabilir.”

“Gürültünün ASR’yi çok zorlaştırdığı lakin ses denetiminin avantajlı olduğu durumlar vardır, örneğin bir otomobilde olduğu üzere,” diye devam etti. “VSR bu sistemlerin şoför ve yolcular için daha uygun ve daha inançlı hale gelmesine yardımcı olabilir.”

Öte yandan, UW’deki laboratuarında Beyin-Bilgisayar Arayüzü teknolojilerini kapsamlı bir formda araştıran Profesör Adrian KC Lee, giyilebilir metin ekranlarını BCI teknolojisi daha da olgunlaşana kadar “geçici” bir önlem olarak görüyor. Lee, “BCI’ı ‘Tamam, yüksek sesle konuşmadan beyinden beyefendisine irtibat kuracağız’ noktasına kadar satmak istemiyoruz” dedi. “Yaklaşık on yıl içinde, biyolojik sinyallerin işitme aygıtlarında kullanıldığını göreceksiniz. Aygıtın gözlerinizin nereye baktığını görmesi, dinlemeyi nereye odaklayacağı konusunda bir ipucu verebilir.”

Lee, “Gerçekten ‘evet, beyin denetimli işitme aygıtları alacağız’ demekte tereddüt ediyorum,” diye kabul etti. “Bunun yapılabilir olduğunu düşünüyorum, lakin vakit alacağını biliyorsunuz.”

You may also like

Leave a Comment