Sadržaj:
- Kako duboko učenje generira ljudske glasove
- Rekreacija glasa osobe bez glasa
- Uravnotežavanje negativne uporabe AI sintetizatora
Video: Добро пожаловать в чудесный мир (Studeni 2024)
2017. godine, Amyotrophic Lateral Sclerosis (ALS), razorni neurološki poremećaj, opljačkao je Pat Quinn, utemeljitelja čuvenog Ice Bucket Challengea, njegove sposobnosti govora.
Zahvaljujući napretku u strojnom učenju i dubokom učenju, algoritmi umjetne inteligencije postali su vrlo dobri u oponašanju ljudi. No, iako su mnoga ugledna zbivanja u svemiru negativna, AI-ova imitacijska moć bila je snaga pozitivne promjene za Quinn.
"Većina ljudi koji žive s ALS-om (poznatim i kao bolest motornih neurona) završavaju paralizirani i nisu u mogućnosti komunicirati sa bilo čim osim umjetnim 'računalnim' glasovima", kaže Oskar Westerdal, suosnivač Project Revoicea, inicijative koja ima za cilj pomoći pacijentima s ALS-om poput Quinna, Kako bi ponovno stvorio Quinnov glas, Project Revoice surađivao je s Lyrebird-om, jednom od nekolicine tvrtki koje koriste AI za kloniranje nečijeg glasa - grupu koja uključuje Googleove WaveNet i Voicery, startup podržan od strane Y Combinator-a koji koristi AI za stvaranje sintetiziranih zapisa glasa,
Kako duboko učenje generira ljudske glasove
Iza ovih aplikacija stoje algoritmi dubokog učenja, popularna grana AI-ja koja provodi velike skupove podataka za uvid i obrasce koji se ne mogu uhvatiti s tradicionalnim softverom temeljenim na pravilima. Kada uvježbavate sintetizator glasa s dovoljno učenja s dovoljnim brojem snimaka glasa, stvara digitalni model koji predstavlja glas osobe i može generirati nove uzorke glasa.
Prije pojave AI-ove tehnologije sinteze glasa, pacijenti s ALS-om morali su koristiti generičke digitalne glasove koji nisu bili vlastiti. Druge tehnologije mogle su spojiti unaprijed snimljene rečenice s bolesnikovim glasom, ali rezultati su bili previše umjetni i zahtijevalo je desetine sati snimanja glasa da budu minimalno korisni.
Programi za duboko učenje, s druge strane, zahtijevaju mnogo manje podataka i daju bolje rezultate. "Ono što Lyrebird može postići sa samo nekoliko sati zvuka je izvanredno - ljudima pruža cjelovit digitalni glasovni klon, tako da mogu reći što god žele", kaže Westerdal.
Rekreacija glasa osobe bez glasa
Jedno od ograničenja aplikacija za duboko učenje je njihova ovisnost o visokokvalitetnim uzorcima podataka za obuku njihovih neuronskih mreža. Problem s ALS pacijentima je da jednom kad izgube glas, snimanje glasovnih uzoraka je nemoguće. Na sreću, Quinn je imao sate snimljenih glavnih predavanja i intervjua.
"Najveći je izazov bila kvaliteta. Ova tehnologija u potpunosti ovisi o postojanim, visokokvalitetnim snimkama koje slijede točno određeni scenarij - tako da smo morali raditi sa zvučnim studiom kako bismo ručno" reasterirali "i prepisali svaki dijalog koji smo mogli pronaći od Pat ", kaže Westerdal.
"Malo smo se uplašili da nećemo moći pružiti sjajnu kvalitetu za stvaranje Patinog glasa", kaže Jose Sotelo, suosnivač Lyrebird-a. "Budući da nismo mogli dobiti čiste snimke, konačna kvaliteta umjetnog glasa nije savršena. Smatramo da možemo čistim snimkama učiniti mnogo bolji posao."
Rezultati i dalje zvuče pomalo neprirodno i sintetički. Ali za Quinn, koja je za komuniciranje koristila generički glas, razlika je bila dramatična. "Nakon što sam čuo moj glas putem ove nove tehnologije, ispuhao me! Da bi pacijenti znali da mogu imati vlastiti glas nakon što ga ALS odnese, to će promijeniti način na koji ljudi žive s ALS-om", kaže on.
Quinn preporučuje da pacijenti s ALS-om snimaju glas prije nego što bude prekasno. "Nakon što sam ponovno čuo vlastiti glas, potrebni su mi pacijenti s ALS-om da znam kako je snimanje njihovog glasa nevjerojatno važno", kaže on.
Uravnotežavanje negativne uporabe AI sintetizatora
Ranije ove godine, FakeApp, AI-program za izmjenu lica, pokrenuo je napad lažnih pornografskih videa u kojima su sudjelovale poznate ličnosti i političari. Postoji bojazan da će aplikacije poput FakeApp i Lyrebird dovesti u novo doba lažnih vijesti, prijevara i krivotvorenja.
Etička stranica na web stranici Lyrebirdda ranije je priznala da ta tehnologija može "potencijalno imati opasne posljedice poput zavaravanja diplomata, prijevare i općenito bilo kojeg drugog problema prouzrokovanog krađu identiteta nekoga drugog."
Kako bi se postigla tačka, na web mjestu tvrtke nalazi se nekoliko sintetiziranih snimaka stvorenih glasovima Donalda Trumpa i Baracka Obame.
@realDonaldTrump https://t.co/N6DRPdEGPT pic.twitter.com/G30DvmQNdk
- Lyrebird AI (@LyrebirdAi) 4. rujna 2017
Quinnova bi priča mogla pomoći u rasvjetljavanju pozitivnih aspekata industrije koja se usredotočila na potencijalno jezivu i neetičku upotrebu svojih aplikacija. "Važno je da ljudi shvate svijetlu stranu ove tehnologije", podsjeća Lyrebirdova Sotelo.
Osim u medicinske svrhe, aplikacije AI-a za sintesajzer mogu poslužiti i drugim produktivnim ciljevima. Voicery pruža marki prilagođene digitalizirane glasove koje pokreću AI algoritmi. Google također eksperimentira s WaveNetom kako bi pružio prirodnije iskustvo korisnicima svojih uređaja sa napajanjem Google Assistant. Druga područja u kojima je tehnologija korisna uključuju automatizaciju audio knjiga ili znatno olakšavanje glasovnog presnimavanja filmova.
Etičke i pravne prepreke bez sumnje će se pojaviti i rasprave će se nastaviti. Ali za Quinn je AI sila dobra. "Ne želim zvučati poput računala", kaže on. "Želim zvučati poput mene."