Dom zvučni Čujem mrtve ljude? tehnološki prirodni jezik oživljava prošle i sadašnje glasove

Čujem mrtve ljude? tehnološki prirodni jezik oživljava prošle i sadašnje glasove

Sadržaj:

Anonim

Ovih je dana većina računalnih glasova prolazna. Vjerojatno se ne osjećate previše cyborgovima i robotima kad čujete "droida" na vašem telefonu koji vam pomaže u plaćanju računa ili vas pita koji odjel želite. Ali što ako iznenada čujete kako vas Kurt Cobain dobavlja za podatke o kartici? Ili vam John F. Kennedy govori o čudima prijevremenog glasovanja? Ili Elvis dobiva vaše ime i adresu prije nego što se obrušio na "trup, komad burne ljubavi?"


Sve bi to bilo … nekako čudno, ali ono što je još fascinantnije je da je tehnologija u osnovi već ovdje. Prije samo deset godina ili više, zadivila nas je sposobnost računala da uopće razgovara. Sada ćemo se ophoditi slobodnim glasom, računalno generiranim glasovima koji zvuče poput ljudi koje poznajemo.

Velike promjene u NLP-u

Ako obraćate pažnju na područje obrade prirodnog jezika (NLP), možda ste čuli za neke nedavne pomake koji nadilaze vrste glasova o virtualnom pomoćniku konzerviranog glasa koji sada čujemo u našim globalnim sustavima za pozicioniranje (GPS) i automatiziranom poslovanju. telefonske linije.


Za početak NLP-a bilo je potrebno čitavo mnoštvo istraživanja opće mehanike ljudskog govora. Istraživači i inženjeri morali su identificirati pojedinačnu fonetiku, složiti ih u veće algoritme za generiranje fraza i rečenica, a zatim pokušati sve to upravljati na meta-razini kako bi stvorili nešto što zvuči stvarno. S vremenom su čelnici NLP-a savladali to i započeli s izradom naprednih algoritama kako bi shvatili što ljudi govore. Spajajući ovo dvoje, tvrtke su osmislile pokretače za današnje virtualne pomoćnike i potpuno digitalne službenike koji plaćaju račune, čiji su maniri - iako dosadni - još uvijek zadivljujući kad prestanete razmišljati o poslu koji je u njih ušao.


Sada neke tvrtke nadilaze generički virtualni glas kako bi sastavile specifičniji personalizirani rezultat. To zahtijeva prolazak kroz leksikon određene osobe i prikupljanje velikih količina jedinstvenog glasovnog videa, zatim primjenu ove arhive na složene ritmove za fonetiku, naglašavanje, kadence i sve ostale sitne znakove koje lingvisti često grupiraju pod širokim transparentom "prosodije".


Ono što izlazi je glas koji slušatelji smatraju „posjedovanjem“ određene osobe - ili nekoga koga poznaju i s kojim su razgovarali, ili nekoga čiji glas prepoznaju kao rezultat slave osobe.


Od Elvisa do Martina Luthera Kinga, nečiji glas sada se može "klonirati" na ovaj način - pod uvjetom da postoji značajan prethodno snimljeni zapis njihova govora. Primjenjujući još detaljniju analizu i manipulaciju na pojedinačne male zvukove, tvrtke su u mogućnosti napraviti virtualnu kopiju nečijeg glasa koja zvuči puno kao prava stvar.

Uzbudljive kreacije "Tekst na glas" na VivoText-u

Na primjer, VivoText je tvrtka koja radi na revolucionarnom korištenju umjetnih ljudskih glasova za sve vrste kampanja, od audioknjiga do interaktivnog glasovnog odgovora (IVR). Na VivoText-u istraživački i produkcijski timovi rade na procesima koji bi, teoretski, mogli konkretno kopirati glasove preminulih slavnih osoba, poput samog Ol 'Blue Eyes-a.


"Da kloniramo glas Franka Sinatre, zapravo bismo prošli njegovu snimljenu ostavštinu", kaže izvršni direktor VivoText-a Gershon Silbert, govoreći o tome kako ova vrsta tehnologije može funkcionirati.


Trenutačno VivoText radi na arhiviranju glasova onih koji su još uvijek s nama, poput dopisnika NPR-a Neala Conana, koji se prijavio kao model za ovakav IT pionirski projekt. Promotivni video prikazuje radnike VivoText-a koji mukotrpno stvaraju fonetske module modula koristeći predviđeni glasovni ulaz iz Conana. Tada stvaraju modele alata za tekst u govor (TTS) koji evociraju dramatično ljudski i personificirani rezultat.


Prema riječima Ben Feiblemana, potpredsjednika za strategiju i razvoj poslovanja VivoText-a, računalo djeluje na razini foneme (koristeći najmanje jedinstvene dijelove govora) kako bi se prilagodilo prozodijskom modelu za pojedinačni ljudski glas.


"Zna kako glas govori", kaže Feibleman, dodajući da pomoću "izbora jedinice" računalo odabire niz komada koji će sastaviti jednu kratku riječ, primjerice, gdje se riječju "petak" daje pet komponenti koje pomažu u razvoju poseban naglasak i tonski rezultat.

Umjetni glas u marketingu

Dakle, kako to djeluje u marketingu? VivoText proizvodi mogu biti vrlo korisni u stvaranju proizvoda, poput audio knjiga, koji bi mogli dosegnuti ciljanu publiku. Na primjer, koliko bi učinkovitiji glas Elvisa mogao biti u usporedbi s današnjim generičkim, mrtvim, automatiziranim glasovima ako bi se koristio za prodaju proizvoda vezanih uz zabavu?


Ili, što je s politikom? Feibleman radi na raznim idejama za korištenje projekata poput ovih kako bi se poboljšao marketing tvrtkama ili drugim stranama kojima je potrebno učinkovitije slanje poruka.


"Ako znate bilo kojeg političara koji se kandiduje za predsjednika, to bi moglo imati 10 milijuna birača države koji se ljuljaju da dobiju osobni poziv kandidata, zahvaljujući im na podršci, govoreći im gdje trebaju ići na glasovanje, vrijeme i sve sitnice noć prije izbora ", rekao je Feibleman.

Vaš Glas živi dalje

Postoji još jedna očita primjena za svu ovu tehnologiju. Tvrtke s prirodnim jezikom poput VivoText-a mogle bi stvoriti osobnu uslugu koja bi prenijela sve glasovne podatke kupca u proizvod koji će toj osobi omogućiti "govor zauvijek".


Praktična primjena vjerojatno bi pokrenula brojna pitanja o tome kako čujemo i internaliziramo izgovorene glasove. Na primjer, što je potrebno da zvučni tok zvuči točno kao netko? Koliko dobro moramo znati osobu da prepozna određeni glas? I zanimljivo, što se događa ako usluga prirodnog jezika proizvede grubu karikaturu, a ne uvjerljivu mimikriju?


Procjena rezultata, kaže Feibleman, često ovisi o razmatranju konteksta. Na primjer, kaže da djeca obično ne postavljaju pitanja o tome tko govori kada sluša priču. Oni samo žele više. No isto tako, mnogi odrasli možda neće razmišljati o tome tko s njima razgovara s obzirom na određeni scenarij, poput pasivne emisije ili telefonske poruke. Također, lakše se prevariti s računalom preko telefona, jer prigušeni zvuk može prikriti propuste ili druge razlike između rezultata računala i ljudskog glasa.


"Ne pada vam na pamet da osporavate autentičnost glasa", kaže Feibleman.

Godine 2525

Kako tvrtke napreduju u razvoju proizvoda i usluga i odgovaranju na ova pitanja, tehnologija „živog govora“ mogla bi nas odvesti do one konvergencije tehnologije i ljudskog uma, koja se klasično naziva umjetnom inteligencijom (AI).


Ako računala mogu govoriti poput nas, oni će možda moći prevariti druge korisnike da misle kao oni mi, uvodeći se u veće načelo singularnosti, kao što je to u naš leksikon uveo John von Neumann, pionir tehničkih pionira iz 1950-ih, koji su evangelizirali pisci i mislioci poput Raya Kurzweila. Kurzweilova knjiga iz 2005., „Singularnost je blizu“, uzbuđuje neke, a druge plaši. Kurzweil je predviđao da će do 2045. „inteligencija“ kao fenomen postati uvelike uklonjena iz ljudskog mozga i premjestiti se u tehnologiju, zamaglivši crte između strojeva i njihovih ljudskih gospodara.


Besmrtna u stihovima Zager & Evans "U godini 2525" (nitko ne radi jezive znanstvene fantastike poput ovih ljudi) …


Godine 4545

Ne trebaju vam zubi, ne trebaju

tvoje oči

Nećete pronaći nešto za žvakanje

Nitko te neće gledati


Godine 5555

Ruke vam vise na bokovima

Noge ti nemaju što raditi

Neki stroj to radi za vas


Jesu li računalni glasovi korak u tom smjeru? Kao novi način da se izvršavaju neke funkcije ljudskog tijela (ili češće, da se simuliraju), ovakav tehnički napredak jedan je od najvećih - i vjerojatno nedovoljno prijavljenih - napretka na horizontu dok gledamo u jedinstvenu budućnost, (o "jedinstvenosti" u "Hoće li računari moći oponašati ljudski um?"

Čujem mrtve ljude? tehnološki prirodni jezik oživljava prošle i sadašnje glasove