Kakva je razlika između govora i teksta?

2025

Mnogobrojne značajne razlike između tehnologija govora u tekst i chatbota dio je onoga što se ispituje u naglom razvoju projekata chatbota i voicebota.

Govor u tekst tehnologija je jednostavno ona koja pretvara verbalni govor u tekst na digitalnoj stranici. To je njegova puna funkcija, ali nije ona jednostavna za dizajn. Da bi se verbalni govor pretvorio u tekst, tehnologija mora raščlaniti riječi i rečenice u pojedinačne foneme i raditi s njima u skladu složenim algoritmima kako bi stvorio tačan tekst i predstavlja ono što je govornik rekao.

S druge strane, chatboti su tehnologije koje ostvaruju cilj komunikacije s čovjekom. Postoje dvije vrste chatbotova: tekstualni chatboti i glasovni roboti. Tekstne chatbote traju duže, jer im ne treba element govora do teksta koji glasovni roboti koriste.

Glavna razlika između tehnologije govora u tekst i chatbota je opseg. Kao što je spomenuto, sve što treba učiniti je tehnologija prenosa govora u tekst, prepisivanje verbalnog govora. S druge strane, chatbot mora održati govor u bilo kojem obliku za koji je napravljen, razumjeti ga i pružiti odgovore koji nastoje proći Turingov test - test može li tehnologija prevariti čovjeka u razmišljanju da on ili ona jest razgovarajući s drugom osobom.

Imajući to na umu, chatbotove je puno lakše stvoriti nego glasovne. Chatbot uzima ljudski tekst i pruža odgovor na tekst. Čak su i relativno jednostavni chatboti ljudima mogli pružiti zanimljive i ugodne rezultate od kraja 1980-ih i početka 1990-ih.

S druge strane, glasovni govor mora preuzeti verbalni govor, pretvoriti ga u tekst, provjeriti točnost, proizvesti odgovor i taj odgovor iz strojnog jezika pretvoriti u zvučni govor. Ovaj veliki broj prilično značajnih zadataka znači da je zvučniku potrebno mnogo računalne snage i puno dizajna za izgradnju.

Projekti poput Siri, Cortana i Alexa demonstriraju dio avangarde tehnologija voicebota. Oni također ilustriraju da je ova tehnologija još u povojima. Iako Alexa i druge tehnologije mogu reagirati verbalno na ljudski govor, nisu izuzetno sposobne u smislu koji povezujemo s verbalnim ljudskim govorom općenito. Drugim riječima, postoji prilično ograničenje u odgovorima koje ove tehnologije mogu pružiti. Postoji čak i ograničena sposobnost današnje generacije osobnih asistenata da stvarno generira govor u tekst, na primjer, za potrebe prepisivanja e-pošte ili pomoći nekome da napiše esej bez upotrebe ruku. Neki od specifičnih programa govora u tekst na tržištu to rade bolje nego Siri ili Cortana, vjerojatno zbog raspodjele resursa. Međutim, postoje znakovi da će napredak voicebota uskoro krenuti - poput Amazonove Lex platforme koja omogućuje studijsko okruženje za izgradnju ove vrste tehnologije.

U pametnom i poučnom eseju o ovoj temi, Tobias Goebel govori o razlici između tih tehnologija, uspoređujući proces „prepisivanja“, koji govor u tekst obavlja, sa zadatkom razumijevanja, koji chatbotovi trebaju raditi.

"Iako uklanjanje potrebe za prepoznavanjem govora olakšava stvar chatbotu, glavni izazov za izgradnju funkcionalnih botova leži u razumijevanju prirodnog jezika", piše Goebel.

Goebel također identificira mnoge trenutne igrače u industriji:

Lider na tržištu za prepoznavanje govora je Nuance, koji stoji iza poznatih sustava poput Dragon NaturallySpeaking za diktatom na PC-u, koji postoji već od devedesetih, ali i Siri: zadatak prepoznavanja / prepisivanja govora vođen u Appleovom oblaku koristi Nuanska tehnologija iza kulisa. Ostali su LumenVox, Verbio ili Interactions, ali prepoznavanje govora sada se nudi i kao usluga oblaka putem API-ja prema amazonima, Googleu, Microsoftu i IBM-u.

Kako se chatboti razvijaju, pretpostavlja se da će se njihovo razumijevanje nastaviti povećavati na nekoj putanji - a također se u velikoj mjeri pretpostavlja da će više bot tehnologija preći iz tekstualnih u verbalna sučelja, što zahtijeva dodatne količine računalne snage.