Razvoj glasovnih interfejsa na srpskom jeziku suočava se s nedostatkom govornih i jezičkih resursa, što otežava obuku savremenih TTS sistema zasnovanih na neuronskim mrežama.
Istraživački timovi na Fakultetu tehničkih nauka i kompanija AlfaNum razvijaju ekspertske sisteme, akcenatske rečnike i specijalizovane baze kako bi prevazišli izazove akcenta, intonacije i ograničenih podataka. Iako postoje značajna unapređenja u kvalitetu i primeni, od medicinskih i pravnih transkripcija do voice botova i digitalne administracije, srpski TTS još uvek zaostaje u oblasti visoke ekspresivnosti i višejezične integracije.
Na pitanje koji su najveći izazovi u razvoju TTS (text-to-speech) sistema za srpski jezik u poređenju sa jezicima poput engleskog, Tijana Nosek sa Katedre za telekomunikacije i obradu signala Fakulteta tehničkih nauka u Novom Sadu kaže za HelloWorld da je najveći izazov nedostatak baza podataka za obuku, ali i generalno govorno-jezički resursi.
“Raniji TTS sistemi zahtevali su ne samo transkribovane, nego i detaljno anotirane baze za obuku - fonetski i prozodijski. A u produkciji, module za predvidjanje trajanja, akcenata, pauza, i dr. na osnovu čistog teksta. U srpskom, znate i sami, dovoljno je da promenite akcenat ili trajanje nekog fonema i da time promenite značenje ili da nešto zvuči nejasno ili neprirodno. Mi, ljudi, naučimo da čitamo, slušamo druge, ali kako mašini objasniti šta i kako treba da zvuči na osnovu čistog teksta? Anotacija baza za obuku, u kojima je neophodno obeležiti vrste pauza, naglašene/nenaglašene segmente, trajanja, pa zavisno od jezika i akcente, i sl., najčešće nije uopšte ili nije u potpunosti automatizovan proces, te zahtevaju manuelnu anotaciju od strane obučenih ljudi”, kaže Nosek.
Dalje navodi da je za srpski bilo neophodno od nule praviti akcenatsko-morfološke rečnike, i tzv. ekspertske sisteme za jezičku obradu teksta.
“Sve to je napravljeno i unapređivano unazad 20-ak godina od strane tima sa Fakulteta tehničkih nauka. Kako je tehnologija napredovala, rasla su i očekivanja za kvalitet sinteze. Veliki napredak u TTS doneli su algoritmi mašinskog učenja, a posebno na bazi neuronskih mreža. Međutim takvi pristupi zahtevali su i sve veće baze podataka za obuku”, svedoči Nosek.
Na pitanje kako neuronski modeli (npr. Tacotron, FastSpeech) menjaju način na koji dizajniramo glas za digitalne asistente i druge aplikacije, ona navodi da su se pre nekoliko godina počeli pojavljivati tzv. end-to-end modeli koji nemaju modul za jezičku obradu teksta, što bi značilo da nema neke velike zavisnosti od jezika.
“To su upravo modeli poput Tacotrona i FastSpeecha koje navodite. Međutim, ovakvi modeli zahtevaju kvalitetne baze od preko 20h relativno ujednačenog govora jednog govornika s ciljem postizanja visokokvalitetne sinteze. Iako se zahteva samo čist transkript, bez fonetske i prozodijske anotacije, za obuku ovakvih modela, mi nemamo adekvatne baze na srpskom za ovako nešto. Recimo audio knjige iako deluju kao dobar izbor, govornici često namerno menjaju glas tokom čitanja, unose preveliku ekspresivnost, što na kraju dovodi do loših rezultata TTS jer se glas uproseči...”, kaže ona.
Iako u teoriji rade sa čistim tekstom, odnosno grafemima, neretko se navodi da se bolji rezultati mogu postići fonetizacijom.
“Iako fonetizacija nije prevelik problem u srpskom - u principu je jedan grafem isto što i jedan fonem, najveći problem kod nas su akcenti. Obuke koje smo mi sproveli, bez jasno naglašenih akcenata na ulazu u sistem, dovele su do neupotrebljivih rezultata. Međutim, upotreba naših ekspertskih sistema, našeg akcenatsko-morfološkog rečnika, omogućuje nam da sa izuzetno visokom tačnošću iz čistog teksta predviđamo akcente. Davanje akcentovanih fonema na ulaz ovakvih sistema, već i sa par sati kvalitetnih baza dovodi do sjajnih rezultata”, kaže Nosek.
Međutim, podseća ona na reči jednog profesora, ”kad vam u najboljem slučaju radi odlično, imate naučni rad, a kad vam u najgorem slučaju radi odlično, tada imate proizvod”.
“E upravo to imamo ovde slučaj, kad radi, radi odlično, ali imate prečesto tzv. halucinacije i artefakte koji ovakav sistem čine neupotrebljivim. Dakle, i dalje imamo premalu količinu materijala adekvatno snimljenih i anotiranih, da bi se end-to-end sistem obučio te da ne bi postojale tzv. halucinacije - sinteza nepostojećih segmenata, ponavljanje poslednjih fonema, i slično”, dodaje ona.
Kako onda rešiti pitanje intonacije, emocije izražajnosti u glasovnim interfejsima?
Nosek ponavlja da dobar deo prozodije dobijaju iz ekspertskih sistema, ali napominje da današnji zahtevi za visoko kvalitetnom sintezom u smislu prirodnosti, ekspresivnosti, promene emocije, nisu mogući na ovaj način.
“Stoga, naš sistem nije sjajan za neke upotrebe poput audio knjiga, i generalno dužeg slušanja, nego za voice botove, čitanje vesti, i sl. Imali smo neka istraživanja i došli do dosta dobrih rezultata u sintezi emocija i različitih stilova govora, ali je zahtevano postojanje upravo takvih i baza za obuku sistema, dakle, baze snimane od strane istog govornika ali u različim stilovima i emocijama, do čega je zapravo dosta teško doći”, kaže ona.
Bolju izražajnost i dinamičnost u govoru dobili su, kako je navela, primenom Tacotrona, ali rezultati su, podseća, neupotrebljivi u praksi zbog postojećih problema za koje još uvek nisu našli način da ih prevaziđu.
“Danas imate sisteme poput StyleTTS koji zaista zvuče fantastično, a imaju i mogućnost promene emocije tokom govora na osnovu teksta. Međutim, ovakvi sistemi su za srpski jezik, bar za nas, nedostižni. Zahtevaju enormne količine podataka za obuku različitih modula u sistemu, ali i ogromne računarske resurse kakve danas eventualno imamo u IT klasteru u Kragujevcu, ali ne i na fakultetima ili u privatnim firmama. Ovi sistemi uključuju i upotrebu large language modela (LLM) koji su za srpski jezik još uvek vrlo ograničeni i malobrojni. Upravo ovi moduli obezbeđuju visoku izražajnost i prirodnoat sintetizovanog govora”, dodaje ona.
Na pitanje kako vidi ulogu lokalnog jezika i kulture u dizajnu konverzacionih sistema, odnosno da li je dovoljno samo „prevesti“ asistenta ili su potrebna dublja prilagođavanja, ona smatra da je, ako pričamo o govornim asistentima, odnosno o TTS, jasno da se sistem ipak u velikoj meri mora oslanjati na module koji su visoko jezički zavisni da bi dobili kvalitetnu sintezu.
“Testovi slušanja koje sprovodimo u našim radovima su pokazali da je ljudima bitnije da sintetizovani govor bude razumljiv, odnosno da ne greši akcente, trajanja i da nema artefakte, nego da bude visoko ekspresivan i dinamičan. S druge strane, kada su u pitanju virtuelni asistenti s kojima komuniciramo u pisanom obliku, a koji su zasnovani na LLM, deluje mi da je prevođenje bolji put. Međutim, ostaje problem da često dolazi do upotrebe rečeničnih konstrukcija, ali i predloga/saveta koji nisu u duhu našeg jezika, i/ili našeg mentaliteta ili standarda...”, navodi Nosek.
Po njenim rečima, u našoj zemlji još uvek nisu razvijeni modeli za višejezičnu sintezu govora, odnosno sistem koji prirodno „prebacuje“ između jezika – npr. između srpskog i engleskog.
“Za sada, koliko ja znam, tako nešto ne postoji, bar sam sigurna da ne postoji za srpski. Iako se sve više radi na razvoju višejezičnih modela, nisu u mogućnosti da spontano prebacuju jezik tokom govora. Puno je izazova u realizaciji toga, ali je svakako jedan od pravaca koji je neminovan u današnje vreme”, zaključuje Nosek.
Profesor doktor Vlado Delić, kao deo istraživačke Grupe za akustiku i govorne tehnologije, odnosno Centra izuzetnih vrednosti CEVAS na Fakultetu tehničkih nauka, ocenjuje da srpski još uvek spada u jezike sa malom količinom potrebnih resursa, kako sređenih govornih i jezičkih korpusa, tako i HPC (High Performance Resources), ali i posvećenih kadrovskih resursa.
“Zato nastojimo da uspostavimo saradnju s velikim internacionalnim kompanijama koje imaju resurse i iskustvo u razvoju multijezičkih govornih i jezičkih tehnologija i velikih jezičkih modela za različite (i manje) jezike i dijalekte, a imaju viziju da takvi resursi ne pripadaju samo velikim svetskim jezicima. Takva je kompanija iFLYTEK iz Kine”, kaže on.
Podseća da se na FTN i u kompaniji "AlfaNum - govorne tehnologije" više od 20 godina bave razvojem ASR i TTS, gde su razvili relativno malu bazu govornih i jezičkih resursa, ali koja je dovoljna za tzv. fine-tuning tj. unapređenje kvaliteta govornih i jezičkih tehnologija za srpski na osnovu multijezičkih modela razvijenih na ogromnih korpusima za obuku kakve mi sami ne možemo skoro napraviti.
“Misija mog naučno-istraživačkog, pa i preduzetničkog rada (suosnivač sam AlfaNuma) upravo je očuvanje srpskog jezika u eri digitalizacije koja je sa mogućnostima AI značajno ubrzana. Da li ćemo u AI eri s mašinama/uređajima komunicirati na srpskom, zavisi od nas ali i od velikih igrača na AI sceni”, navodi Delić.
AlfaNum tim navodi za naš portal da je prepoznavanje govora na srpskom jeziku široko primenjeno u okviru sistema za diktiranje, sistema za transkripciju govora, kao i govornih automata.
Što se tiče diktiranja govora na srpskom jeziku, najvažnija dva njihova proizvoda su MEDICTA, sistem za automatsku transkripciju diktiranih medicinskih nalaza u različitim oblastima koji pruža podršku i za diktiranje medicinskih termina na latinskom jeziku i kao takav je primenjen u medicinskim ustanovama kao što su Institut za onkologiju Vojvodine, Institut za plućne bolesti Vojvodine, PIO Fond RS, kao i IURISDICTA, sličan sistem namenjen diktiranju pravnih dokumenata.
Proizvod namenjen transkripciji govora opšteg karaktera je TRANSCRIPTA, može se koristiti za transkripciju sastanaka, radio i televizijskih emisija, sednica i sličnog, uz visoku tačnost i mogućnost razdvajanja govora po različitim govornicima. Ovaj proizvod već je primenjen u Ministarstvu odbrane RS, u NIS-u a.d. i drugim državnim ustanovama.
Kako navode, prepoznavanje govora koristi se i u okviru raznih pozivnih centara, gde korisnici mogu kroz govornu komunikaciju da dođu do odgovarajućih informacija i preduzmu odgovarajuće akcije.
Što se tiče sinteze govora, navode da se ona koristi u okviru raznih sistema za pružanje informacija, kao što su informacioni sistem koji koriste Železnice Srbije i pozivni centri brojnih državnih institucija.
Posebno je zanimljiva, kako objašnjavaju, primena sinteze govora za ozvučavanje internet sajtova i prezentacija, kao što su sajtovi Vlade Srbije, eUprave RS, mnogih ministarstava, Vlade Crne Gore, Radio Televizije Srbije kao i drugih medijskih kuća, te da ne treba izostaviti ni primenu sinteze govora u okviru sistema koji omogućuje slepima samostalno korišćenje računara.
“Ovaj sistem, anReader, predstavlja zvanično pomagalo odobreno od strane Republičkog fonda za zdravstveno osiguranje, i do sada je instaliran na preko 1.000 računara privatnih korisnika” – ističu u ovom timu i dodaju da postoje i brojne druge primene kao što su automatsko kreiranje multimedijalnih nastavnih materijala, automatsko generisanje audio-knjiga na osnovu teksta, aplikacije zabavnog karaktera...
Ističu da se njihovi sistemi za prepoznavanje govora uspešno snalazi sa različitim akcentima i dijalektima na sličan način kao što se snalaze i sa različitim glasovima.
“Naime, veliki broj govornika i velika varijabilnost koja postoji u govornim bazama na osnovu kojih su obučavani naši sistemi za prepoznavanje govora obezbeđuju da govor bude konvertovan u tekst sa visokom tačnošću, izdvajajući iz govornog signala samo ono što je važno - niz reči koji je potrebno izdvojiti, odnosno, ispisati – a uz ignorisanje onoga što je u ovom slučaju nevažno, a to je kakvim je glasom i s kakvim regionalnim akcentom govornik izgovorio određeni tekst”, navode u ovom timu.
Kako su precizirali, kako bi neka reč mogla biti prepoznata, sistem mora imati informaciju da se radi o ispravnoj reči, kao što ni čovek na prvo slušanje često nije u mogućnosti da prepozna reč koju nikada do tada nije čuo.
“Zbog toga i prepoznavanje u uslovima visokog leksičkog varijabiliteta, kada je broj reči van predviđenog rečnika velik (usko stručan domen, žargon ili lokalizmi), uvek predstavlja poseban izazov”, dodaju u AlfaNum-u.
Primećuju da je problem regionalnog akcenta mnogo izraženiji u slučaju sinteze govora – mnogo je teže proizvesti verodostojan govor sa određenim regionalnim akcentom nego takav govor transkribovati u tekst.
“Naši sistemi za sintezu govora postižu prirodnu intonaciju govora kombinujući eksplicitnu morfološku analizu teksta uz oslanjanje na akcenatski rečnik i govornu bazu ciljnog govornika, po čemu se izdvajaju od drugih postojećih rešenja za srpski jezik koja takvim rečnikom ne raspolažu”, navodi AlfaNum.
Prepoznavanja prirodnog govora, nepreciznog izgovora ili pozadinske buke vide kao standardne probleme prepoznavanja govora, a rešavaju ih na različitim nivoima.
Pre svega, baze govora koje koriste za obuku pored govora studijskog kvaliteta sadrže i mnogo veću količinu govora nižeg kvaliteta, raznovrsnih karakteristika u pogledu opreme za snimanje, ambijenta ili vrste pozadinske buke, što sve omogućuje, po njihovoj oceni, visoku robusnost prepoznavanja u realnim uslovima.
Pored toga, u aplikacijama kod kojih je tačnost prepoznavanja u uslovima pozadinske buke kritično važna, kao što je diktiranje medicinskih nalaza u kancelariji u kojoj ih istovremeno diktira još nekoliko lekara, od velike pomoći mogu biti posebni usmereni mikrofoni - bubice, čije su cene danas sasvim pristupačne.
“Najzad, ni čovek ne prepoznaje svaku reč na osnovu samo onoga što je čuo, već i na osnovu onoga što je u tom trenutku očekivao da čuje – uklapajući tu reč u sopstveni jezički model, zahvaljujući čemu je u mogućnosti da prepozna reč čak i ako su u njoj mnogi glasovi loše izgovoreni ili potpuno izostavljeni. Iznenađujuće je koliko, kada pažljivo preslušavamo snimak nečijeg govora, zapravo ima segmenata koji uopšte ne zvuče kako bismo mi očekivali, a govor nam u celini ipak zvuči sasvim razumljivo. Na sličan način i sistem za prepoznavanje govora postiže visoku tačnost prepoznavanja čak i kad govor nije sjajnog kvaliteta – i on se oslanja na to koje se reči u jeziku češće mogu naći u okruženju kojih drugih reči, a ta znanja je stekao obukom na ogromnim tekstualnim bazama podataka”, navode u AlfaNumu.
Na pitanje da li postoji interesovanje domaćih firmi i institucija za uvođenje voice asistenta, U AlfaNumu navode da su do sada imali iskustava sa uvođenjem govornog asistenta u bankarske informacione sisteme.
“U Raiffeisen banci je naš zadatak da izradimo custom glas (da kloniramo glas neke poznate ličnosti koji korisnik želi kao svoj brend glas) i da obezbedimo uslugu sinteze govora najčešće preko odgovarajućeg servera kao što je to slučaj i u UniCredit Banci, UNIQA osiguranju HR, Telekomu Srbija a.d. ... Drugim rečima, dijaloški sistem klijenta obraća se našem serveru sa zahtevom za sintezu i sa tekstom koji treba sintetizovati, odnosno, konvertovati u govor, uz odgovarajuće opcije koje se korisniku stavljaju na raspolaganje - od izbora glasa, do izbora tempa pa i specifičnog načina čitanja određenih stavki – što određuje npr. na koji način će se pročitati tekst ‘32.00$’, odnosno, koje stavke u nizu „trideset (i) dva (američka) dolara (i nula centi) ‘treba izostaviti’”, navode u AlfaNumu.
Na pitanje koliko su njihovi sistemi spremni za integraciju u pametne uređaje, javne servise ili digitalnu administraciju kao što je eUprava ističu da njihovi sistemi podržavaju veći broj standardnih interfejsa za integraciju u dijaloške i druge informacione sisteme, uključujući i pametne uređaje.
“Naši sistemi ne samo da su spremni za integraciju već su i integrisani u okviru većeg broja takvih sistema široko primenjenih ne samo u Srbiji, već i u Crnoj Gori, Bosni i Hercegovini i Hrvatskoj”, zaključuju u AlfaNumu.
0 komentara