SINTEZA SLOVENSKEGA GOVORA IN UČENJE PRAVIL ZA GRAFEMSKO-FONEMSKO PRETVORBO

Opis naloge

Naloga je sestavljena iz dveh delov. V prvem uporabi obstoječi IJS sintetizator govora nad slovenskim govornim korpusom projekta MULTEXT-East. Ta korpus vsebuje 200 stavkov in je (grafemsko) zapisani v CES/SGML, vsebuje pa tudi digitalizirane posnetke naravnega govora.

Tu je potrebno razviti program za pretvorbo MULTEXT-East CES zapisa v zapis, ki ga pričakuje sintetizator, generirati umetni govor, in ovrednotiti rezlutate. Del te naloge je obogatitev korpusa z zapisom besedila v fonemski obliki. To bo narejeno z avtomatsko pretvorbo besedila v fonetski zapis z obstoječim programjem, temu pa bo sledilo ročno popravljanje napak v fonetskem korpusu. S tem dobimo učno množico, ki je sestavljena iz paralelnega ortografsko in fonetično zapisanega korpusa.

V drugem delu z metodami strojnega učenja iz učne množice generiraj pravila za pretvorbo grafemske v fonemsko obliko. Ovrednoti obstoječi (ročno narejeni) algoritem za pretvorbo, (ob pomoči mentorjev) izberi sistem za strojno učenje, definiraj predstavitev problema, ter izuči sistem nad MULTEXT-East govornim korpusom. Na osnovi dobljeni pravil generiraj govor, ter ga oceni s primerjavo z originalnimi posnetki.

Literatura

MULTEXT-East WWW strani, slovenski govorni korpus.

Mentorja

dr. Ales Dobnikar
Odsek za inteligentne sisteme, Institut Jožef Stefan, Ljubljana, Jamova 39
Tel.: (061) 177--3900
E-pošta: ales.dobnikar@ijs.si
Govorilne ure: po dogovoru

dr. Tomaž Erjavec
Odsek za inteligentne sisteme, Institut Jožef Stefan, Ljubljana, Jamova 39
Tel.: (061) 177--3507
E-pošta: tomaz.erjavec@ijs.si
Govorilne ure: po dogovoru