1. Uvod – problem izlaza iz računala u obliku govora
U ovom seminarskom radu obradile smo temu Govorni izlaz. U sklopu
teme nastojale smo što bolje i kvalitetnije objasniti sintezu govora
i zvuka, govornu jedinicu i zvučne kartice kako bi se shvatilo što
je zapravo govrni izlaz i tko se koristi njime. Da bi seminarski rad
bio zanimljiviji stavile smo nekoliko slika koje prikazuju pojedine
djelove govornog izlaza te par tablica. U sljedećem odlomku ukratko
smo napisale i prikazale sadržaj teme koju obrađujemo.
Ukratko o govornom izlazu:
Jedna od osnovnih pretpostavki vezana uz obradu govornog signala
je da se govor može prikazati kao izlaz iz linearnog, vremenski promjenljivog
sustava čija se svojstva sporo mijenjaju s vremenom. To vodi prema
osnovnom principu analize govora koji kaže da ako se promatraju dovoljno
kratki segmenti govornog signala, da se tada svaki segment može učinkovito
modelirati kao izlaz iz linearnog, vremenski invarijantnog sustava
pobuđenog bilo kvazi-periodičnim impulsima bilo slučajnim šumom (engl.
random noise signal). Problem govorne analize predstavlja određivanje
parametara govornog modela kao i određivanje njihovih promjena u vremenu.
Pošto konvolucija pobude i impulsnog odziva linearnog, vremenski invarijantnog
sustava predstavlja njegov izlaz (govorni signal), ovaj se problem
može promatrati i kao problem razdvajanja konvolviranih komponenti,
što je poznato pod nazivom dekonvolucija. Dekonvulcija se može razmatrati
sa stajališta vremenski kratkotrajne Fourir – ove analize što će biti
objašnjeno u nastavku.
Pojava govornih tehnologija, a posebno sintetizatora govora na osnovu
teksta, od izuzetnog je značaja za osobe sa oštećenjem vida, ali ima
i daleko širi značaj.
2. Tehnološke osnove uređaja i softwera za govorni
izlaz
2.1. Sinteza zvuka
Pod zvukom se u širem smislu podrazumijeva titranje medija kojim
se on širi, pri čemu se ne obazire na to nalazi li se u području čujnosti
ljudskog uha, dok se u užem smislu zvukom smatra ona titranja koja
se u tom području nalaze. Područje čujnosti ljudskog uha nalazi se
između 20 Hz i 20kHz. Valovi frekvencije ispod 20 Hz nazivaju se infrazvukom,
dok se valove iznad 20 kHz nazivaju ultrazvukom.
Prije nego što se prijeđe na razmatranje jednostavnog i složenog
zvuka treba prvo definirati razliku između takvih zvukova i buke.
Kao što nam je već otprije poznato, bilo koji zvučni signal možemo
predočiti zbrojem sinusnih signala različitih frekvencija i amplituda.
Navedeno pravilo se zove Fourierov teorem, a njegova primjena Fourierova
sinteza. Stoga svaki zvučni signal ima svoju osnovnu frekvenciju,
svoj spektar, intenzitet i svoju boju. On se od buke razlikuje po
tomu što je buka stohastički signal.
Jednostavan zvuk je zvuk čiji se spektar sastoji od samo jedne frekvencije,
koju nazivamo osnovnom frekvencijom, dok se složeni zvuk sastoji od
osnovne frekvencije i proizvoljnog broja njenih harmonika.
2.1.1. Primjer primjene: sinteza zvučnog signala
Vrlo je zanimljivo osvrnuti se na način reproduciranja ljudskog govora.
Svaki sustav za generiranje zvuka sastoji se od dva osnovna dijela,
a to su generator pobudnih signala, te rezonantni sustav čiji odziv
na pobudu predstavlja izlazni signal. Jedan je takav sustav prikazan
na slici 1.
Slika 1. Model sustava za generiranje govornog signala
Kako bi se ostvario željeni sustav, potrebno je analizirati
i modelirati vokalni trakt i glasnice. Glasnice su u načelu generator
pobude koja se u ovom slučaju sastoji od niza impulsa čiji period
daje osnovnu frekvenciju glasa, a njihov oblik se može usporediti
sa pozitivnom poluperiodom jedne vrlo uske sinusoide. Vokalni trakt
sastoji se od usne šupljine omeđene stijenkama čeljusti, jezika i
usnica. Govorni signal na izlazu zapravo predstavlja odziv vokalnog
trakata kao rezonantnog sustava na pobudu koju stvaraju glasnice.
Ograničimo li se na dovoljno kratak period da možemo promatrati odziv
sustava na samo jedan takav impuls, možemo prikazati frekvencijski
spektar tog signala.
2.1.2. Tipovi sinteze:
1. Aditivna sinteza
2. Suptraktivna sinteza
3. Granularna sinteza
4. Amplitudna modulacija
5. Prstenasta modulacija
6. Frekvencijska modulacija
2.2. Sinteza govora
Sinteza govora predstavlja operaciju pretvaranja pisanog ulaza u govorni
izlaz. Ulaz može biti u obliku grafemske, ortografske ili fonemske
skripte, ovisno o izvoru. Jednostavnije rečeno, sinteza govora je
umjetno generiranje ljudskog govora.
Sustavi koji se koriste za to nazivaju se sintetizatori govora, a
mogu biti implementirani kao softver ili hardver.
Zadatak sinteze govora je da na osnovu ulaznih informacija u tekstualnom
obliku stvara govorni signal razumljiv čovjeku.
Sinteza govora često se kraće naziva Text-to-Speech (TTS), obzirom
da upravo i pretvaraju tekst u govor.
Postoji nekoliko algoritama za sintezu govora. Izbor algoritma ovisi
o operaciji koju želimo izvršiti. Najjednostavniji način je jednostavno
snimiti glas osobe koja govori željene izraze, ali to predstavlja
samo ograničen izvor fraza i rečenica. Kvaliteta ovisi o načinu snimanja.
Sofisticiraniji, ali lošije kvalitete su algoritmi koji dijele govor
u manje jedinice. Najčešće korištena jedinica je fonem, najmanja lingvistička
jedinica. Ovisno o jeziku, postoji oko 35-50 fonema u zapadno-europskim
jezicima. Problem je u kombiniranju fonema jer tečan govor zahtjeva
tečan prijelaz između elemenata (fonemskih jedinica). Razumljivost
je stoga manja, no mala je i zahtjevnost na memoriju.
Rješenje ovog problema je korištenje difona. Umjesto dijeljenja u
prijelazima, stanka se radi u sredini fonema, što ostavlja prijelaze
netaknute. To daje oko 400 elemenata i kvaliteta raste.
Što su dulje te jedinice, postoji više elemenata, ali uz potrebnu
memoriju raste i kvaliteta. Ostale jedinice koje su u širokoj primjeni
koriste su poluslogovi, slogovi, riječi ili njihova kombinacija.
Postoje dva glavna načina za generirnje valnih oblika umjetnog govora:
• lančana sinteza (engl. Concatenative synthesis)
– služi za spajanje segmenata snimljenog govora, tj. stvara umjetni
glas najsličniji ljudskom govoru.
• formant sinteza (engl. Formant synthesis)
- ne koristi uzorke ljudskog glasa već umjetni glas kreira korištenjem
akustičnog modela.
Ostali načini sinteze (manje korišteni):
• artikulacijska sinteza
• hibridna sinteza
• HMM-bazirana sinteza (Hidden Markov Model)
Alati za sintezu govora:
Mbrola – visoko kvalitetni, difono bazirani sintetizator govora. Cilj
mu je da osigura set govornih sintetizatora za što je moguće više
jezika.
TEXT-TO-SPEECH SUSTAVI:
• Festival
• WinSpeech
• BaBel Technologies
• Gnuspeech
• ReadPlease 2003 i ReadPlease Plus 2003
• VoiceText
• Loquendo Text-to-Speech (TTS)
• TextAloud
• TextToSpeech Kit
Tablica 1. Alati za sintezu govora
3. Područja primjene sinteze govora
Prema podacima Svjetske zdravstvene organizacije (WHO) danas je u
svijetu 40-45 milijuna slijepih i 124 milijuna slabovidnih osoba.
Sljepoća je teška invalidnost. Oko 90% informacija iz okruženja čovjek
prima preko osjeta vida. Zbog toga sve uobičajene životne aktivnosti
na koje ljudi inače ne obraćaju pozornost (kretanje, obavljanje kućanskih
poslova, osobna higijena itd.) za slijepu osobu predstavljaju veliki
napor. Slijepe osobe pri obrazovanju i zapošljavanju također nailaze
na velike prepreke: nedostupnost informacija, podcjenjivanje sposobnosti,
neprihvaćanje i nerazumijevanje okoline.
Primjenom moderne tehnologije u razvoju pomagala za slijepe može se
uvelike podići kvaliteta njihovog života i omogućiti im da postanu
ravnopravni akteri društva.
Pojava govornih tehnologija, a posebno sintetizatora govora na osnovu
teksta, od izuzetnog je značaja za osobe sa oštećenjem vida, ali ima
i daleko šire značenje. Za njih je pojava govornih tehnologija od
izuzetnog značenja, jer im omogućuje da se samostalnije informiraju,
ravnopravnije obrazuju, osposobe za mnoge nove poslove i lakše uključe
u društvene tokove života i rada.
Sintetizatori govora i softverski paketi u stručnoj su, tj. informatičkoj
literaturi dobili naziv screen readers, ili čitači ekrana.
Čitač ekrana je softverski paket koji sve naredbe i vizualne elemente,
pretvara u zvuk uz pomoć govorne jedinice.
Na samim počecima razvoja čitača ekrana i sintetizatora govora na
osnovu teksta, govor se reproducirao preko skromnih zvučnika tadašnjih
računala što je rezultiralo vrlo lošom i gotovo nerazumljivom kvalitetom
izgovora. Zbog toga se započelo s proizvodnjom hardverskih govornih
jedinica (hardverskih sintetizatora govora) koji su se spajali na
serijski port računala i koji su govorili isključivo engleski. Kvaliteta
izgovora je bila različita, od robotske koja je bila na granici razumljivosti,
pa do gotovo ljudskog načina izgovora.
Svi ovi softveri radili su vrlo dobro sa svim govornim jedinicama
koje su mogle govoriti na engleskom jeziku, međutim, postojalo je
sve više interesa od strane korisnika koji nisu izvorni engleski govornici,
za proizvodnju ovakvih softversko – hardverskih rješenja.
Tvrtka Dolphin Computer Access, početkom 90-ih plasirala je na tržište
svoj čitač ekrana pod nazivom HAL, a paralelno s njim proizvedena
je i hardverska govorna jedinica pod nazivom Apollo. HAL i Apollo
su u zajedničkoj suradnji omogućili multijezično korištenje.
1993. u suradnji s Udrugom za unaprijeđivanje obrazovanja slijepih
i slabovidnih osoba iz Zagreba, tvrtka Dolphin Computer Access razvila
je čip za izgovor hrvatsko-srpskog jezika i tako su čitač ekrana HAL
i govorna jedinica Apollo, mogli zadovoljiti velik dio slijepih korisnika
s ex-YU područja.
4. Što je govorna jedinica?
Kako bi se zaobišao vizualni pristup računalu (point & click interface)
koristi se tzv. Audio desktop – spoj text-to-speech enginea i softwareskog
sintetizatora glasa. Slijepi korisnik vrši interakciju sa računalom
prvenstveno putem klasične tipkovnice, a računalo korisniku daje povratnu
informaciju glasom, preko audio desktopa.
Zamišljeno je da bi cjeloviti sustav u sebi morao uključivati adresar,
kalendar, email klijent, news klijent, uređivač teksta, web pretraživač,
fax, govornu sekretaricu, audio aplikacije (cd/mpeg player, software
za internet streamove i sl.). Također, radi se na integraciji OCR-a
(optical character recognition) kako bi slijepom korisniku računalo
preko skenera moglo čitati bilo koji tekst.
Umjesto da sami čitate tekst na retku, računalo ga čita umjesto vas,
te vam govorom saopćava što je pročitalo. Računala u osamdesetima
nisu bila sposobna sama producirati govor, pa im je dodana jedna vanjska
jedinica koja je to mogla. Zovemo je govorna jedinica.
Slika 2. Govorna jedinica
To je vanjski uređaj, koji se spaja na računalo kako bi slijepi korisnik
mogao raditi na njemu. Računalo govornoj jedinici šalje običan tekst
koji se nalazi na ekranu, a govorna jedinica taj tekst izgovara. Računalo
da bi znalo koji tekst šalje govornoj jedinici mora imati i program
koji je za to zadužen.
Takav program se naziva "screen reader". U nedostatku smislenog
hrvatskog prijevoda, to se prevodi kao čitač ekrana. Može i program
koji čita.
5. Zvučna kartica
Zvučna kartica (Audio card, Sound card) pretvara zvuk u digitalni
signal te pretvara digitalne signale u zvuk preko zvučnika ili slušalica.
Dva glavna dijela zvučne kartice koji obavljaju ove poslove su digitalno-analogni
pretvarač (D/A converter) i analogno-digitalni pretvarač (A/D converter).
Funkcija zvučne kartice je proširenje funkcionalnosti PC-a koji omogućava
reprodukciju i snimanje zvuka tj. podataka poput WAW, MIDI, glazbenog
CD-ROMa, i MP3 formata. Pojednostavljeno glavna funkcija zvučne kartice
je dati što kvalitetniji zvuk za slušanje glazbe, gledanje filmova,
igranje igara itd.
.
Slika 3. Zvučna kartica
Vrste zvučnih kartica - Kao i kod grafičkih i mrežnih kartica možemo
ih podijeliti na one koju su ugrađene u matičnu ploču (onboard audio)
i one u obliku kartice koje se utaknu u utor (ISA, PCI...) na matičnoj
ploči. Sve moderne matične ploče imaju onboard audio ali ako želite
kvalitetniji zvuk možete staviti posebnu zvučnu karticu i u tom slučaju
se onboard zvučna kartica onemogući (ili u BIOS-u ili preko jumper-a
na matičnoj ploči).
Slika 4.Zvučna kartica
Osim reprodukcije zvuka zvučna kartica omogućuje i snimanje zvuka
za što nam je još potreban mikrofon i program za snimanje zvuka (
u Windows-ima postoji takav program (sound recorder) ali je dosta
ograničenih mogućnosti).
Tablica 2. sa Microsoft PC99 standardom za označavanje vanjskih priključaka
odgovarajućom bojom.
Zvučnici se na zvučnu karticu spajaju na svjetlozeleni priključak
a ako imate 5.1 zvučnike onda ćete na taj priključak spojiti prednje
zvučnike, na crni zadnje a na narančasti subwoofer.Zvučne kartice
često na sebi imaju game port, tj. priključak za joystick ili gamepad.
Slika 5. Zvučna kartica Sound Blaster Live!
Najpoznatiji proizvođači zvučnih kartica su Creative, Terratec, C–media,
nVidia i Realtek.
Alternativa zvučnim karticama su USB zvučnici. Prednosti su što se
digitalni signal prenosi do zvučnika tako da nije potrebna zvučna
kartica te manja osjetljivost na šumove i smetnje a mane nekvalitetan
zvuk.
Slika 6. USB zvučnici
5.1. Zvučni ulazi i izlazi
Većina zvučnih kartica od 1999. podliježu Microsoftovom PC 99 standardu
za obilježavanje vanjskih konektora odgovarajućim bojama:
Tablica 3. Zvučni ulazi i izlazi
Slika 7. Zvučna kartica i njeni djelovi
Zaključak
Budući da slijepe osobe čine manjinu, moderne tehnologije se još uvijek
slabo primjenjuju za pomoć njima. Onaj mali dio pomagala koji koriste
nova dostignuća predstavlja tek površnu prilagodbu proizvoda namijenjenog
široj javnosti ili pak neko drugorazredno rješenje. Posljedica svega
navedenoga je da i takva specijalizirana rješenja imaju visoku cijenu
i nedostupna su prosječnom korisniku. No to i ne čudi, jer svijet
u kojem živimo stvoren je po mjeri onih koji vide, a ostali, “drugačiji“,
suočeni su sa predrasudama i često prepušteni sami sebi.
Slijepe osobe imaju pravo na neovisan i kvalitetan život, tj. normalno
kretanje i obavljanje svakodnevnih životnih obveza te mogućnost zapošljavanja.
Dužnost svakog društva je da im to omogući, kao i ravnopravnost u
pristupu informacijama, svijetu rada i svim ostalim aspektima građanskog
života.
"Ne sljepilo, već stav drugih o slijepima, to je teret koji je
teško nositi", izjavila je Helen Keler, jedna od najagilnijih
aktivistkinja za prava slijepih i slabovidih osoba u svijetu.
Literatura:
http://bs.wikipedia.org/wiki/lvu%C4%8Dna_kartica
http://pvprm.zesoi.fer.hr/2002-2003-web/studenti-rad/szeidler/seminar.html
http://savez-slijepih.hr/hr/strucniradovi/magisterij/davor_virkes/4.html
http://www.ipsis.hr/static/hr/rjesenja.html/sl.govornajedinica
http://www.ipsis.hr/site/article.php?sid=29
http://diana.zesoi.fer.hr/pvprm/
2007_08/mkutija/Martina_Kutija_pvprm.pdf
http://nautic-shop.cvs.hr/item_details.php?id=14
PROČITAJ
/ PREUZMI I DRUGE SEMINARSKE RADOVE IZ OBLASTI:
|
|