Razumijevanje prepoznavanja glasa

Isprobajte Naš Instrument Za Uklanjanje Problema





Zamislite kako opušteno sjedite na sofi i samo naređujete računalu ili prijenosnom računalu ili mobitelu da izvršavaju jednostavne zadatke poput tipkanja slova ili izvršavanja nekoliko naredbi. Je li moguće?

Naravno da jest, tu prepoznavanje glasa dolazi na scenu.




Idući prema definiciji, to je postupak prepoznavanja ljudskog govora i dekodiranja u tekstualni oblik.

Načelo

Osnovno načelo prepoznavanje glasa uključuje činjenicu da govor ili riječi koje izgovara bilo koje ljudsko biće uzrokuju vibracije u zraku, poznate kao zvučni valovi. Ti se kontinuirani ili analogni valovi digitaliziraju i obrađuju, a zatim dekodiraju u odgovarajuće riječi, a zatim u odgovarajuće rečenice.



prepoznavanje glasa

Komponente sustava za prepoznavanje govora

Dakle, od čega se sastoji osnovni sustav za prepoznavanje govora?

Komponente sustava za prepoznavanje govora

  • Uređaj za hvatanje govora : Sastoji se od mikrofona koji pretvara signale zvučnog vala u električne signale i analognog u digitalni pretvarač koji uzorkuje i digitalizira analogne signale da bi dobio diskretne podatke koje računalo može razumjeti.
  • Digitalni signalni modul ili procesor : Izvodi obradu sirovog govornog signala poput pretvorbe frekvencijske domene, obnavljajući samo potrebne informacije itd.
  • Unaprijed obrađena pohrana signala : Predobrađeni govor sprema se u memoriju radi izvršavanja daljnjeg zadatka prepoznavanja govora.
  • Referentni obrasci govora : Računalo ili sustav sastoji se od unaprijed definiranih obrazaca govora ili predložaka koji su već pohranjeni u memoriji i koji će se koristiti kao referenca za podudaranje.
  • Algoritam podudaranja obrazaca : Nepoznati govorni signal uspoređuje se s referentnim govornim uzorkom kako bi se utvrdile stvarne riječi ili obrazac riječi.
Rad sustava

Sada da vidimo kako zapravo funkcionira cijeli sustav.


Rad sustava

  • Govor se može promatrati kao akustični valni oblik, tj. Informacije koje prenose signal. Normalno ljudsko biće s ograničenom brzinom kretanja svojih artikulatora (govornih organa) može proizvoditi govor prosječnom brzinom od 10 zvukova u sekundi. Prosječna brzina informiranja je oko 50-60 bita / sekundu. To znači da je u govornom signalu potrebno samo 50 bitova u sekundi informacija. Ovaj se zvučni val mikrofon pretvara u analogne električne signale. Analogno-digitalni pretvarač pretvara ovaj analogni signal u digitalne uzorke izvodeći precizna mjerenja vala u diskretnim intervalima.
  • Digitalizirani signal sastoji se od struje periodičnih signala uzorkovanih 16000 puta u sekundi i nije prikladan za provođenje stvarnih prepoznavanje govora proces jer se uzorak ne može lako pronaći. Da bi se izvukle stvarne informacije, signal u vremenskoj domeni pretvara se u signal u frekvencijskoj domeni. To radi procesor digitalnih signala pomoću FFT tehnike. U digitalnom signalu komponenta nakon svakih 1/100thsekunde analizira se i izračunava frekvencijski spektar za svaku takvu komponentu. Drugim riječima, digitalizirani signal segmentira na male dijelove frekvencijskih amplituda.
  • Svaki segment ili graf frekvencije predstavljaju različite zvukove koje proizvode ljudi. Računalo vrši podudaranje nepoznatih segmenata s pohranjenom fonetikom određenog jezika. Ovo podudaranje uzorka vrši se na 3 načina:

Korištenje akustičkog fonetskog pristupa : U akustičnom fonetskom pristupu obično se koristi model skrivenog Markova. Ovaj model razvija nedeterministički model vjerojatnosti za prepoznavanje govora. Ovaj se model sastoji od dvije varijable - skrivenih stanja fonema pohranjenih u memoriji računala i vidljivog segmenta frekvencije digitalnog signala. Svaki fonem ima svoju vjerojatnost, a segment se podudara s fonemom prema vjerojatnosti, a usklađeni fonemi se zatim sakupljaju kako bi oblikovali ispravne riječi u skladu s pohranjenim gramatičkim pravilima jezika.

Korištenje pristupa prepoznavanju uzoraka : U pristupu prepoznavanju uzoraka, sustav se obučava s određenim govornim uzorkom za bilo koji jezik, a nepoznati govorni obrazac uspoređuje se s referentnim govornim uzorkom određivanjem udaljenosti između signala pomoću tehnike savijanja vremena.

Korištenje umjetne inteligencije : Pristup umjetne inteligencije temelji se na korištenju osnovnih izvora znanja kao što su poznavanje zvukova izgovorenih na temelju spektralnih mjerenja, poznavanje ispravnih značajnih i sintaktičkih riječi.

Čimbenici o kojima ovisi sustav za prepoznavanje govora

Sustav prepoznavanja govora ovisi o sljedećim čimbenicima:

  • Izolirane riječi : Potrebno je napraviti stanku između uzastopnih izgovorenih riječi, jer se neprekidne riječi mogu preklapati, što otežava sustavu da razumije kada riječ započinje ili završava. Stoga između uzastopnih riječi treba biti tišina.
  • Pojedinačni zvučnik : Mnogi zvučnici koji istodobno pokušavaju dati govorni unos mogu prouzročiti preklapanje signala i prekida. Većina sustava za prepoznavanje govora koriste se sustavima koji ovise o zvučniku.
  • Veličina rječnika : Teško je uzeti u obzir jezike s velikim rječnikom za podudaranje uzoraka od onih s malim rječnikom, jer su šanse za dvosmislene riječi u potonjem manje.
Sustav za prepoznavanje govora u sustavu Windows 7

Želio bih preporučiti sljedeće korake bilo kojoj osobi koja koristi sustav Windows 7 za sustav prepoznavanja govora

  • Otvorite upravljačku ploču na izborniku Start ili klikom na ikonu.
  • Odaberite Jednostavnost pristupa, a zatim kliknite Prepoznavanje govora.
  • Sljedeći klik postavi mikrofon i odaberi stolni mikrofon iz dostupnih opcija.
  • Zatim slijedite upute za govor i slijedite dane upute.
  • Nakon toga, osposobite svoje računalo za bolje mogućnosti tako da računalo pohrani određeni obrazac vašeg govornog signala. To se postiže klikom na opciju ‘obuči računalo da te bolje razumije’, a zatim slijedi upute.
  • Sada pokrenite ikonu za prepoznavanje govora i počnite diktirati svoj govor računalu. U računalni rječnik možete dodati i vlastite riječi.
Praktični sustavi za prepoznavanje govora: Korištenje HM2007

Praktični sustav prepoznavanja govora može se izgraditi pomoću IC-a za prepoznavanje govora HM2007 . HM2007 je IC s 48 pina koji pruža funkciju prepoznavanja govora. Radi u dva načina: ručnom ili CPU modu. U oba načina rada IC je prvo osposobljen za prepoznavanje riječi od strane korisnika koji izgovara svaku riječ za odgovarajući broj pritisnut na tipku. IC sprema svaki signal riječi u memorijsko mjesto koje odgovara toj riječi. Izlazni podaci s IC-a povezani su s mikrokontrolerom odakle su prikazani na LCD-u.

Praktični sustavi za prepoznavanje govora

Obično koristimo ručni način rada za rad HM2007.

  • HM2007 se sastoji od RDY pina koji je aktivni donji pin koji pokazuje da je IC spreman za trening.
  • Glasovni ulaz daje se putem mikrofona spojenog na MICIN pin IC-a.
  • IC je povezan s tipkovnicom koja služi za unos broja koji odgovara svakoj riječi. IC radi u dvije funkcije - Clear i Train. Kad se na tipkovnici pritisne tipka za vlak, IC započinje svoj trening.
  • Korisnik pritisne brojčanu tipku prije nego što pritisne funkcijsku tipku ‘Vlak’ i izgovori potrebnu riječ u mikrofon.
  • IC šalje visoki signal na ME (Memory Enable) pin koji je povezan na odgovarajući ME pin SRAM-a. 8-bitni podatkovni signal koji odgovara pritisnutom broju pohranjuje se u SRAM (vanjski RAM) kroz vanjsku sabirnicu.
  • Nakon otkrivanja glasovnog unosa, RDY pin je na logičkoj razini i IC dolazi u stanje prepoznavanja, gdje započinje postupak prepoznavanja.
  • Rezultat postupka daje se kroz sabirnicu podataka s visokim pinom DEN (Data Enable).
  • 8-bitni podaci mogu se zatim dati mikrokontroleru kroz serijski procesor sučelja ili prvo zaključati pomoću zasuna IC 74HC573.
  • Mikrokontroler je povezan s LCD-om i programiran je tako da se na zaslonu prikaže odgovarajuća riječ.

Jedina mjera predostrožnosti koju treba poduzeti je da se ne koriste homonimi (riječi sa sličnim zvukom), a također i da se brine o pobudi u glasu.

Dakle, ovo je sve kako a osnovni sustav prepoznavanja govora djela. Svi daljnji unosi su dobrodošli da se dodaju.

Kredit za sliku

  • Sustav za prepoznavanje govora Gstatic
  • Manipulacija govornim valom Dadisp

Komponente sustava za prepoznavanje govora uvodom u prepoznavanje govora i govornika - Richard D. Peacocke i Daryl H. Graf