Izpratne par balss atpazīšanu

Izmēģiniet Mūsu Instrumentu Problēmu Novēršanai





Iedomājieties, kā jūs mierīgi sēžat uz dīvāna un vienkārši pasūtāt datoru, klēpjdatoru vai mobilo tālruni, lai veiktu vienkāršus uzdevumus, piemēram, rakstītu vēstuli vai izpildītu dažas komandas. Vai tas ir iespējams?

Protams, tā ir vieta, kur parādās balss atpazīšana.




Pēc definīcijas tas ir cilvēka runas atpazīšanas process un dekodēts to teksta formā.

Princips

Pamatprincips balss atpazīšana ietver faktu, ka jebkura cilvēka runas vai vārdi rada vibrācijas gaisā, kas pazīstami kā skaņas viļņi. Šie nepārtrauktie vai analogie viļņi tiek digitalizēti un apstrādāti, un pēc tam tiek atšifrēti atbilstoši vārdiem un pēc tam piemērotiem teikumiem.



balss atpazīšana

Runas atpazīšanas sistēmas komponenti

Tātad, ko veido pamata runas atpazīšanas sistēma?

Runas atpazīšanas sistēmas komponenti

  • Runas uztveršanas ierīce : Sastāv no mikrofona, kas pārveido skaņas viļņu signālus par elektriskiem signāliem, un no analogā uz ciparu pārveidotāju, kas paraugus un digitalizē analogos signālus, lai iegūtu diskrētos datus, kurus dators var saprast.
  • Digitālā signāla modulis vai procesors : Tas veic neapstrādāta runas signāla apstrādi, piemēram, frekvences domēna pārveidošanu, atjaunojot tikai nepieciešamo informāciju utt.
  • Iepriekš apstrādāta signāla uzglabāšana : Iepriekš apstrādātā runa tiek saglabāta atmiņā, lai veiktu turpmāku runas atpazīšanas uzdevumu.
  • Atsauces runas modeļi : Dators vai sistēma sastāv no iepriekš definētiem runas modeļiem vai veidnēm, kas jau ir saglabāti atmiņā un ko izmanto kā atsauci saskaņošanai.
  • Rakstu saskaņošanas algoritms : Nezināms runas signāls tiek salīdzināts ar atsauces runas modeli, lai noteiktu faktiskos vārdus vai vārdu modeli.
Sistēmas darbība

Tagad ļaujiet mums redzēt, kā visa sistēma faktiski darbojas.


Sistēmas darbība

  • Runu var uzskatīt par akustisko viļņu formu, t.i., signālu, kas satur ziņas informāciju. Normāls cilvēks ar ierobežotu viņa / viņas artikulatoru (runas orgānu) kustības ātrumu var radīt runu ar vidējo ātrumu 10 skaņas sekundē. Vidējais informācijas ātrums ir aptuveni 50-60 biti / sekundē. Tas nozīmē, ka runas signālā faktiski ir nepieciešama tikai 50 bitu sekundē. Šo akustisko viļņu formu mikrofons pārveido par analogiem elektriskiem signāliem. Pārveidotājs Analog to Digital pārveido šo analogo signālu ciparu paraugos, veicot precīzus viļņa mērījumus ar atsevišķiem intervāliem.
  • Digitalizētais signāls sastāv no periodisku signālu plūsmas, kas ņemta 16000 reižu sekundē, un nav piemērota faktisko signālu veikšanai runas atpazīšana procesu, jo modeli nevar viegli atrast. Lai iegūtu faktisko informāciju, signāls laika domēnā tiek pārveidots par signālu frekvenču apgabalā. To veic ciparu signālu procesors, izmantojot FFT tehniku. Digitālajā signālā komponents ik pēc 1/100thsekundes tiek analizēta un tiek aprēķināts frekvences spektrs katram šādam komponentam. Citiem vārdiem sakot, digitalizētais signāls tiek segmentēts nelielās frekvenču amplitūdu daļās.
  • Katrs segments vai frekvences grafiks attēlo dažādas cilvēku radītās skaņas. Dators veic nezināmo segmentu saskaņošanu ar saglabāto konkrētās valodas fonētiku. Šī modeļa saskaņošana tiek veikta trīs veidos:

Izmantojot akustisko fonētisko pieeju : Akustiskajā fonētiskajā pieejā parasti tiek izmantots slēptā Markova modelis. Šis modelis izstrādā nenoteiktu runas atpazīšanas varbūtības modeli. Šis modelis sastāv no diviem mainīgajiem - datora atmiņā saglabāto fonēmu slēptajiem stāvokļiem un digitālā signāla redzamā frekvences segmenta. Katrai fonēmai ir sava varbūtība, un segments tiek saskaņots ar fonēmu atbilstoši varbūtībai, un pēc tam saskaņotās fonēmas tiek savāktas kopā, lai izveidotu pareizos vārdus saskaņā ar saglabātajiem valodas gramatikas noteikumiem.

Izmantojot modeļa atpazīšanas pieeju : Modeļa atpazīšanas pieejā sistēma tiek apmācīta ar noteiktu runas modeli jebkurai valodai, un nezināms runas modelis tiek salīdzināts ar atsauces runas modeli, nosakot attālumu starp signāliem, izmantojot laika deformācijas tehniku.

Mākslīgā intelekta izmantošana : Mākslīgā intelekta pieeja ir balstīta uz tādu pamatzināšanu avotu izmantošanu kā zināšanas par skaņām, kas izrunātas, balstoties uz spektrālajiem mērījumiem, zināšanām par pareiziem nozīmīgiem un sintaktiskiem vārdiem.

Faktori, no kuriem atkarīga runas atpazīšanas sistēma

Runas atpazīšanas sistēma ir atkarīga no šādiem faktoriem:

  • Izolēti vārdi : Starp izrunātajiem vārdiem jābūt pauzei, jo nepārtraukti vārdi var pārklāties, padarot sistēmu grūti saprotamu, kad vārds sākas vai beidzas. Tādējādi starp secīgiem vārdiem jābūt klusumam.
  • Viens runātājs : Daudzi runātāji, kas vienlaikus mēģina ievadīt runu, var izraisīt signālu pārklāšanos un traucējumus. Lielākā daļa izmantoto runas atpazīšanas sistēmu ir no runātāja atkarīgas sistēmas.
  • Vārdnīcas lielums : Valodas ar lielu vārdu krājumu ir grūti uzskatīt par parauga atbilstību, nekā tās, kuru vārdu krājums ir mazs, jo pēdējā gadījumā izredzes uz neskaidriem vārdiem ir mazākas.
Runas atpazīšanas sistēma operētājsistēmā Windows 7

Es gribētu ieteikt šādas darbības jebkurai personai, kas runas atpazīšanas sistēmai izmanto sistēmu Windows 7

  • Sākuma izvēlnē vai noklikšķinot uz ikonas, atveriet vadības paneli.
  • Atlasiet Vienkārša piekļuve un pēc tam noklikšķiniet uz Runas atpazīšana.
  • Pēc tam noklikšķiniet uz Iestatīt mikrofonu un no pieejamajām opcijām atlasiet darbvirsmas mikrofonu.
  • Pēc tam veiciet runas apmācību un izpildiet dotos norādījumus.
  • Pēc tam apmāciet datoru, lai iegūtu labākas iespējas, lai dators saglabātu noteiktu runas signāla modeli. Tas tiek darīts, noklikšķinot uz opcijas “Apmācīt datoru, lai jūs labāk saprastu” un pēc tam izpildiet norādījumus.
  • Tagad sāciet runas atpazīšanas ikonu un sāciet diktēt runu datoram. Datoru vārdnīcai varat pievienot arī savus vārdus.
Praktiskās runas atpazīšanas sistēmas: izmantojot HM2007

Praktisku runas atpazīšanas sistēmu var izveidot, izmantojot runas atpazīšanas IC HM2007 . HM2007 ir 48 kontaktu IC, kas nodrošina runas atpazīšanas funkciju. Tas darbojas divos režīmos: manuālajā režīmā vai centrālā procesora režīmā. Abos režīmos IC vispirms tiek apmācīts atpazīt vārdus, lietotājam sakot katru vārdu par atbilstošo skaitli, kas nospiests uz taustiņa. IC katru vārda signālu glabā vārdam atbilstošajā atmiņas vietā. Dati no IC tiek savienoti ar mikrokontrolleru, no kurienes tie tiek parādīti LCD.

Runas praktiskās atpazīšanas sistēmas

Parasti HM2007 darbībai mēs izmantojam manuālo režīmu.

  • HM2007 sastāv no RDY tapas, kas ir aktīva zema tapa, kas norāda, ka IC ir gatavs apmācībai.
  • Balss ievade tiks veikta caur mikrofonu, kas savienots ar IC MICIN kontaktu.
  • IC ir saskarne ar tastatūru, ko izmanto, lai katram skaitlim ievadītu ciparu ievadi. IC darbojas divās funkcijās - Clear un Train. Kad tastatūrā tiek nospiests vilciena taustiņš, IC sāk apmācības procesu.
  • Lietotājs pirms taustiņa ‘Vilciens’ nospiešanas nospiež cipara taustiņu un saka mikrofonam vajadzīgo vārdu.
  • IC nosūta augstu signālu ME (atmiņas iespējošanas) tapai, kas ir savienota ar atbilstošo SRAM ME kontaktu. 8 bitu datu signāls, kas atbilst nospiestajam skaitlim, tiek saglabāts SRAM (ārējā RAM) caur ārējo kopni.
  • Pēc balss ievades noteikšanas RDY spraudnis ir loģiski augsts, un IC nonāk atzīšanas stāvoklī, kur tas sāk atpazīšanas procesu.
  • Procesa rezultāts tiek sniegts caur datu kopni ar augstu DEN (Data Enable) tapu.
  • Pēc tam 8 bitu datus var ievadīt mikrokontrollerim, izmantojot sērijas interfeisa procesoru, vai arī vispirms tos fiksēt, izmantojot fiksatoru IC 74HC573.
  • Mikrokontrollerim ir saskarne ar LCD un tas ir ieprogrammēts tā, lai displejā tiktu parādīts atbilstošais vārds.

Vienīgais piesardzības pasākums, kas jāievēro, ir nelietot homonīmus (vārdus ar līdzīgu skaņu) un rūpēties arī par balss ierosmi.

Tātad, tas ir viss, kā a runas atpazīšanas pamata sistēma darbojas. Laipni lūdzam pievienot jebkurus citus datus.

Attēlu kredīts

  • Runas atpazīšanas sistēma Gstatic
  • Runas viļņu formas manipulācija ar Dadisp

Runas atpazīšanas sistēmas komponenti, izmantojot ievadu runā un runātāju atpazīšanu - Ričards D. Pīks un Darils H. Grafs