6 probleemi, millega AI silmitsi on kõnetuvastuses

Kõik suurettevõtted investeerivad hääletuvastusse ja maailm kohaneb aeglaselt, kuid ühtlaselt tehisintellekti (AI) uue tehnoloogiaga. Miks see võtab nii kaua aega, miks see pole veel meie igapäevase elu osa? Siin on 6 põhjust, miks.

Lähete poodi otsima toote konkreetset värvi ja kaubamärki. Küsite töötajalt, kas soovitud toode on saadaval. Töötaja läheb lattu, kontrollib toote laoseisu ja tuleb mõni aeg hiljem tagasi vaid selleks, et öelda, et teie toodet pole enam saadaval.

Kujutage nüüd ette, sisenete samasse poodi ja ütlete pisikesele seadmele, mida soovite osta. Sekundi jooksul annab hääl teile toote täpse saadavuse ja kui see pole saadaval, annab teile üksikasjad müügikohtade kohta, kus toode on saadaval.

AI-seade teeb seda sisemiselt skannides läbi kõigi digitaalsete inventuurisüsteemide. Kuna kõnelogistika ja isiklike abistajate kunst on veel täiustatud, kuna sellel on arvukalt eeliseid seoses kulude logistikaga ja mis veelgi olulisem - mugavus?

Kuna teadus on teinud suuri edusamme helilainete tuvastamisel, heidame pilgu peamistele probleemidele, millega teadlased kõne teksti dekodeerimisel silmitsi seisavad.

Müra

Häälsalvestusseadmed tuvastavad kõne kaudu tekitatavad helilained. Ruumide taustmüra muudab süsteemide jaoks raskeks mõistmise ja eristamise konkreetsete helilainete vahel hosthäälest. See hägustab seadmete korjatud heli, ajab segadusse ja piirab selle töötlemisvõimet.

Kaja

Kajad on põhimõtteliselt helilained, mis peegelduvad erinevatel pindadel, nagu seinad, lauad või muu mööbel. See viib helilainete korratult tagasi retseptoritesse, vähendades selgust.

Rõhumärkidega

Laia aktsentide valik igas keeles on veel üks tegur, mis põhjustab kõnetuvastuse raskusi. Kui sama sõna saab hääldada mitmel erineval viisil, kipuvad sama sõna silp ja foneetika varieeruma, muutes masina töötlemise raskemaks.

Sarnased helid

Sarnased kõlav sõnad ja fraasid võivad takistada häälsõnumi õiget kodeerimist ja dekodeerimist. Näiteks on „Väändame kena ranna” ja „Tunnistame kõne ära”, foneetiliselt väga sarnased ja võivad seadet hõlpsalt segi ajada.

Masina viga

Häältuvastuse täpsuse tasemetel on kõrge veamäär. Masinatel on endiselt umbes 8–12% vigu, mida on üle kahe korra rohkem, kui inimesed oma igapäevases kõnes teevad. Kogutud andmete kodeerimise vead on jõudluse jaoks üliolulised, kuna see on esimene samm helisalvestusseadmete reageerimiseks.

Korrastamata kõne

Sõnade kokkuviimine meie igapäevastesse vestlustesse tähendab, et paljud sõnad ja fraasid ühinevad. See ei sobi masina ja hääle abil teksti äratundmiseks, kuna see raskendab konkreetsete sõnade või fraaside äratundmist, mis mõjutavad seadme vastavat reageerimist ja toiminguid.

Sõltumata sellest, kui arenenud need masinad võivad olla, takistavad eespool nimetatud tegurid edasi liikuvate AI-assistentide arengut. Vaatamata teaduse ja tehnoloogia arengu kiirusele keskenduvad kõik suurettevõtted optimaalsete hääletuvastusseadmete loomisele ning varem või hiljem need raugetakse ja meil kõigil on hääljuhitav robot, mis meie kodusid haldab nagu ka meie elu.

Lisateavet RAF 100 ürituse ja Mis on STEM kohta

Meie eksklusiivsele sisule juurdepääsemiseks jälgige kindlasti meid LinkedInis! # raf100event #WhatIsSTEM