stub EchoSpeech: Nirrivoluzzjonaw il-Komunikazzjoni b'Teknoloġija ta' Rikonoxximent ta' Diskors Siekt - Unite.AI
Kuntatt magħna

Intelliġenza Artifiċjali

EchoSpeech: Revolutioning Komunikazzjoni bit-Teknoloġija ta' Rikonoxximent ta' Diskors Siekt

ippubblikat

 on

Immaġni: RUIDONG ZHANG/UNIVERSITÀ CORNELL

Riċerkaturi fl-Università ta’ Cornell żviluppaw EchoSpeech, interface ta’ rikonoxximent ta’ diskors sieket li juża sensing akustiku u intelliġenza artifiċjali biex jirrikonoxxi kontinwament sa 31 kmand mhux vokalizzat ibbażati fuq movimenti tax-xufftejn u tal-ħalq. Din l-interface ta 'enerġija baxxa u li tista' tintlibes tista' titħaddem fuq smartphone u teħtieġ biss ftit minuti ta 'dejta ta' taħriġ tal-utent għar-rikonoxximent tal-kmand.

Ruidong Zhang, student tad-dottorat fix-xjenza tal-informazzjoni, huwa l-awtur ewlieni ta '"EchoSpeech: Rikonoxximent Kontinwu ta' Diskors Silenzju fuq Nuċċalijiet Minimament Intrużivi Mħaddma minn Sensing Akustiku,” li se tkun ippreżentata fl-Assoċjazzjoni għall-Konferenza tal-Makkinarju tal-Kompjuter dwar Fatturi Umani fis-Sistemi tal-Kompjuter (CHI) dan ix-xahar f’Hamburg, il-Ġermanja.

“Għal nies li ma jistgħux vokalizzaw il-ħoss, din it-teknoloġija tad-diskors siekta tista’ tkun input eċċellenti għal sintetizzatur tal-vuċi. Jista 'jagħti leħinhom lill-pazjenti lura,” qal Zhang, filwaqt li enfasizza l-applikazzjonijiet potenzjali tat-teknoloġija b'aktar żvilupp.

Applikazzjonijiet tad-Dinja Reali u Vantaġġi tal-Privatezza

Fil-forma attwali tiegħu, EchoSpeech jista 'jintuża għall-komunikazzjoni ma' oħrajn permezz ta 'smartphone f'ambjenti fejn id-diskors huwa inkonvenjenti jew mhux xieraq, bħal ristoranti storbjużi jew libreriji kwieti. L-interface tad-diskors siekta tista 'wkoll tkun imqabbda ma' stilus u utilizzata ma 'softwer tad-disinn bħal CAD, u tnaqqas b'mod sinifikanti l-ħtieġa għal tastiera u maws.

Mgħammra b'mikrofoni u kelliema iżgħar minn gomom tal-lapsijiet, in-nuċċalijiet EchoSpeech jiffunzjonaw bħala sistema ta 'sonar li tintlibes li taħdem bl-AI, tibgħat u tirċievi soundwaves madwar il-wiċċ u tiskopri movimenti tal-ħalq. Algoritmu ta' tagħlim fil-fond imbagħad janalizza dawn il-profili ta' eku f'ħin reali b'eżattezza ta' madwar 95%.

"Qed nimxu s-sonar fuq il-ġisem," qal Cheng Zhang, assistent professur tax-xjenza ta 'l-informazzjoni u direttur tal-Lab ta' Cornell's Smart Computer Interfaces for Future Interactions (SciFi).

It-teknoloġija eżistenti ta 'rikonoxximent ta' diskors sieket tipikament tiddependi fuq sett limitat ta 'kmandi predeterminati u teħtieġ lill-utent biex jiffaċċja jew jilbes kamera. Cheng Zhang spjega li dan la huwa prattiku u lanqas fattibbli u jqajjem ukoll tħassib sinifikanti dwar il-privatezza kemm għall-utent kif ukoll għal dawk li jinteraġixxu magħhom.

It-teknoloġija ta 'sensing akustiku ta' EchoSpeech telimina l-ħtieġa għal kameras tal-vidjo li jintlibsu. Barra minn hekk, peress li d-dejta tal-awdjo hija iżgħar mid-dejta tal-immaġni jew tal-vidjo, teħtieġ inqas bandwidth biex tiġi pproċessata u tista 'tiġi trażmessa lil smartphone permezz tal-Bluetooth f'ħin reali, skont François Guimbretière, professur fix-xjenza tal-informazzjoni.

"U minħabba li d-dejta tiġi pproċessata lokalment fuq l-ismartphone tiegħek minflok tittella' fuq il-cloud," qal, "informazzjoni sensittiva għall-privatezza qatt ma tħalli l-kontroll tiegħek."

Alex McFarland huwa ġurnalist u kittieb tal-IA li jesplora l-aħħar żviluppi fl-intelliġenza artifiċjali. Huwa kkollabora ma' bosta startups u pubblikazzjonijiet tal-AI madwar id-dinja.