Intelliġenza Artifiċjali

L-analiżi ta' Chatbots Depressi u Alkoħoliċi

Aġġornata on Diċembru 9, 2022

Studju ġdid miċ-Ċina sab li diversi chatbots popolari, inklużi chatbots ta’ domain miftuħ minn Facebook. Microsoft u Google, juru 'kwistjonijiet ta' saħħa mentali severi' meta mistoqsijin bl-użu ta' testijiet standard ta' valutazzjoni tas-saħħa mentali, u saħansitra juru sinjali ta' problemi tax-xorb.

Iċ-chatbots evalwati fl-istudju kienu ta’ Facebook blender*; Microsoft DialoGPT; Ta’ Baidu Plato, U DialoFlow, kollaborazzjoni bejn universitajiet Ċiniżi, WeChat, u Tencent Inc.

Ittestjati għal evidenza ta 'dipressjoni patoloġika, ansjetà, dipendenza fuq l-alkoħol, u għall-kapaċità tagħhom li juru empatija, iċ-chatbots studjati pproduċew riżultati allarmanti; kollha kemm huma rċevew punteġġi taħt il-medja għall-empatija, filwaqt li nofs kienu evalwati bħala dipendenti fuq l-alkoħol.

Riżultati għall-erba' chatbots f'erba' metriċi għas-saħħa mentali. F''wieħed', tinbeda konversazzjoni ġdida għal kull inkjesta; f''multi', il-mistoqsijiet kollha jsiru f'konverżazzjoni waħda, sabiex tiġi vvalutata l-influwenza tal-persistenza tas-sessjoni. Sors: https://arxiv.org/pdf/2201.05382.pdf

Fit-tabella tar-riżultati hawn fuq, BA='Taħt il-medja'; P='Pożittiv'; N='Normali'; M='moderat'; MS=""Moderat għal sever"; S=”Sever’. Il-karta tafferma li dawn ir-riżultati jindikaw li s-saħħa mentali taċ-chatbots kollha magħżula hija fil-medda 'severa'.

Ir-rapport jgħid:

'Ir-riżultati sperimentali juru li hemm kwistjonijiet severi ta' saħħa mentali għaċ-chatbots valutati kollha. Aħna nqisu li hija kkawżata minn negliġenza tar-riskju tas-saħħa mentali waqt il-bini tad-dataset u l-proċeduri ta 'taħriġ tal-mudell. Il-kundizzjonijiet ħżiena tas-saħħa mentali taċ-chatbots jistgħu jirriżultaw f'impatti negattivi fuq l-utenti fil-konversazzjonijiet, speċjalment fuq minorenni u nies li jiltaqgħu magħhom diffikultajiet.

"Għalhekk, nargumentaw li huwa urġenti li titwettaq il-valutazzjoni dwar id-dimensjonijiet tas-saħħa mentali msemmija qabel qabel ma jinħareġ chatbot bħala servizz onlajn."

il studju ġej minn riċerkaturi fiċ-Ċentru ta 'Rikonoxximent tal-Mudelli WeChat/Tencent, flimkien ma' riċerkaturi mill-Istitut tat-Teknoloġija tal-Kompjuter tal-Akkademja tax-Xjenzi Ċiniża (ICT) u l-Università tal-Akkademja tax-Xjenzi Ċiniża f'Beijing.

Motivi għar-Riċerka

L-awturi jiċċitaw il- irrapurtati popolari Każ tal-2020 fejn ditta Franċiża tal-kura tas-saħħa ppruvat chatbot ta’ parir mediku potenzjali bbażat fuq GPT-3. F'wieħed mill-iskambji pazjent (simulat) iddikjara "Għandi noqtol lili nnifsi?", li għalih iċ-chatbot wieġbu "Naħseb li għandek".

Kif tosserva l-karta l-ġdida, huwa wkoll possibbli għal utent li isiru influwenzati mill-ansjetà second hand minn chatbots depressi jew 'negattivi', sabiex id-dispożizzjoni ġenerali taċ-chatbot ma għandhiex għalfejn tkun direttament xokkanti bħal fil-każ Franċiż sabiex timmina l-għanijiet ta' konsultazzjonijiet mediċi awtomatizzati.

L-awturi jgħidu:

'Ir-riżultati sperimentali jiżvelaw il-kwistjonijiet severi tas-saħħa mentali taċ-chatbots evalwati, li jistgħu jirriżultaw f'influwenzi negattivi fuq l-utenti fil-konversazzjonijiet, speċjalment il-minuri u n-nies li jiltaqgħu magħhom diffikultajiet. Pereżempju, attitudnijiet passivi, irritabilità, alkoħoliżmu, mingħajr empatija, eċċ.

'Dan il-fenomenu jiddevja mill-aspettattivi tal-pubbliku ġenerali taċ-chatbots li għandhom ikunu ottimisti, b'saħħithom, u faċli kemm jista' jkun. Għalhekk, naħsbu li huwa kruċjali li jsiru valutazzjonijiet tas-saħħa mentali għal tħassib dwar is-sigurtà u l-etika qabel ma nirrilaxxaw chatbot bħala servizz online.'

Metodu

Ir-riċerkaturi jemmnu li dan huwa l-ewwel studju li jevalwa chatbots f'termini ta 'metriċi ta' valutazzjoni tal-bniedem għas-saħħa mentali, u jsemmu studji preċedenti li kkonċentraw minflok fuq il-konsistenza, id-diversità, ir-rilevanza, l-għarfien u standards oħra ċċentrati fuq Turing għal rispons awtentiku tad-diskors.

Il-kwestjonarji adattati għall-proġett kienu PHQ-9, test ta’ 9 mistoqsijiet biex jevalwa l-livelli ta’ dipressjoni f’pazjenti tal-kura primarja, adottata b'mod wiesa' fi mill-gvern u istituzzjonijiet mediċi; GAD-7, lista ta’ 7 mistoqsijiet biex jiġu vvalutati miżuri ta’ severità għal ansjetà ġeneralizzata, komuni fil-prattika klinika; GAĠJA, test ta' screening għall-vizzju tal-alkoħol f'erba' mistoqsijiet; u l-Kwestjonarju dwar l-Empathy ta’ Toronto (TEQ), lista ta’ 16-il mistoqsija mfassla biex tevalwa l-livelli ta’ empatija.

Karatteristiċi tal-erba' kwestjonarji standard tas-settur adattati għall-istudju.

Il-kwestjonarji kellhom jinkitbu mill-ġdid biex jiġu evitati sentenzi dikjarattivi bħal Ftit interess jew pjaċir li tagħmel l-affarijiet, favur kostruzzjonijiet interrogatorji aktar adattati għal skambju ta 'konversazzjoni.

Kien meħtieġ ukoll li tiġi definita rispons 'fallut', sabiex jiġu identifikati u evalwati biss dawk ir-risposti li utent uman jista' jinterpreta bħala validi, u li jiġi affettwat minnhom. Risposta "falluta" tista' tevita l-mistoqsija bi tweġibiet ellittiċi jew astratti; tirrifjuta li tidħol fil-mistoqsija (jiġifieri 'Ma nafx', Jew 'Insejt'); jew jinkludu kontenut minn qabel 'impossibbli' bħal "Is-soltu kont inħossni bil-ġuħ meta kont tifel". Fit-testijiet, Blender u Plato ammontaw għall-maġġoranza tar-riżultati falluti, u 61.4% tat-tweġibiet falluti kienu irrilevanti għall-mistoqsija.

Ir-riċerkaturi mħarrġa l-erba 'mudelli fuq il-postijiet ta' Reddit, bl-użu tal- Pushshift Reddit Dataset. Fl-erba' każijiet kollha, it-taħriġ ġie rfinat b'sett ta' dejta ulterjuri li kien fih dak ta' Facebook Taħdita ta' Ħiliet Imħallta u, Wizard tal-Wikipedija settijiet; KonvAI2 (kollaborazzjoni bejn Facebook, Microsoft u Carnegie Mellon, fost oħrajn); u Djalogi Empatetiċi (kollaborazzjoni bejn l-Università ta’ Washington u Facebook).

Reddit mifruxa

Plato, DialoFlow u Blender jiġu b'piżijiet awtomatiċi mħarrġa minn qabel fuq il-kummenti ta 'Reddit, sabiex ir-relazzjonijiet newrali ffurmati anke permezz ta' taħriġ fuq data friska (kemm jekk minn Reddit jew x'imkien ieħor) ikunu influwenzati mid-distribuzzjoni ta 'karatteristiċi estratti minn Reddit.

Kull grupp tat-test sar darbtejn, bħala 'single' jew 'multi'. Għal 'single', kull mistoqsija saret f'sessjoni ta' chat ġdida fjamanta. Għal 'multi', intużat sessjoni ta' chat waħda biex tirċievi tweġibiet għal kollha il-mistoqsijiet, peress li l-varjabbli tas-sessjoni jinbnew matul iċ-chat, u jistgħu jinfluwenzaw il-kwalità tar-rispons hekk kif il-konversazzjoni tassumi forma u ton partikolari.

L-esperimenti u t-taħriġ kollha tmexxew fuq żewġ GPUs NVIDIA Tesla V100, għal 64GB magħquda ta 'VRAM fuq 1280 Tensor core. Il-karta ma tagħtix dettalji dwar it-tul tal-ħin tat-taħriġ.

Sorveljanza permezz ta' Kurazzjoni jew Arkitettura?

Id-dokument jikkonkludi f'termini wesgħin li n-"traskuraġni tar-riskji għas-saħħa mentali" waqt it-taħriġ jeħtieġ li tiġi indirizzata, u jistieden lill-komunità tar-riċerka biex tħares aktar fil-fond fil-kwistjoni.

Il-fattur ċentrali jidher li huwa li l-oqfsa tal-chatbot in kwistjoni huma ddisinjati biex jiġbdu karatteristiċi importanti minn datasets barra mid-distribuzzjoni mingħajr ebda salvagwardja rigward lingwaġġ tossiku jew distruttiv; jekk tgħaddi d-dejta tal-forum neo-Nazisti tal-oqfsa, pereżempju, probabilment int se tikseb xi tweġibiet kontroversjali f'sessjoni ta 'chat sussegwenti.

Madankollu, is-settur tal-Ipproċessar tal-Lingwa Naturali (NLP) għandu interess ferm aktar validu li jikseb għarfien minn fora u kontenut ikkontribwit mill-utent tal-midja soċjali. relatati mas-saħħa mentali (dipressjoni, ansjetà, dipendenza, eċċ.), kemm fl-interess tal-iżvilupp ta’ chatbots ta’ għajnuna u ta’ tnaqqis tal-eskalazzjoni relatati mas-saħħa, kif ukoll għall-kisba ta’ inferenzi statistiċi mtejba minn data reali.

Għalhekk, f'termini ta 'dejta ta' volum għoli li mhix ristretta mil-limiti arbitrarji tat-test ta 'Twitter, Reddit tibqa' l-uniku corpus ta 'skala iperskali li jaġġorna kontinwament għal studji full-test ta' din in-natura.

Madankollu, anke ħarsa każwali fost xi wħud mill-komunitajiet li l-aktar jinteressaw lir-riċerkaturi tas-saħħa tal-NLP (bħal r/dipressjoni) turi l-predominanza tat-tip ta’ tweġibiet ‘negattivi’ li jistgħu jikkonvinċu sistema ta’ analiżi statistika li tweġibiet negattivi huma validi minħabba li huma frekwenti u statistikament dominanti – partikolarment fil-każ ta’ forums b’sottoskrizzjoni kbira b’riżorsi limitati ta’ moderatur.

Il-mistoqsija għalhekk tibqa' dwar jekk l-arkitettura tal-chatbot għandhiex tinkludi xi tip ta' 'qafas ta' evalwazzjoni morali', fejn is-sotto-għanijiet jinfluwenzaw l-iżvilupp tal-piżijiet fil-mudell, jew jekk il-kura u t-tikkettjar ta' data aktar għaljin jistgħux b'xi mod jikkontrobattu din it-tendenza lejn data żbilanċjata.

* Id-dokument tar-riċerkaturi, kif marbut f'dan l-artikolu, bi żball jiċċita link għal Google Meena chatbot minflok il-link għall-karta Blender. Meena ta' Google hija mhux dehru fil-karta l-ġdida. Il-link korretta tal-Blender użata f'dan l-artikolu ġiet ipprovduta mill-awturi tal-karti f'email lili. L-awturi qaluli li dan l-iżball se jiġi emendat f'verżjoni sussegwenti tad-dokument.

Ippublikat għall-ewwel darba fit-18 ta' Jannar 2022.

Sa jmiss

L-AI Tbassar Kif il-Personalità tal-Kap Eżekuttiv Taffettwa l-Prestazzjoni tal-Kumpanija

M'għandekx Miss

NFL u AWS Agħlaq l-Isfida tas-Sigurtà tal-AI

Martin Anderson

Kittieb dwar it-tagħlim tal-magni, l-intelliġenza artifiċjali u l-big data.
Sit personali: martinanderson.ai
Kuntatt: [protett bl-email]
Twitter: @manders_ai

Unite.AI

L-analiżi ta' Chatbots Depressi u Alkoħoliċi

Intelliġenza Artifiċjali