Արհեստական բանականություն

Չափազանցության հայտնաբերման NLP մոտեցումը գիտական լրագրության մեջ

Թարմացվել է on Դեկտեմբերի 9, 2022

Դանիայից ժամանած հետազոտողները մշակել են «չափազանցության հայտնաբերման» համակարգ, որը նախատեսված է նվազեցնելու լրագրողների ազդեցությունը, երբ դրանք ամփոփելիս և զեկուցելիս չափազանցնում են նոր գիտահետազոտական հոդվածների հետևանքները: Աշխատանքը պայմանավորված է նրանով, թե որքանով է խեղաթյուրվել COVID-19-ի վերաբերյալ նոր հրապարակված հետազոտությունները հաշվետվական ալիքներում, թեև հեղինակները խոստովանում են, որ այն կիրառելի է ընդհանուր գիտության հաշվետվությունների հատվածի լայն հատվածում:

The թուղթ, իրավունք Առողջապահության գիտության մամուլի հաղորդագրությունների կիսավերահսկվող չափազանցության հայտնաբերում, գալիս է Կոպենհագենի համալսարանից և նշում է, որ խնդիրը սրվում է հրատարակությունների՝ սկզբնական հետազոտությանը աղբյուրի հղումներ չներառելու միտումով. ավելի ու ավելի տարածված լրագրողական պրակտիկա, որը փորձում է փոխարինել բնօրինակ թերթը և փոխարինել վերազեկուցված ամփոփագիրը որպես։ «աղբյուրի գիտելիք» – նույնիսկ այն դեպքում, երբ թերթը հասանելի է հանրությանը:

Թղթից՝ գիտական աշխատությունների ուռճացման բնորոշ դրսեւորում. Աղբյուր՝ https://arxiv.org/pdf/2108.13493.pdf

Խնդիրը չի սահմանափակվում արտաքին լրագրողական արձագանքով նոր հոդվածներին, այլ կարող է տարածվել այլ տեսակի ամփոփումների վրա, ներառյալ համալսարանների և հետազոտական հաստատությունների ներքին PR ջանքերը. գովազդային նյութեր, որոնք ուղղված են լրատվամիջոցների ուշադրությունը գրավելուն. և օգտակար ուղղորդման հղումները (և հնարավոր զինամթերքը ֆինանսավորման ռաունդների համար), որոնք հանգեցնում են այն ժամանակ, երբ լրագրողները «կծում են»:

Աշխատանքը կիրառում է բնական լեզվի մշակումը (NLP)՝ զուգակցված մամուլի հաղորդագրությունների և համառոտագրերի նոր տվյալների բազայի դեմ, ընդ որում, հետազոտողները պնդում են, որ մշակել են «նոր, ավելի իրատեսական առաջադրանքի ձևակերպում»՝ գիտական չափազանցությունների հայտնաբերման համար: Հեղինակները խոստացել են հրապարակել աշխատանքի ծածկագիրը և տվյալները GitHub-ում շուտով:

Սենսացիոնիզմի դեմ պայքար

Մի շարք ուսումնասիրություններ անդրադարձել են գիտական սենսացիոնիզմի խնդրին վերջին երեսուն կամ ավելի տարիների ընթացքում և ուշադրություն են հրավիրել այն ապատեղեկատվության վրա, որին դա կարող է հանգեցնել: Հանգուցյալ ամերիկացի գիտական սոցիոլոգ Դորոթի Նելկինն անդրադարձել է խնդրին հատկապես 1987թ գիրք Գիտության վաճառք. ինչպես է մամուլը լուսաբանում գիտությունն ու տեխնոլոգիան; 2006 թվականի Embo զեկույցը Վատ գիտությունը վերնագրերում ընդգծեց ավելի գիտականորեն պատրաստված լրագրողների անհրաժեշտությունը, ճիշտ այնպես, ինչպես ինտերնետը կրիտիկական բյուջետային ճնշումներ էր գործադրում ավանդական լրատվամիջոցների վրա:

Բացի այդ, 2014 թվականին Բրիտանական բժշկական ամսագիրը խնդրին ուշադրություն դարձրեց ա հաշվետվություն; և Wellcome Open Research-ի 2019 թվականի ուսումնասիրությունը նույնիսկ հաստատեց գիտական հոդվածների այդ չափազանցվածությունը ոչ մի օգուտ չի տալիս (հասանելիության կամ երթևեկության առումով) այն լրատվամիջոցներին և հաշվետվությունների այլ համակարգերին, որոնք իրականացնում են այս պրակտիկան:

Այնուամենայնիվ, համաճարակի գալուստը այս հիպերբոլիայի բացասական հետևանքները բերել է կրիտիկական ուշադրության կենտրոնում՝ ունենալով մի շարք տեղեկատվական հարթակներ, այդ թվում՝ Google Search Engine արդյունքների էջը և Կոռնելի համալսարանի Arxiv գիտական աշխատությունների ինդեքսն այժմ ինքնաբերաբար ավելացնում է պատասխանատվությունից հրաժարում ցանկացած բովանդակության վրա, որը կարծես թե առնչվում է COVID-ի հետ:

Փոփոխված միջերեսներ՝ COVID-ի հետ կապված որոնումների և բովանդակության համար, Google-ի որոնման արդյունքների էջից և Կոռնելի համալսարանի ազդեցիկ Arxiv գիտական փաստաթղթերի պահոցից:

Նախկին նախագծերը փորձել են ստեղծել գիտական հոդվածների չափազանցության հայտնաբերման համակարգեր՝ օգտագործելով NLP-ն, ներառյալ 2019 թ. գործակցություն Հոնկոնգից և Չինաստանից հետազոտողների և մեկ այլ (անկապ) դանիական հոդվածի միջև ի 2017.

Նոր փաստաթղթի հետազոտողները նշում են, որ այս նախկին ջանքերը մշակել են PubMed-ի և EurekAlert-ի ամփոփագրերից և ամփոփագրերի պահանջների հավաքածուներ, որոնք պիտակավորված են որպես «ուժեղություն», և դրանք օգտագործել են մեքենայական ուսուցման մոդելներին կանխատեսելու համար: պահանջել ուժ չտեսնված տվյալների մեջ։

MT-PET

Փոխարենը, նոր հետազոտությունը համատեղում է մամուլի հաղորդագրությունը և վերացականը որպես համակցված տվյալների միավոր և օգտագործում է ստացված տվյալների բազան MT-PET-ում, որը նախապես Pattern Exploiting Training հետազոտության բազմաբնույթ առաջադրանքների ունակ տարբերակն է: ներկայացրել 2020 թվականին որպես Օգտագործելով Cloze հարցերը մի քանի կադրերի տեքստի դասակարգման և բնական լեզվի եզրակացության համարԳերմանական երկու գիտահետազոտական հաստատությունների համատեղ հետազոտական աշխատանք:

Չգտնվեց, որ գոյություն ունեցող տվյալների բազան հարմար է առաջադրանքի համար, և թիմը, հետևաբար, մշակել է համառոտ նախադասությունների նոր հավաքածու՝ վերացականներից և հարակից մամուլի հրապարակումներից, որոնք գնահատվել են «փորձագետների» կողմից՝ ուռճացնելու իրենց հակվածության տեսանկյունից:

Հետազոտողները օգտագործել են մի քանի կադրերի տեքստի դասակարգման շրջանակը PETAL որպես խողովակաշարի մի մաս, որն ավտոմատ կերպով առաջացնում է օրինաչափություն-վերբալիզատոր զույգեր, որոնք հետագայում նորից կրկնվում են տվյալների միջոցով, մինչև որ հայտնաբերվեն մոտավորապես համարժեք զույգեր երկու որակի համար՝ չափազանցության հայտնաբերում և պահանջի ուժ:

Փորձարկման համար «ոսկե» տվյալները կրկին օգտագործվել են վերոհիշյալ ավելի վաղ հետազոտական նախագծերից՝ բաղկացած 823 զույգ վերացականներից և մամուլի հաղորդագրություններից: Հետազոտողները մերժեցին 2014 թվականի BMJ տվյալների հնարավոր օգտագործումը, քանի որ դրանք վերափոխված են:

Այս գործընթացը ձեռք բերեց 663 վերացական/թողարկման զույգերի տվյալների հավաքածու՝ պիտակավորված չափազանցության և պահանջի ուժի համար: Հետազոտողները պատահականորեն ընտրեցին նրանցից 100-ը որպես մի քանի կրակոց ուսուցում ուսուցման տվյալները՝ 553 օրինակներով, որոնք նախատեսված են փորձարկման համար: Բացի այդ, ստեղծվել է 1,138 նախադասությունից բաղկացած մի փոքրիկ ուսուցման հավաքածու՝ դասակարգված այն մասին, թե արդյոք դրանք ներկայացնում են ամփոփման կամ մամուլի հաղորդագրության հիմնական եզրակացությունը, թե ոչ: Սրանք օգտագործվել են «վերջնական նախադասությունները» չպիտակավորված զույգերով նույնականացնելու համար:

Փորձարկում

Հետազոտողները փորձարկել են մոտեցումը երեք կոնֆիգուրացիաներով. բացառապես պիտակավորված տվյալների հետ ամբողջությամբ վերահսկվող կարգավորում; մեկ առաջադրանքի PET սցենար; և նոր MT-PET-ի վրա, որն ավելացնում է երկրորդական ձևակերպման շարանը՝ որպես օժանդակ առաջադրանք (քանի որ նախագծի նպատակն է հետազոտել երկու առանձին որակներ տվյալների զուգակցված տվյալների կառուցվածքներով):

Հետազոտողները պարզել են, որ MT-PET-ը բարելավվել է PET-ի բազային արդյունքների հիման վրա փորձարկման միջավայրերում, և պարզել է, որ պահանջի ուժի բացահայտումն օգնեց ստեղծել փափուկ պիտակավորված վերապատրաստման տվյալներ՝ չափազանցության հայտնաբերման համար: Այնուամենայնիվ, թերթը նշում է, որ որոշակի կոնֆիգուրացիաներում թեստերի բարդ զանգվածի մեջ, մասնավորապես՝ կապված պահանջի ուժի հետ, մասնագիտական պիտակավորված տվյալների առկայությունը կարող է բարելավված արդյունքների գործոն լինել (համեմատած ավելի վաղ հետազոտական նախագծերի հետ, որոնք լուծում են այս խնդիրը): Սա կարող է ազդեցություն ունենալ խողովակաշարի ավտոմատացման չափի վրա՝ կախված առաջադրանքի տվյալների շեշտադրումից:

Այնուամենայնիվ, հետազոտողները եզրակացնում են, որ MT-PET «Օգնում է ավելի բարդ դեպքերում պարզել և տարբերակել ուղղակի պատճառահետևանքային պահանջները ավելի թույլ պահանջներից, և որ ամենաարդյունավետ մոտեցումը ներառում է աղբյուրի և նպատակային փաստաթղթերի հայտարարությունների առանձին պահանջի ուժի դասակարգումը և համեմատումը»:.

Եզրափակելով, աշխատանքը ենթադրում է, որ MT-PET-ը ոչ միայն կարող է կիրառվել գիտական հոդվածների ավելի լայն շրջանակի համար (առողջապահության ոլորտից դուրս), այլ նաև կարող է հիմք հանդիսանալ նոր գործիքների հիմքում, որոնք կօգնեն լրագրողներին ավելի լավ պատկերացում կազմել գիտական հոդվածների վերաբերյալ (չնայած. Սա, միգուցե միամտաբար, ենթադրում է, որ լրագրողները չափազանցնում են պահանջատիրության ուժը անտեղյակության պատճառով), ինչպես նաև օգնում են հետազոտող հանրությանը բարդ գաղափարները բացատրելու համար լեզվի ավելի հստակ կիրառման ձևակերպման հարցում: Ավելին, թերթը նշում է.

«[պետք է] նշել, որ այս աշխատության մեջ հաղորդված կանխատեսող կատարողական արդյունքները վերաբերում են գիտական լրագրողների կողմից գրված մամուլի հաղորդագրություններին. կարելի է ավելի վատ արդյունքներ սպասել մամուլի հրապարակումների համար, որոնք ավելի խիստ պարզեցնում են գիտական հոդվածները»:

Հարակից թեմաներ.միջին բնական լեզվով մշակման գործընթացը հետազոտություն գիտություն

Հաջորդը

Amazon Mechanical Turk-ի թերությունները կարող են սպառնալ բնական լեզվի ստեղծման համակարգերին

Բաց մի թողեք

MIT. ԶԼՄ-ների կողմնակալության չափում խոշոր լրատվական լրատվամիջոցներում մեքենայական ուսուցման միջոցով

Մարտին Անդերսոն

Գրող մեքենայական ուսուցման, արհեստական ինտելեկտի և մեծ տվյալների մասին:
Անձնական կայք. martinanderson.ai
Հետադարձ: [էլեկտրոնային փոստով պաշտպանված]
Twitter՝ @manders_ai