UA 101

Si funksionon klasifikimi i tekstit?

Përditësuar on Gusht 23, 2020

Klasifikimi i tekstit është procesi i analizimit të sekuencave të tekstit dhe caktimit të tyre një etiketë, vendosja e tyre në një grup bazuar në përmbajtjen e tyre. Klasifikimi i tekstit qëndron në themel të pothuajse çdo detyre të AI ose të mësimit të makinerive që përfshin Përpunimin e Gjuhës Natyrore (NLP). Me klasifikimin e tekstit, një program kompjuterik mund të kryejë një shumëllojshmëri të gjerë detyrash të ndryshme si njohja e spamit, analiza e ndjenjave dhe funksionet e chatbot-it. Si funksionon saktësisht klasifikimi i tekstit? Cilat janë metodat e ndryshme të kryerjes së klasifikimit të tekstit? Ne do të shqyrtojmë përgjigjet e këtyre pyetjeve më poshtë.

Përcaktimi i klasifikimit të tekstit

Është e rëndësishme të marrim pak kohë dhe të sigurohemi që ta kuptojmë çfarë është klasifikimi i tekstit, në përgjithësi, përpara se të thellohemi në metodat e ndryshme të klasifikimit të tekstit. Klasifikimi i tekstit është një nga ato terma që zbatohet për shumë detyra dhe algoritme të ndryshme, kështu që është e dobishme të sigurohemi se kuptojmë konceptin bazë të klasifikimit të tekstit përpara se të vazhdojmë të eksplorojmë mënyrat e ndryshme që mund të kryhet.

Çdo gjë që përfshin krijimin e kategorive të ndryshme për tekstin, dhe më pas etiketimin e mostrave të ndryshme të tekstit si këto kategori, mund të konsiderohet klasifikim teksti. Për sa kohë që një sistem kryen këto hapa bazë, ai mund të konsiderohet një klasifikues teksti, pavarësisht nga metoda e saktë e përdorur për të klasifikuar tekstin dhe pavarësisht se si klasifikuesi i tekstit zbatohet përfundimisht. Zbulimi i postës elektronike të padëshiruar, organizimi i dokumenteve sipas temës ose titullit dhe njohja e ndjenjës së një rishikimi për një produkt janë të gjitha shembuj të klasifikimit të tekstit sepse ato realizohen duke marrë tekstin si hyrje dhe duke nxjerrë një etiketë klase për atë pjesë të tekstit.

Si funksionon klasifikimi i tekstit?

Foto: Quinn Dombrowski nëpërmjet Flickr, CC BY SA 2.0, (https://www.flickr.com/photos/quinnanya/4714794045)

Shumica e metodave të klasifikimit të tekstit mund të vendosen në një nga tre kategoritë e ndryshme: metoda të bazuara në rregulla ose metoda të mësimit të makinës.

Metodat e klasifikimit të bazuara në rregulla

Metodat e klasifikimit të tekstit të bazuara në rregulla funksionojnë përmes përdorimit të rregullave gjuhësore të krijuara në mënyrë eksplicite. Sistemi përdor rregullat e krijuara nga inxhinieri për të përcaktuar se cilës klasë duhet t'i përkasë një pjesë e caktuar e tekstit, duke kërkuar të dhëna në formën e elementeve të tekstit përkatës semantikisht. Çdo rregull ka një model që teksti duhet të përputhet për t'u vendosur në kategorinë përkatëse.

Për të qenë më konkret, le të themi se dëshironi të krijoni një klasifikues teksti të aftë për të dalluar temat e zakonshme të bisedës, si moti, filmat ose ushqimi. Për të mundësuar klasifikuesin tuaj të tekstit të njohë diskutimin e motit, mund t'i thoni të kërkojë fjalë të lidhura me motin në trupin e mostrave të tekstit që po jepet. Ju do të keni një listë me fjalë kyçe, fraza dhe modele të tjera përkatëse që mund të përdoren për të dalluar temën. Për shembull, mund ta udhëzoni klasifikuesin të kërkojë fjalë si "erë", "shi", "diell", "borë" ose "re". Më pas mund ta bëni klasifikuesin të shikojë tekstin hyrës dhe të numërojë sa herë shfaqen këto fjalë në trupin e tekstit dhe nëse ato shfaqen më shpesh se fjalët që lidhen me filmat, do ta klasifikoni tekstin si i përket klasës së motit.

Avantazhi i sistemeve të bazuara në rregulla është se inputet dhe rezultatet e tyre janë të parashikueshme dhe të interpretueshme nga njerëzit, dhe ato mund të përmirësohen përmes ndërhyrjes manuale nga inxhinieri. Megjithatë, metodat e klasifikimit të bazuara në rregulla janë gjithashtu disi të brishta dhe ato shpesh e kanë të vështirë të përgjithësohen sepse ato mund t'u përmbahen vetëm modeleve të paracaktuara që janë programuar. Si shembull, fjala "re" mund t'i referohet lagështisë në qielli, ose mund t'i referohet një reje dixhitale ku ruhen të dhënat. Është e vështirë për sistemet e bazuara në rregulla që të trajtojnë këto nuanca pa shpenzuar inxhinierët një kohë të mjaftueshme duke u përpjekur të parashikojnë manualisht dhe t'i përshtatin këto hollësi.

Sistemet e mësimit të makinerisë

Siç u përmend më lart, sistemet e bazuara në rregulla kanë kufizime, pasi funksionet dhe rregullat e tyre duhet të jenë të programuara paraprakisht. Në të kundërt, sistemet e klasifikimit të bazuara në mësimin e makinerive funksionojnë duke aplikuar algoritme që analizojnë grupet e të dhënave për modelet që lidhen me një klasë të caktuar.

Algoritmet e mësimit të makinerive ushqehen me raste të para-etiketuara/paraklasifikuara që analizohen për veçoritë përkatëse. Këto raste të para-etiketuara janë të dhënat e trajnimit.

Klasifikuesi i mësimit të makinerive analizon të dhënat e trajnimit dhe mëson modelet që lidhen me klasa të ndryshme. Pas kësaj, instancat e padukshme hiqen nga etiketat e tyre dhe futen në algoritmin e klasifikimit i cili u cakton rasteve një etiketë. Etiketat e caktuara më pas krahasohen me etiketat origjinale për të parë se sa i saktë ishte klasifikuesi i mësimit të makinës, duke vlerësuar se sa mirë modeli mësoi se cilat modele parashikojnë cilat klasa.

Algoritmet e mësimit të makinerisë funksionojnë duke analizuar të dhënat numerike. Kjo do të thotë që për të përdorur një algoritëm të mësimit të makinës në të dhënat e tekstit, teksti duhet të konvertohet në një format numerik. Ekzistojnë metoda të ndryshme të kodimit të të dhënave të tekstit si të dhëna numerike dhe krijimit të metodave të mësimit të makinerive rreth këtyre të dhënave. Ne do të mbulojmë disa nga mënyrat e ndryshme për të përfaqësuar të dhënat e tekstit më poshtë.

Thes-of-words

Thes-me-fjalë është një nga qasjet më të përdorura për kodimin dhe paraqitjen e të dhënave tekstuale. Termi "çantë me fjalë" vjen nga fakti që ju merrni në thelb të gjitha fjalët në dokumente dhe i vendosni të gjitha në një "çantë" pa i kushtuar vëmendje renditjes së fjalëve ose gramatikës, duke i kushtuar vëmendje vetëm frekuenca e fjalëve në çantë. Kjo rezulton në një grup të gjatë, ose vektor, që përmban një paraqitje të vetme të të gjitha fjalëve në dokumentet hyrëse. Pra, nëse ka gjithsej 10000 fjalë unike në dokumentet hyrëse, vektorët e veçorive do të jenë 10000 fjalë të gjata. Kështu llogaritet madhësia e fjalës çanta/vektori i veçorive.

Foto: gk_ via Machinelearning.co, (https://machinelearnings.co/text-classification-using-neural-networks-f5cd7b8765c6)

Pasi të jetë përcaktuar madhësia e vektorit të veçorive, çdo dokumenti në listën e dokumenteve totale i caktohet vektori i tij i mbushur me numra që tregojnë se sa herë shfaqet fjala në fjalë në dokumentin aktual. Kjo do të thotë që nëse fjala "ushqim" shfaqet tetë herë brenda një dokumenti tekstual, ai vektor përkatës i veçorive/vargu i veçorive do të ketë një tetë në pozicionin përkatës.

E thënë ndryshe, të gjitha fjalët unike që shfaqen në dokumentet hyrëse grumbullohen të gjitha në një thes dhe më pas secili dokument merr një vektor fjalësh të së njëjtës madhësi, i cili më pas plotësohet me numrin e herëve që fjalët e ndryshme shfaqen në dokument. .

Të dhënat e tekstit shpesh përmbajnë një numër të madh fjalësh unike, por shumica e tyre nuk përdoren shumë shpesh. Për këtë arsye, numri i fjalëve të përdorura për të krijuar fjalën vektor zakonisht kufizohet në një vlerë të zgjedhur (N) dhe më pas dimensioni i vektorit të veçorive do të jetë Nx1.

Frekuenca e termave-frekuenca e kundërt e dokumentit (TF-IDF)

Një mënyrë tjetër për të paraqitur një dokument bazuar në fjalët në të është dubluar Frekuenca e termave-frekuenca e kundërt e dokumentit (TF-IDF). Një përqasje TF-IDF gjithashtu krijon një vektor që përfaqëson dokumentin bazuar në fjalët në të, por ndryshe nga Bag-of-words këto fjalë janë peshuar nga më shumë se vetëm frekuenca e tyre. TF-IDF merr parasysh rëndësinë e fjalëve në dokumente, duke u përpjekur të përcaktojë sasinë se sa e rëndësishme është ajo fjalë për temën e dokumentit. Me fjalë të tjera, TF-IDF analizon rëndësinë në vend të frekuencës dhe numërimi i fjalëve në një vektor të veçorive zëvendësohet nga një rezultat TF-IDF që llogaritet në lidhje me të gjithë grupin e të dhënave.

Një qasje TF-IDF funksionon duke llogaritur fillimisht frekuencën e termit, numrin e herëve që termat unikë shfaqen brenda një dokumenti specifik. Megjithatë, TF-IDF kujdeset gjithashtu të kufizojë ndikimin e fjalëve jashtëzakonisht të zakonshme si "the", "ose" dhe "dhe", pasi këto "fjalë ndalese" janë shumë të zakonshme, por përcjellin shumë pak informacion për përmbajtjen e dokumentit. Këto fjalë duhet të zbriten, gjë që i referohet pjesës së "frekuencës së dokumentit të kundërt" të TF-IDF. Kjo është bërë sepse sa më shumë dokumente në të cilat shfaqen një fjalë specifike, aq më pak e dobishme është ajo fjalë për ta dalluar atë nga dokumentet e tjera në listën e të gjitha dokumenteve. Formula që TF-IDF përdor për të llogaritur rëndësinë e një fjale është krijuar për të ruajtur fjalët që janë më të shpeshtat dhe më të pasurat semantikisht.

Vektorët e veçorive të krijuara nga qasja TF-IDF përmbajnë vlera të normalizuara që shumohen në një, duke i caktuar çdo fjale një vlerë të ponderuar siç llogaritet nga formula TF-IDF.

Përmbledhje fjalësh

ngulitje fjalësh janë metoda të paraqitjes së tekstit që sigurojnë që fjalët me kuptime të ngjashme të kenë paraqitje të ngjashme numerike.

ngulitje fjalësh veprojnë duke “vektorizuar” fjalët, që do të thotë se ato përfaqësojnë fjalët si vektorë me vlerë reale në një hapësirë vektoriale. Vektorët ekzistojnë në një rrjet ose matricë, dhe ata kanë një drejtim dhe gjatësi (ose madhësi). Kur fjalët përfaqësohen si vektorë, fjalët shndërrohen në vektorë të përbërë nga vlera reale. Çdo fjalë është hartuar në një vektor, dhe fjalët që janë të ngjashme në kuptim kanë drejtim dhe madhësi të ngjashme. Ky lloj kodimi bën të mundur që një algoritëm i mësimit të makinës të mësojë marrëdhënie të ndërlikuara midis fjalëve.

Përfshirjet që përfaqësojnë fjalë të ndryshme krijohen në lidhje me mënyrën se si përdoren fjalët në fjalë. Për shkak se fjalët që përdoren në mënyra të ngjashme do të kenë vektorë të ngjashëm, procesi i krijimit të futjeve të fjalëve përkthen automatikisht disa nga kuptimet që kanë fjalët. Në të kundërt, qasja e një çantë fjalësh krijon paraqitje të brishta ku fjalë të ndryshme do të kenë paraqitje të ndryshme edhe nëse përdoren në kontekste shumë të ngjashme.

Si rezultat, futjet e fjalëve janë më të mira në kapjen e kontekstit të fjalëve brenda një fjalie.

Ekzistojnë algoritme dhe qasje të ndryshme që përdoren për të krijuar ngulitje fjalësh. Disa nga metodat më të zakonshme dhe më të besueshme të futjes së fjalëve përfshijnë: shtresat e ngulitjes, word2vec dhe GloVe.

Vendosja e shtresave

Një mënyrë e mundshme për të përdorur futjet e fjalëve së bashku me një sistem të mësimit të makinës/të mësuarit të thellë është përdorni një shtresë ngulitjeje. Shtresat e përfshirjes janë shtresa të mësimit të thellë që konvertojnë fjalët në ngulitje të cilat më pas futen në pjesën tjetër të sistemit të të mësuarit të thellë. Fjala embeddings mësohet ndërsa rrjeti trajnohet për një detyrë specifike të bazuar në tekst.

Në një qasje të futjes së fjalëve, fjalët e ngjashme do të kenë paraqitje të ngjashme dhe do të jenë më afër njëra-tjetrës sesa me fjalë të ndryshme.

Për të përdorur shtresat e ngulitjes, teksti duhet të përpunohet paraprakisht. Teksti në dokument duhet të jetë i koduar një herë dhe madhësia e vektorit duhet të specifikohet paraprakisht. Teksti i vetëm i nxehtë konvertohet më pas në vektorë fjalësh dhe vektorët kalohen në modelin e mësimit të makinës.

Word2Vec

Word2Vec është një metodë tjetër e zakonshme e futjes së fjalëve. Word2Vec përdor metoda statistikore për të kthyer fjalët në ngulitje dhe është optimizuar për përdorim me modele të bazuara në rrjetet nervore. Word2Vec u zhvillua nga studiuesit e Google dhe është një nga metodat më të përdorura të ngulitjes, pasi jep në mënyrë të besueshme futje të dobishme dhe të pasura. Paraqitjet e Word2Vec janë të dobishme për identifikimin e të përbashkëtave semantike dhe sintaksore në gjuhë. Kjo do të thotë që përfaqësimet Word2Vec kapin marrëdhënie midis koncepteve të ngjashme, duke qenë në gjendje të dallojnë se e përbashkëta midis "Mbretit" dhe "Mbretëreshës" është mbretëria dhe se "Mbreti" nënkupton "burrëri" ndërsa Mbretëresha nënkupton "Gruaja".

Doreza

GloVE, ose vektor global për përfaqësimin e fjalëve, bazohet në algoritmet e ngulitjes të përdorura nga Word2Vec. Metodat e futjes së GloVe kombinojnë aspekte të teknikave të faktorizimit të Word2Vec dhe matricës si Analiza Semantike Latent. Avantazhi i Word2Vec është se ai mund të kapë kontekstin, por si kompensim ai kap dobët statistikat e tekstit global. Anasjelltas, paraqitjet tradicionale vektoriale janë të mira në përcaktimin e statistikave globale të tekstit, por ato nuk janë të dobishme për përcaktimin e kontekstit të fjalëve dhe frazave. GloVE merr nga më të mirat e të dyja qasjeve, duke krijuar kontekst fjalësh bazuar në statistikat globale të tekstit.

Temat e ngjashme:thes me fjalë NLP klasifikimi i tekstit ngulitje fjalësh

E rradhes

Si funksionon klasifikimi i imazheve?

Mos e humbas

Çfarë është Automatizimi i Procesit Robotik (RPA)?

Daniel Nelson

Bloger dhe programues me specialitete në Mësim Machine Mësim i thellë temave. Daniel shpreson të ndihmojë të tjerët të përdorin fuqinë e AI për të mirën sociale.