AI 101

Kumaha Klasifikasi Téks Gawé?

diropéa on Agustus 23, 2020

Klasifikasi téks nyaéta prosés nganalisis runtuyan téks sarta méré labél, nempatkeun éta dina grup dumasar kana eusina. Klasifikasi téks ngadasarkeun ampir sagala AI atanapi tugas pembelajaran mesin anu ngalibetkeun Natural Language Processing (NLP). Kalayan klasifikasi téks, program komputer tiasa ngalaksanakeun rupa-rupa pancén anu béda sapertos pangakuan spam, analisis sentimen, sareng fungsi chatbot. Kumaha klasifikasi téks dianggo persis? Naon cara anu béda pikeun ngalaksanakeun klasifikasi téks? Urang bakal ngajalajah jawaban kana patarosan ieu di handap.

Nangtukeun Klasifikasi Téks

Penting pikeun nyandak sababaraha waktos sareng mastikeun yén urang ngartos naon klasifikasi téks, sacara umum, saméméh delving kana métode béda ngalakonan klasifikasi téks. Klasifikasi téks mangrupikeun salah sahiji istilah anu dilarapkeun kana seueur tugas sareng algoritma anu béda-béda, janten mangpaat pikeun mastikeun yén urang ngartos konsép dasar klasifikasi téks sateuacan ngaléngkah pikeun ngajalajah sababaraha cara anu tiasa dilaksanakeun.

Naon waé anu ngalibatkeun nyiptakeun kategori anu béda pikeun téks, teras labél conto téks anu béda salaku kategori ieu, tiasa dianggap klasifikasi téks. Salami sistem ngalaksanakeun léngkah-léngkah dasar ieu, éta tiasa dianggap salaku klasifikasi téks, henteu paduli metode anu pasti anu dianggo pikeun ngagolongkeun téks sareng henteu paduli kumaha klasifikasi téks ahirna diterapkeun. Ngadeteksi spam email, ngatur dokumén dumasar topik atanapi judul, sareng mikawanoh sentimen ulasan pikeun produk mangrupikeun conto klasifikasi téks sabab dilaksanakeun ku nyandak téks salaku input sareng ngaluarkeun labél kelas pikeun potongan téks éta.

Kumaha Klasifikasi Téks Gawé?

Poto: Quinn Dombrowski via Flickr, CC BY SA 2.0 , (https://www.flickr.com/photos/quinnanya/4714794045)

Paling métode klasifikasi téks bisa ditempatkeun kana salah sahiji tilu kategori béda: métode dumasar aturan atawa métode learning mesin.

Métode Klasifikasi Dumasar Aturan

Métode klasifikasi téks dumasar aturan beroperasi ngaliwatan pamakéan aturan linguistik éksplisit direkayasa. Sistem ngagunakeun aturan anu diciptakeun ku insinyur pikeun nangtukeun kelas mana sapotong téks anu dipasihkeun, milarian petunjuk dina bentuk unsur téks anu relevan sacara semantik. Unggal aturan boga pola nu téks kudu cocog pikeun ditempatkeun kana kategori pakait.

Janten langkung konkret, anggap anjeun hoyong ngarancang klasifikasi téks anu tiasa ngabédakeun topik obrolan umum, sapertos cuaca, pilem, atanapi tuangeun. Pikeun ngaktifkeun klasifikasi téks anjeun pikeun ngenal diskusi ngeunaan cuaca, anjeun tiasa nyarioskeun éta pikeun milarian kecap-kecap anu aya hubunganana sareng cuaca dina awak conto téks anu disayogikeun. Anjeun bakal gaduh daptar kecap konci, frasa, sareng pola anu relevan anu tiasa dianggo pikeun ngabédakeun topik. Contona, Anjeun bisa maréntahkeun classifier pikeun néangan kecap kawas "angin", "hujan", "panonpoé", "salju", atawa "awan". Anjeun teras tiasa gaduh classifier pikeun ningali téks input sareng ngitung sabaraha kali kecap-kecap ieu muncul dina awak téks sareng upami aranjeunna muncul langkung sering tibatan kecap anu aya hubunganana sareng pilem, anjeun bakal ngagolongkeun téks salaku milik kelas cuaca.

Kauntungannana sistem dumasar-aturan nyaéta yén input sareng kaluaranna tiasa diprediksi sareng tiasa diinterpretasi ku manusa, sareng aranjeunna tiasa ditingkatkeun ku intervensi manual ku insinyur. Sanajan kitu, métode klasifikasi dumasar aturan ogé rada rapuh, sarta aranjeunna mindeng boga waktu hésé generalizing sabab ngan bisa taat kana pola nu tos siap diprogram nu geus diprogram di. Salaku conto, kecap "awan" bisa nujul kana Uap dina langit, atanapi tiasa ngarujuk kana awan digital dimana data disimpen. Hésé pikeun sistem dumasar-aturan pikeun nanganan nuansa ieu tanpa para insinyur nyéépkeun waktos anu lumayan pikeun ngantisipasi sacara manual sareng nyaluyukeun subtleties ieu.

Sistem Pembelajaran Mesin

Sakumaha didadarkeun di luhur, sistem dumasar aturan boga watesan, sabab fungsi jeung aturan maranéhanana kudu tos diprogram. Sabalikna, sistem klasifikasi basis learning mesin beroperasi ku cara nerapkeun algoritma nu nganalisis susunan data pikeun pola nu pakait sareng kelas nu tangtu.

Algoritma pembelajaran mesin disayogikeun pra-dilabélan / pra-diklasifikasikeun instan anu dianalisis pikeun fitur anu relevan. Ieu instansi pre-dilabélan téh data latihan.

Klasifikasi pembelajaran mesin nganalisa data pelatihan sareng diajar pola anu aya hubunganana sareng kelas anu béda. Sanggeus ieu, instansi ghaib dilucuti tina labél maranéhanana sarta fed kana algoritma klasifikasi nu nangtukeun instansi a labél. Labél anu ditugaskeun teras dibandingkeun sareng labél asli pikeun ningali kumaha akurat klasifikasi mesin learning, ngukur kumaha modél diajar pola naon anu ngaduga kelas mana.

Algoritma pembelajaran mesin beroperasi ku nganalisis data numerik. Ieu ngandung harti yén pikeun ngagunakeun algoritma pembelajaran mesin dina data téks, téks kedah dirobih kana format numerik. Aya sababaraha cara pikeun ngodekeun data téks salaku data numerik sareng nyiptakeun metode pembelajaran mesin di sekitar data ieu. Urang bakal nutupan sababaraha cara pikeun ngagambarkeun data téks di handap.

Kantong-of-Kecap

Kantong-kecap mangrupa salah sahiji pendekatan nu paling ilahar dipake keur encoding jeung ngagambarkeun data téks. Istilah "tas-of-words" asalna tina kanyataan yén anjeun dasarna nyandak sakabeh kecap dina dokumén jeung nempatkeun kabeh kana hiji "kantong" tanpa nengetan urutan kecap atawa tata basa, nengetan ukur kana frékuénsi kecap dina kantong. Ieu ngakibatkeun array panjang, atawa vektor, ngandung hiji representasi tunggal sadaya kecap dina dokumén input. Janten upami aya 10000 kecap unik dina dokumén input, vektor fitur bakal panjangna 10000 kecap. Ieu kumaha ukuran tina kantong kecap / vektor fitur diitung.

Poto: gk_ via Machinelearning.co, (https://machinelearnings.co/text-classification-using-neural-networks-f5cd7b8765c6)

Saatos ukuran vektor fitur geus ditangtukeun, unggal dokumén dina daptar total dokumén ditugaskeun vektor sorangan ngeusi angka nu nunjukkeun sabaraha kali kecap nu dimaksud muncul dina dokumen ayeuna. Ieu ngandung harti yén lamun kecap "dahareun" mucunghul dalapan kali dina hiji dokumén téks, éta pakait fitur vektor / fitur Asép Sunandar Sunarya bakal boga dalapan dina posisi pakait.

Dina cara anu sanés, sadaya kecap unik anu muncul dina dokumén input sadayana ditumpuk kana hiji kantong teras unggal dokumén nampi véktor kecap anu ukuranana sami, anu teras dieusi ku sabaraha kali kecap anu béda muncul dina dokumén. .

Setét téks bakal sering ngandung sajumlah ageung kecap unik, tapi kalolobaanana henteu sering dianggo. Ku sabab kitu, jumlah kecap nu dipaké pikeun nyieun kecap véktor ilaharna capped dina nilai dipilih (N) lajeng dimensi véktor fitur bakal Nx1.

Frékuénsi Istilah-Frékuénsi Dokumén Tibalik (TF-IDF)

Cara séjén pikeun ngagambarkeun dokumén dumasar kana kecap-kecap di jerona nyaéta dubbed Frékuénsi Istilah-Frékuénsi Dokumén Tibalik (TF-IDF). Pendekatan TF-IDF ogé nyiptakeun véktor anu ngagambarkeun dokumén dumasar kana kecap-kecap di jerona, tapi teu sapertos Bag-of-words, kecap-kecap ieu weighted ku leuwih ti ngan frékuénsi maranéhanana. TF-IDF nganggap pentingna kecap-kecap dina dokumén, nyobian ngitung sabaraha relevan kecap éta kana subyek dokumén. Dina basa sejen, TF-IDF nganalisa relevansi tinimbang frékuénsi sarta jumlah kecap dina véktor fitur diganti ku skor TF-IDF nu diitung ngeunaan sakabeh dataset.

Pendekatan TF-IDF beroperasi ku mimiti ngitung frékuénsi istilah, sabaraha kali istilah unik muncul dina dokumen husus. Tapi, TF-IDF ogé ngurus pikeun ngawatesan pangaruh kecap-kecap anu umum pisan sapertos "the", "or", sareng "and", sabab "stopwords" ieu umum pisan tapi ngan ukur sakedik inpormasi ngeunaan eusi dokumen éta. Kecap-kecap ieu kedah diskon, nyaéta naon anu dimaksud "frékuénsi dokumén terbalik" tina TF-IDF. Hal ieu dilakukeun kusabab langkung seueur dokumén anu ditingalikeun ku kecap-kecap khusus, kirang mangpaatna kecap éta dina ngabédakeunana tina dokumén sanés dina daptar sadaya dokumén. Rumus anu dianggo ku TF-IDF pikeun ngitung pentingna kecap dirarancang pikeun ngawétkeun kecap-kecap anu paling sering sareng paling semantically beunghar.

Vektor fitur anu diciptakeun ku pendekatan TF-IDF ngandung niléy-niléy anu dinormalisasi anu jumlahna jadi hiji, méré unggal kecap hiji nilai anu ditimbang sakumaha diitung ku rumus TF-IDF.

Kecap Édapan

Embeddings kecap nya éta métode ngawakilan téks anu mastikeun yén kecap-kecap anu sarua hartina mibanda répréséntasi numerik anu sarua.

Embeddings kecap beroperasi ku "vectorizing" kecap, hartina éta ngagambarkeun kecap salaku real-nilai-véktor dina spasi vektor. Vektor aya dina grid atawa matriks, jeung maranéhna boga arah jeung panjang (atawa gedena). Nalika ngawakilan kecap salaku vektor, kecap-kecap dirobih janten véktor anu diwangun ku nilai nyata. Unggal kecap dipetakeun kana hiji vektor, sarta kecap anu sarua hartina boga arah jeung gedena sarua. Jenis encoding ieu ngamungkinkeun algoritma pembelajaran mesin pikeun diajar hubungan pajeulit antara kecap.

Embeddings nu ngagambarkeun kecap béda dijieun ngeunaan kumaha kecap nu dimaksud dipaké. Kusabab kecap-kecap anu dianggo ku cara anu sami bakal gaduh vektor anu sami, prosés nyiptakeun embeddings kecap sacara otomatis narjamahkeun sababaraha harti anu aya dina kecap. Kantong kecap pendekatan, sabalikna, nyiptakeun répréséntasi rapuh dimana kecap anu béda bakal gaduh répréséntasi anu béda sanajan dianggo dina kontéks anu sami.

Hasilna, embeddings kecap téh hadé dina nangkep konteks kecap dina kalimah.

Aya algoritma sareng pendekatan anu béda anu dianggo pikeun nyiptakeun embeddings kecap. Sababaraha metode embedding kecap anu paling umum sareng dipercaya kalebet: lapisan napel, word2vec, sareng GloVe.

Embedding Lapisan

Hiji cara poténsial pikeun ngagunakeun embeddings kecap barengan mesin learning / sistem learning jero nyaéta pikeun ngagunakeun lapisan embedding. Lapisan embedding nyaéta lapisan pembelajaran jero anu ngarobah kecap jadi émbeddings anu teras diasupkeun kana sesa sistem pembelajaran jero. Kecap embeddings diajar nalika jaringan ngalatih pikeun tugas dumasar téks khusus.

Dina pendekatan embedding kecap, kecap nu sarupa bakal boga representasi sarupa jeung leuwih deukeut ka silih ti kecap béda.

Pikeun ngagunakeun lapisan embedding, téks kedah diprosés heula. Téks dina dokumén kedah dikodekeun hiji-panas, sareng ukuran vektor kedah disebatkeun sateuacanna. Téks anu panas teras dirobih janten véktor kecap sareng véktor disalurkeun kana modél pembelajaran mesin.

Kecap2Vec

Kecap2Vec mangrupa métode umum sejen embedding kecap. Word2Vec ngagunakeun métode statistik pikeun ngarobah kecap kana embeddings sarta dioptimalkeun pikeun pamakéan ku model dumasar jaringan neural. Word2Vec dikembangkeun ku panalungtik Google sareng éta mangrupikeun salah sahiji metode embedding anu paling sering dianggo, sabab tiasa dipercaya ngahasilkeun émbedding anu mangpaat. Répréséntasi Word2Vec mangpaat pikeun ngaidentipikasi persamaan semantik sareng sintaksis dina basa. Ieu ngandung harti yén Répréséntasi Word2Vec nangkep hubungan antara konsép sarupa, bisa ngabedakeun yén commonality antara "Raja" jeung "Ratu" nyaeta royalti sarta yén "Raja" ngakibatkeun "lalaki-ness" bari Ratu ngakibatkeun "Woman-ness".

Sarung

Sarung tangan, atanapi Véktor Global pikeun Répréséntasi Kecap, ngawangun kana algoritma embedding dipaké ku Word2Vec. Métode GloVe embedding ngagabungkeun aspék Word2Vec sareng téhnik faktorisasi matriks sapertos Analisis Semantik Laten. Kauntungannana Word2Vec nyaéta yén éta tiasa nangkep kontéks, tapi salaku tradeoff, éta kirang nangkep statistik téks global. Sabalikna, répréséntasi véktor tradisional saé dina nangtukeun statistik téks global tapi henteu kapaké pikeun nangtukeun kontéks kecap sareng frasa. GloVE ngagambar tina anu pangsaéna tina dua pendekatan, nyiptakeun kontéks kecap dumasar kana statistik téks global.

nepi salajengna

Kumaha Klasifikasi Gambar Gawé?

Ulah Cik

Naon ari Robotic Prosés Automation (RPA)?

Daniel Nelson

Blogger sareng programer kalayan spesialisasi dina mesin Learning jeung jero Learning jejer. Daniel ngaharepkeun ngabantosan batur ngagunakeun kakawasaan AI pikeun kasaéan sosial.