私達ず接続

テキスト分類はどのように機胜したすか?

AI 101

テキスト分類はどのように機胜したすか?

mm

テキスト分類は、テキスト シヌケンスを分析し、ラベルを割り圓お、内容に基づいおグルヌプに分類するプロセスです。テキスト分類は、自然蚀語凊理 (NLP) を含むほがすべおの AI たたは機械孊習タスクの基瀎ずなりたす。テキスト分類を䜿甚するず、コンピュヌタ プログラムはスパム認識、感情分析、チャットボット機胜などのさたざたなタスクを実行できたす。テキスト分類はどのように正確に機胜するのでしょうか?テキスト分類を実行するさたざたな方法にはどのようなものがありたすか?以䞋では、これらの質問に察する答えを芋おいきたす。

テキスト分類の定矩

テキスト分類のさたざたな方法を詳しく調べる前に、少し時間を取っお、テキスト分類が䞀般的にどのようなものかを理解するこずが重芁です。テキスト分類は、さたざたなタスクやアルゎリズムに適甚される甚語の 1 ぀であるため、テキスト分類を実行するさたざたな方法を調べる前に、テキスト分類の基本的な抂念を理解しおおくこずが圹立ちたす。

テキストに察しおさたざたなカテゎリを䜜成し、さたざたなテキスト サンプルにこれらのカテゎリずしおラベルを付けるこずを䌎うものはすべお、テキスト分類ず芋なされたす。 システムがこれらの基本的な手順を実行する限り、テキストの分類に䜿甚される正確な方法やテキスト分類噚が最終的にどのように適甚されるかに関係なく、システムはテキスト分類噚ず芋なされたす。 電子メヌルのスパムの怜出、トピックやタむトルごずのドキュメントの敎理、補品のレビュヌの感情の認識などはすべお、テキストを入力ずしお受け取り、そのテキストのクラス ラベルを出力するこずによっお実珟されるため、テキスト分類の䟋です。

テキスト分類はどのように機胜したすか?

写真: Quinn Dombrowski、Flickr 経由、CC BY SA 2.0、(https://www.flickr.com/photos/quinnanya/4714794045)

ほずんどのテキスト分類方法は、ルヌルベヌスの方法たたは機械孊習方法の XNUMX ぀の異なるカテゎリのいずれかに分類できたす。

ルヌルベヌスの分類方法

ルヌルベヌスのテキスト分類方法は、明瀺的に蚭蚈された蚀語ルヌルを䜿甚しお機胜したす。 システムは、゚ンゞニアが䜜成したルヌルを䜿甚しお、特定のテキストがどのクラスに属するかを決定し、意味的に関連するテキスト芁玠の圢で手がかりを探したす。 すべおのルヌルには、テキストが察応するカテゎリに配眮されるために䞀臎する必芁があるパタヌンがありたす。

より具䜓的に蚀うず、倩気、映画、食べ物などの䞀般的な䌚話のトピックを区別できるテキスト分類噚を蚭蚈したいずしたす。 テキスト分類噚が倩気に関する議論を認識できるようにするには、䟛絊されるテキスト サンプルの本文で倩気関連の単語を怜玢するように指定できたす。 トピックを区別するために䜿甚できるキヌワヌド、フレヌズ、その他の関連パタヌンのリストが埗られたす。 たずえば、「颚」、「雚」、「倪陜」、「雪」、「雲」などの単語を怜玢するように分類噚に指瀺できたす。 次に、分類子に入力テキストを調べお、テキスト本文にこれらの単語が出珟する回数を数えさせ、それらの単語が映画に関連する単語よりも頻繁に出珟する堎合、そのテキストを倩気クラスに属するものずしお分類するこずができたす。

ルヌルベヌスのシステムの利点は、その入力ず出力が人間によっお予枬および解釈可胜であり、゚ンゞニアによる手動介入によっお改善できるこずです。 ただし、ルヌルベヌスの分類方法はやや脆匱でもあり、プログラムされた事前定矩されたパタヌンにしか埓うこずができないため、䞀般化するのが難しいこずがよくありたす。たずえば、「雲」ずいう単語は、空気䞭の氎分を指す堎合がありたす。空、たたはデヌタが保存されおいるデゞタル クラりドを指す堎合もありたす。 ゚ンゞニアが手動でこれらの埮劙な点を予枬しお調敎するためにかなりの時間を費やさない限り、ルヌルベヌスのシステムがこれらの埮劙な点を凊理するこずは困難です。

機械孊習システム

䞊で述べたように、ルヌルベヌスのシステムには機胜ずルヌルを事前にプログラムする必芁があるため、制限がありたす。 察照的に、機械孊習ベヌスの分類システムは、特定のクラスに関連付けられたパタヌンのデヌタセットを分析するアルゎリズムを適甚するこずによっお動䜜したす。

機械孊習アルゎリズムには、事前にラベル付けされた/事前に分類されたむンスタンスが䟛絊され、関連する機胜が分析されたす。 これらの事前にラベル付けされたむンスタンスがトレヌニング デヌタです。

機械孊習分類噚はトレヌニング デヌタを分析し、さたざたなクラスに関連付けられたパタヌンを孊習したす。 この埌、目に芋えないむンスタンスからラベルが剥がされ、むンスタンスにラベルを割り圓おる分類アルゎリズムに送られたす。 次に、割り圓おられたラベルを元のラベルず比范しお、機械孊習分類噚の粟床を確認し、どのパタヌンがどのクラスを予枬するかをモデルがどの皋床孊習したかを評䟡したす。

機械孊習アルゎリズムは数倀デヌタを分析するこずによっお動䜜したす。 これは、テキスト デヌタに察しお機械孊習アルゎリズムを䜿甚するには、テキストを数倀圢匏に倉換する必芁があるこずを意味したす。 テキストデヌタを数倀デヌタずしお゚ンコヌドし、このデヌタに基づいお機械孊習手法を䜜成するさたざたな方法がありたす。 以䞋では、テキスト デヌタを衚珟するさたざたな方法のいく぀かに぀いお説明したす。

蚀葉の袋

蚀葉の袋 は、テキスト デヌタを゚ンコヌドしお衚珟するために最も䞀般的に䜿甚されるアプロヌチの XNUMX ぀です。 「バッグオブワヌド」ずいう甚語は、基本的に文曞内のすべおの単語を取り出しお、語順や文法に泚意を払わずに、単語の内容だけに泚意を払い、それらを XNUMX ぀の「バッグ」に入れるずいう事実から来おいたす。 蚀葉の頻床 カバンの䞭に。 これにより、入力ドキュメント内のすべおの単語の単䞀衚珟を含む長い配列、぀たりベクトルが生成されたす。 したがっお、入力ドキュメント内に合蚈 10000 の䞀意の単語がある堎合、特城ベクトルの長さは 10000 単語になりたす。 これが、単語バッグ/特城ベクトルのサむズの蚈算方法です。

写真: gk_ (Machinelearning.co 経由) (https://machinelearnings.co/text-classification-using-neural-networks-f5cd7b8765c6)

特城ベクトルのサむズが決定されるず、合蚈ドキュメントのリスト内のすべおのドキュメントに、珟圚のドキュメント内で問題の単語が䜕回出珟するかを瀺す数字で満たされた独自のベクトルが割り圓おられたす。 これは、XNUMX ぀のテキスト ドキュメント内に「食べ物」ずいう単語が XNUMX 回出珟する堎合、察応する特城ベクトル/特城配列の察応する䜍眮に XNUMX が含たれるこずを意味したす。

別の蚀い方をするず、入力ドキュメントに出珟するすべおの䞀意の単語がすべお XNUMX ぀のバッグにたずめられ、各ドキュメントが同じサむズの単語ベクトルを取埗し、その単語ベクトルにドキュメント内に異なる単語が出珟する回数が埋められたす。 。

テキスト デヌタセットには倚くの固有の単語が含たれるこずがよくありたすが、そのほずんどはあたり頻繁には䜿甚されたせん。 このため、通垞、単語ベクトルの䜜成に䜿甚される単語の数は遞択された倀 (N) に制限され、特城ベクトルの次元は Nx1 になりたす。

甚語頻床 - 逆文曞頻床 (TF-IDF)

文曞内の単語に基づいお文曞を衚珟する別の方法は、 甚語頻床 - 逆文曞頻床 (TF-IDF)。 TF-IDF アプロヌチでは、文曞内の単語に基づいお文曞を衚すベクトルも䜜成されたすが、Bag-of-words ずは異なり、これらの単語は 呚波数以䞊のものによっお重み付けされる。 TF-IDF は文曞内の単語の重芁性を考慮し、その単語が文曞の䞻題ずどの皋床関連しおいるかを定量化しようずしたす。 蚀い換えれば、TF-IDF は頻床ではなく関連性を分析し、特城ベクトル内の単語数はデヌタセット党䜓に関しお蚈算された TF-IDF スコアに眮き換えられたす。

TF-IDF アプロヌチは、最初に甚語の頻床、぀たり特定の文曞内に固有の甚語が出珟する回数を蚈算するこずによっお機胜したす。 ただし、TF-IDF は、「the」、「or」、「and」などの非垞に䞀般的な単語の圱響を制限するこずにも泚意を払っおいたす。これらの「ストップワヌド」は非垞に䞀般的ですが、文曞の内容に぀いおほずんど情報を䌝えないためです。 これらの単語は割り匕く必芁があり、これが TF-IDF の「逆ドキュメント頻床」郚分で蚀及されおいるものです。 これは、特定の単語が出珟するドキュメントが増えるほど、すべおのドキュメントのリスト内でその単語を他のドキュメントず区別するのに圹に立たなくなるためです。 TF-IDF が単語の重芁性を蚈算するために䜿甚する匏は、最も頻繁に䜿甚され、最も意味的に豊富な単語を保持するように蚭蚈されおいたす。

TF-IDF アプロヌチによっお䜜成された特城ベクトルには、合蚈が XNUMX になる正芏化された倀が含たれおおり、各単語に TF-IDF 匏によっお蚈算された重み付けされた倀が割り圓おられたす。

単語の埋め蟌み

単語の埋め蟌み は、同様の意味を持぀単語が同様の数倀衚珟になるようにテキストを衚珟する方法です。

単語の埋め蟌み 単語を「ベクトル化」しお操䜜する぀たり、単語をベクトル空間の実数倀ベクトルずしお衚珟したす。 ベクトルはグリッドたたは行列内に存圚し、方向ず長さ (たたは倧きさ) を持ちたす。 単語をベクトルずしお衚す堎合、単語は実数倀で構成されるベクトルに倉換されたす。 すべおの単語は XNUMX ぀のベクトルにマッピングされ、意味が䌌おいる単語は方向ず倧きさも䌌おいたす。 このタむプの゚ンコヌドにより、機械孊習アルゎリズムが単語間の耇雑な関係を孊習できるようになりたす。

さたざたな単語を衚す埋め蟌みは、問題の単語がどのように䜿甚されるかに基づいお䜜成されたす。 同様の方法で䜿甚される単語は同様のベクトルを持぀ため、単語の埋め蟌みを䜜成するプロセスでは、単語が持぀意味の䞀郚が自動的に翻蚳されたす。 察照的に、バッグ オブ ワヌド アプロヌチでは、たずえ非垞に䌌た文脈で䜿甚されおいたずしおも、異なる単語が異なる衚珟を持぀脆匱な衚珟が䜜成されたす。

その結果、単語の埋め蟌みは、文内の単語のコンテキストをより適切に捉えるこずができたす。

単語の埋め蟌みを䜜成するために䜿甚されるさたざたなアルゎリズムずアプロヌチがありたす。 最も䞀般的で信頌性の高い単語埋め蟌み方法には、埋め蟌みレむダヌ、word2vec、GloVe などがありたす。

レむダヌの埋め蟌み

機械孊習/深局孊習システムず䞊行しお単語埋め蟌みを䜿甚する朜圚的な方法の XNUMX ぀は、次のずおりです。 埋め蟌みレむダヌを䜿甚する。 埋め蟌み局は、単語を埋め蟌みに倉換し、その埌、残りの深局孊習システムに䟛絊される深局孊習局です。 単語の埋め蟌みは、ネットワヌクが特定のテキストベヌスのタスクをトレヌニングするずきに孊習されたす。

単語埋め蟌みアプロヌチでは、類䌌した単語は同様の衚珟を持ち、異なる単語よりも互いに近くなりたす。

埋め蟌みレむダヌを䜿甚するには、最初にテキストを前凊理する必芁がありたす。 ドキュメント内のテキストはワンホット ゚ンコヌドする必芁があり、ベクトル サむズを事前に指定する必芁がありたす。 次に、ワンホット テキストが単語ベクトルに倉換され、そのベクトルが機械孊習モデルに枡されたす。

Word2叀い

Word2叀い これも単語を埋め蟌む䞀般的な方法です。 Word2Vec は統蚈的手法を䜿甚しお単語を埋め蟌みに倉換し、ニュヌラル ネットワヌク ベヌスのモデルで䜿甚するために最適化されおいたす。 Word2Vec は Google の研究者によっお開発され、有甚で豊富な埋め蟌みを確実に生成できるため、最も䞀般的に䜿甚される埋め蟌み方法の 2 ぀です。 Word2Vec 衚珟は、蚀語の意味論的および構文䞊の共通点を識別するのに圹立ちたす。 これは、WordXNUMXVec 衚珟が同様の抂念間の関係を捉えおおり、「キング」ず「クむヌン」の共通点が王族であるこず、「キング」が「男性らしさ」を暗瀺しおいるのに察し、クむヌンが「女性らしさ」を暗瀺しおいるこずを区別できるこずを意味したす。

グロヌブ

GloVE、たたは単語衚珟のグロヌバル ベクトル、Word2Vec で䜿甚される埋め蟌みアルゎリズムに基づいお構築されおいたす。 GloVe 埋め蟌みメ゜ッドは、Word2Vec ず朜圚意味分析などの行列分解技術の䞡方の偎面を組み合わせおいたす。 Word2Vec の利点は、コンテキストをキャプチャできるこずですが、その代償ずしお、グロヌバル テキスト統蚈のキャプチャが䞍十分であるこずです。 逆に、埓来のベクトル衚珟はグロヌバルなテキスト統蚈を決定するのには適しおいたすが、単語やフレヌズのコンテキストを決定するのには圹に立ちたせん。 GloVE は䞡方のアプロヌチの長所を掻甚し、グロヌバルなテキスト統蚈に基づいお単語コンテキストを䜜成したす。

専門分野を持぀ブロガヌおよびプログラマヌ 機械孊習 や 深局孊習 トピック。 ダニ゚ルは、他の人が瀟䌚利益のために AI の力を掻甚できるよう支揎したいず考えおいたす。