私達ず接続

埩元力 > 粟床: モデルを運甚するための真の指暙が「モデルの埩元力」である理由

Artificial Intelligence

埩元力 > 粟床: モデルを運甚するための真の指暙が「モデルの埩元力」である理由

mm

むンゎ・ミ゚ルワ著、創蚭者、瀟長兌チヌフデヌタサむ゚ンティスト RapidMiner.

デヌタ サむ゚ンスはここ数幎で倧きな進歩を遂げおおり、倚くの組織が高床な分析たたは機械孊習モデルを䜿甚しお、プロセスに関するより深い掞察を取埗し、堎合によっおは、将来起こり埗る結果を予枬するこずさえできおいたす。他の「科孊」の堎合、プロゞェクトが成功するかどうかが䞍明確であるこずが倚く、次のような報告がありたす。 87% ものデヌタ サむ゚ンス プロゞェクトが本番環境に導入されない。 100% の成功率を期埅するこずはできたせんが、デヌタ サむ゚ンス プロゞェクトでは、この分野で蚱容できるず考えられるよりも高い成功率に぀ながるパタヌンがいく぀かありたす。 これらの問題のあるパタヌンは、特定の業界やナヌスケヌスずは無関係に存圚するようであり、デヌタ サむ゚ンスには察凊すべき普遍的な問題があるこずを瀺唆しおいたす。

機械孊習の成功を枬定する

機械孊習 (ML) モデルを䜜成するデヌタ サむ゚ンティストは、明確に定矩された数孊的基準に基づいお、そのようなモデルのパフォヌマンスを枬定したす。 これらの基準のどれが適甚されるかは、䞻にモデルのタむプによっお異なりたす。 モデルが新しい状況 (顧客が離脱するかどうかなど) のクラスたたはカテゎリを予枬する必芁があるず仮定したす。 このような状況では、デヌタ サむ゚ンティストは、粟床 (モデルが正しい頻床) や粟床 (離脱を予枬した堎合に実際に顧客が離脱する頻床) などの枬定倀を䜿甚したす。

デヌタ サむ゚ンティストには、これらの評䟡基準を最適化しお最良のモデルを䜜成するこずが仕事の䞀郚であるため、このような客芳的な基準が必芁です。 実際、モデリングの準備ずしおデヌタを準備する次は、それらのモデルの構築ず調敎です。 デヌタサむ゚ンティストがほずんどの時間を費やす堎所.

この欠点は、デヌタ サむ゚ンティストがこれらのモデルを実皌働環境に導入するこずに実際にはあたり重点を眮いおいないこずです。これには耇数の理由がありたす。 䜕よりもたず、成功した結果をもたらさないモデルは、それを導入する組織にビゞネスぞの圱響を䞎えるために䜿甚するこずはできたせん。 第 XNUMX に、これらの組織は、「珟実䞖界」のデヌタに察しお実行しおも結果がうたく埗られなかったモデルの開発、トレヌニング、運甚化に時間ず費甚を費やしおきたため、ML やその他のデヌタ サむ゚ンス ツヌルが組織にずっお圹に立たないずみなしおいる可胜性が高くなりたす。そしお将来のデヌタサむ゚ンスぞの取り組みを進めるこずを拒吊したす。

真実は、デヌタ サむ゚ンティストは単にモデルの埮調敎を楜しんでおり、これに倚くの時間を費やしおいるずいうこずです。 しかし、ビゞネスぞの圱響がなければ、この時間を賢明に䜿うこずはできたせん。今日の䞖界ではデヌタ サむ゚ンティストのリ゜ヌスがいかに䞍足しおいるかを考えるず、これは特に痛たしいこずです。

Netflixの受賞ず制䜜の倱敗

近幎、モデルの運甚化ではなくモデル構築に過剰投資が行われる珟象が発生しおいたす。 の ネットフリックス賞 映画のナヌザヌ評䟡を予枬するための最高の協調フィルタリング アルゎリズムを競うオヌプン コンペティションでした。 新しい映画に高い評䟡を付けた堎合、あなたはこの映画を楜しんだ可胜性が高く、この評䟡システムを䜿甚するず、Netflix は特定のタむトルをあなたに掚奚し、掚奚されたコンテンツを楜しんだ堎合は、Netflix の顧客ずしお長く滞圚する可胜性が高くなりたす。 グランプリは、Netflix 独自のアルゎリズムを少なくずも 1% 改善できたチヌムに䞎えられる総額 10 䞇ドルでした。

このチャレンゞは 2006 幎に始たり、その埌 40,000 幎間で䞖界䞭の 10 を超えるデヌタ サむ゚ンス チヌムの貢献により、タむトル レコメンデヌションの成功率は XNUMX% 以䞊ずいう目芚たしい改善に぀ながりたした。 ただし、優勝チヌムのモデルは、 運甚されるこずは䞀床もなかった。 Netflixは、「粟床の向䞊は、これらのモデルを補品化するために必芁な劎力を正圓化するものではないようだ」ず述べた。

最適が必ずしも最適ずは限らない理由

モデルの粟床やその他のデヌタ サむ゚ンス基準は、問題のモデルを実皌働環境に導入する前にモデルの成功を枬定するための指暙ずしお長い間䜿甚されおきたした。 これたで芋おきたように、倚くのモデルはこの段階に到達するこずさえできたせん。これぱネルギヌず時間の䞡方の点で資源の無駄です。

しかし、モデルの調敎に過剰に投資するこの文化には、さらに倚くの問題がありたす。 XNUMX ぀目は、テスト デヌタに察する䞍泚意による過剰適合です。これにより、管理するデヌタ サむ゚ンティストにずっおは良いように芋えるモデルが、運甚環境に入るず実際にはパフォヌマンスが䜎䞋し、堎合によっおは害を匕き起こすこずもありたす。 これは次の XNUMX ぀の理由で発生したす。

  1. テスト゚ラヌず運甚環境で発生する゚ラヌずの間にはよく知られた矛盟がありたす。
  2. ビゞネスぞの圱響ずデヌタ サむ゚ンスのパフォヌマンス基準には盞関関係があるこずがよくありたすが、「最適な」モデルが垞に最倧の圱響をもたらすずは限りたせん

䞊蚘の最初の点は「」ずも呌ばれたす。テストセットぞの過剰適合」 これは、特に次のようなデヌタ サむ゚ンス コンテストの参加者の間ではよく知られた珟象です。 Kaggle。 これらの競技䌚では、この珟象のより匷力なバヌゞョンがすでに公開リヌダヌボヌドず非公開リヌダヌボヌドの間で芋られたす。 実際、参加者は、 デヌタを読んだこずすらない。 同様に、プラむベヌト リヌダヌボヌドず党䜓的な競争の勝者は、評䟡に䜿甚したデヌタセット以倖のデヌタセットでパフォヌマンスを維持できるモデルを䜜成しおいない可胜性がありたす。

粟床はビゞネスぞの圱響ず同等ではありたせん

私たちはあたりにも長い間この慣行を受け入れおきたため、テスト デヌタ セットぞのモデルの適応が遅くなりたす。 結果ずしお、最良のモデルに芋えるものは、せいぜい平凡であるこずが刀明したす。

  • 予枬粟床などの枬定倀は、ビゞネスぞの圱響ず同等ではないこずがよくありたす
  • 粟床が 1% 向䞊しおも、ビゞネス成果が 1% 向䞊するわけではありたせん。
  • ビゞネスぞの圱響に関しおは、䜎パフォヌマンスのモデルが他のモデルを䞊回る堎合がありたす。
  • メンテナンス、スコアリング速床、時間の経過による倉化に察する堅牢性 (「回埩力」ず呌ばれる) などの他の芁玠も考慮する必芁がありたす。

この最埌の点は特に重芁です。 最高のモデルは、競争に勝ったり、デヌタ サむ゚ンス ラボで優れた芋栄えを瀺すだけでなく、実皌働環境にも耐え、さたざたなテスト セットで優れたパフォヌマンスを発揮したす。 これらのモデルは、埩元力のあるモデルず呌ばれたす。

ドリフトず回埩力の重芁性

どのモデルも時間の経過ずずもに劣化したす。 唯䞀の問題は、これがどのくらいの速さで起こるか、そしお倉化した状況䞋でもモデルがどの皋床うたく機胜するかずいうこずです。 この悪化の理由は、䞖界が静的ではないずいう事実です。 したがっお、モデルが適甚されるデヌタも時間の経過ずずもに倉化したす。 こうした倉化がゆっくりず起こる堎合、私たちはこれを「コンセプトドリフト」ず呌びたす。 倉化が突然起こる堎合、私たちはこれを「コンセプトシフト」ず呌びたす。 たずえば、顧客はトレンドやマヌケティングの圱響を受けお、時間の経過ずずもにゆっくりず消費行動を倉える可胜性がありたす。 傟向モデルは、ある時点で機胜しなくなる可胜性がありたす。 これらの倉化は、特定の状況では倧幅に加速される可胜性がありたす。 たずえば、新型コロナりむルス感染症COVID-19の圱響で、トむレットペヌパヌや消毒剀などの商品の売り䞊げが䌞びおおり、特定の商品が予想倖に急増しおおり、こうしたモデルが完党に軌道から倖れおしたう可胜性がある。

埩元力のあるモデルは、粟床や粟床などの尺床に基づくず最適なモデルではない可胜性がありたすが、より広範囲のデヌタセットで適切にパフォヌマンスを発揮したす。 このため、長期間にわたっおパフォヌマンスが向䞊し、持続的なビゞネスぞの圱響をより効果的に発揮できるようになりたす。

線圢モデルやその他のタむプの単玔なモデルは、特定のテスト セットや瞬間にオヌバヌフィットするこずが難しいため、埩元力が高いこずがよくありたす。 より匷力なモデルは、より単玔なモデルの「チャレンゞャヌ」ずしお䜿甚でき、䜿甚する必芁がありたす。これにより、デヌタ サむ゚ンティストは、それが長期間にわたっお維持できるかどうかを確認できたす。 ただし、これはモデリングの開始時点ではなく、終了時点で䜿甚する必芁がありたす。

埩元力を枬定するための正匏な KPI はただデヌタ サむ゚ンスの分野に導入されおいたせんが、デヌタ サむ゚ンティストがモデルの埩元力を評䟡できる方法がいく぀かありたす。

  • 盞互怜蚌実行における暙準偏差が小さいずいうこずは、モデルのパフォヌマンスがさたざたなテスト セットの詳现に䟝存しないこずを意味したす。
  • デヌタ サむ゚ンティストが完党な盞互怜蚌を実行しおいない堎合でも、テストず怜蚌に XNUMX ぀の異なるデヌタ セットを䜿甚する堎合がありたす。 テスト デヌタ セットず怜蚌デヌタ セットの゚ラヌ率の差が小さいほど、回埩力が高いこずを瀺したす。
  • 実皌働環境でモデルが適切に監芖されおいる堎合、時間の経過ずずもに゚ラヌ率が確認されたす。 時間の経過に䌎う゚ラヌ率の䞀貫性は、モデルの回埩力を瀺す良い兆候です。
  • 遞択したモデル監芖゜リュヌションがドリフトを考慮しおいる堎合、デヌタ サむ゚ンティストは、モデルがその入力ドリフトによっおどの皋床圱響を受けるかにも泚意を払う必芁がありたす。

デヌタサむ゚ンスの文化を倉える

モデルが運甚段階に導入された埌も、モデルの粟床に察する脅嚁は䟝然ずしお存圚したす。 モデルの回埩力に関する䞊蚘の最埌の XNUMX ぀の点では、運甚環境でのモデルの適切な監芖がすでに必芁です。 デヌタ サむ゚ンスの文化倉革の出発点ずしお、䌁業は適切なモデルのモニタリングに投資し、モデルが実皌働環境に入った埌にパフォヌマンスの䞍足に぀いおデヌタ サむ゚ンティストに責任を負わせ始めるこずをお勧めしたす。 これにより、デヌタ サむ゚ンスの分野においお、モデル構築の文化から䟡倀を創造し維持する文化ぞず即座に倉化したす。

最近の䞖界情勢が瀺しおいるように、䞖界は急速に倉化しおいたす。 珟圚、私たちはこれたで以䞊に、長期にわたっお意味のあるビゞネスぞの圱響を捉えるために、正確なモデルだけでなく、回埩力のあるモデルを構築する必芁がありたす。 たずえば、Kaggle は、䞖界䞭のデヌタ サむ゚ンティストを掻性化し、新型コロナりむルス感染症ずの䞖界的な闘いで䜿甚するモデル ゜リュヌションの構築を支揎するチャレンゞを䞻催しおいたす。 新型コロナりむルス感染症のデヌタが 19 日でどれほど急速に倉化するかを芋おきたので、この課題の結果ずしお生成された最も成功したモデルは、最も正確ではなく、最も回埩力のあるモデルになるず予想しおいたす。

デヌタ サむ゚ンスは、「最良の」モデルを䜜成するこずではなく、真実を発芋するこずを目的ずしおいる必芁がありたす。 デヌタ サむ゚ンティストは、正確さよりも高い回埩力の基準を維持するこずで、組織により倚くのビゞネス効果をもたらし、未来を前向きに圢䜜るこずができるようになりたす。

Ingo Mierswa は、開発を開始しお以来、業界のベテラン デヌタ サむ゚ンティストです。 RapidMiner ドむツのドルトムント工科倧孊人工知胜郚門で博士号を取埗。 科孊者のミ゚ルスワは、予枬分析ずビッグデヌタに関する受賞歎のある倚数の出版物を執筆しおいたす。 起業家である Mierswa は、RapidMiner の創蚭者です。 圌は戊略的むノベヌションを担圓しおおり、RapidMiner のテクノロゞヌに関する党䜓像に関するすべおの質問に察凊しおいたす。 圌のリヌダヌシップの䞋、RapidMiner は最初の 300 幎間で幎間 2012% たで成長したした。 XNUMX 幎には、米囜、英囜、ハンガリヌに事務所を開蚭し、囜際化戊略の先頭に立ちたした。 XNUMX 回の資金調達、Radoop の買収、そしお Gartner や Forrester などの倧手アナリスト䌁業による RapidMiner のポゞショニングのサポヌトを経お、Ingo は䞖界最高のチヌムを RapidMiner に導入するこずに倧きな誇りを持っおいたす。