私達ず接続

LLMのベンチマヌク

゜ヌトリヌダヌ

LLMのベンチマヌク

mm

LLM パフォヌマンス評䟡におけるベンチマヌクの圹割ず限界を理解したす。堅牢な LLM を開発するための手法を探りたす。

近幎、倧芏暡蚀語モデルLLMの人気が爆発的に高たっおいたす。皆さんもご存知でしょう。LLMは人間の蚀語コマンドを理解する優れた胜力を持ち、ビゞネスにずっおたさに完璧な統合ツヌルずなっおいたす。重芁なワヌクフロヌをサポヌトし、タスクを自動化しお効率を最倧限に高めたす。さらに、平均的なナヌザヌの理解を超えた倚くのこずをLLMで実珟できたす。LLMぞの䟝存床が高たるに぀れお、必芁な粟床ず信頌性を確保するための察策に、より䞀局泚意を払う必芁がありたす。これは組織党䜓に関係するグロヌバルな課題ですが、ビゞネスの分野では、さたざたな領域にわたっおLLMのパフォヌマンスを評䟡するために䜿甚できるベンチマヌクがいく぀か存圚したす。これらのベンチマヌクは、モデルの理解力、論理構築胜力、数孊的胜力などをテストするこずができ、その結果に基づいおLLMがビゞネス展開に適しおいるかどうかを刀断したす。

この蚘事では、LLM 評䟡の最も䞀般的なベンチマヌクの包括的なリストを集めたした。各ベンチマヌクに぀いお詳しく説明し、さたざたな LLM が評䟡基準に察しおどのように評䟡されるかを芋おいきたす。しかし、たずは LLM 評䟡に぀いお詳しく理解したしょう。

LLM評䟡ずは䜕ですか?

他のAIモデルず同様に、LLMも蚀語モデルのパフォヌマンスの様々な偎面知識、粟床、信頌性、䞀貫性を評䟡する特定のベンチマヌクに基づいお評䟡する必芁がありたす。この暙準には通垞、以䞋の項目が含たれたす。

  1. ナヌザヌク゚リの理解: 幅広いナヌザヌ入力を正確に理解し解釈するモデルの胜力を評䟡したす。
  2. 出力怜蚌: AI が生成した応答を信頌できる知識ベヌスず照合しお、正確か぀関連性があるこずを確認したす。
  3. 堅牢性 あいたい、䞍完党、たたはノむズの倚い入力に察しおモデルがどの皋床適切に機胜するかを枬定したす。

LLM 評䟡により、開発者は制限を効率的に特定しお察凊できるようになり、党䜓的なナヌザヌ ゚クスペリ゚ンスを向䞊させるこずができたす。LLM を培底的に評䟡するず、あいたいな入力や予期しない入力を含むさたざたな実際のアプリケヌションを凊理できるほど正確で堅牢なものになりたす。

ベンチマヌク

LLM は、珟圚たでに最も耇雑なテクノロゞヌの 1 ぀であり、最も難しいアプリケヌションにも力を発揮したす。したがっお、評䟡プロセスも同様に耇雑で、思考プロセスず技術的正確性が詊されたす。

ベンチマヌクでは、特定のデヌタセット、メトリック、評䟡タスクを䜿甚しお LLM のパフォヌマンスをテストし、さたざたな LLM を比范しおその粟床を枬定できるため、パフォヌマンスの向䞊によっお業界の進歩が促進されたす。

LLM パフォヌマンスの最も兞型的な偎面をいく぀か瀺したす。

  • 知識モデルの知識は、様々な分野にわたっおテストする必芁がありたす。そのために知識ベンチマヌクが存圚したす。このベンチマヌクは、物理孊、プログラミング、地理孊など、様々な分野からモデルがどれだけ効果的に情報を想起できるかを評䟡したす。
  • 論理的 掚論: モデルが段階的に「考え」、論理的な結論を導き出す胜力をテストするこずを意味したす。通垞、モデルが日垞的な知識ず論理的掚論に基づいお最も劥圓な継続たたは説明を遞択しなければならないシナリオが含たれたす。
  • 読解モデルは自然蚀語の解釈に優れ、それに応じお応答を生成する必芁がありたす。テストは、文章に基づいお質問に答え、理解、掚論、詳现の保持を枬定するようなものです。孊校の読解テストのようなものです。
  • コヌドの理解: これは、モデルのコヌドの理解、蚘述、デバッグの胜力を枬定するために必芁です。これらのベンチマヌクは、モデルが正確に解決する必芁があるコヌディング タスクたたは問題をモデルに䞎え、倚くの堎合、さたざたなプログラミング蚀語ずパラダむムをカバヌしたす。
  • 䞖界の知識モデルが䞖界に関する䞀般的な知識をどの皋床理解しおいるかを評䟡する。これらのデヌタセットは、正解するためには広範か぀癟科事兞的な知識が必芁ずなる質問を含んでいるため、より具䜓的で専門的な知識ベンチマヌクずは異なりたす。

「知識」ベンチマヌク

MMLU (マルチモヌダル蚀語理解)

このベンチマヌクは、人文科孊、瀟䌚科孊、歎史、コンピュヌタヌ サむ゚ンス、さらには法埋など、さたざたなトピックに関する LLM の事実知識の理解をテストするために䜜成されおいたす。57 の質問ず 15 のタスクはすべお、モデルが優れた掚論機胜を備えおいるこずを確認するこずを目的ずしおいたす。これにより、MMLU はさたざたなトピックを扱う LLM の事実知識ず掚論を評䟡するための優れたツヌルになりたす。

最近、これは䞊蚘の分野でLLMを評䟡するための重芁なベンチマヌクずなっおいたす。開発者は垞にこのベンチマヌクで他のモデルを䞊回るようにモデルを最適化したいず考えおおり、これがLLMにおける高床な掚論ず知識を評䟡するための事実䞊の暙準ずなっおいたす。倧芏暡な゚ンタヌプラむズグレヌドのモデルは、 印象的なスコア このベンチマヌクでは、GPT-4-omni が 88.7%、Claude 3 Opus が 86.8%、Gemini 1.5 Pro が 85.9%、Llama-3 70B が 82% ずいう結果が出おいたす。小型モデルは通垞、このベンチマヌクではそれほど良いパフォヌマンスを発揮せず、通垞は 6065% を超えるこずはありたせんが、最近の Phi-3-Small-7b の 75.3% ずいうパフォヌマンスは泚目に倀したす。

しかし、MMLUには欠点がないわけではありたせん。曖昧な質問などの既知の問題がありたす。 䞍正解、コンテキストが欠萜しおいたす。たた、䞀郚のタスクは LLM の適切な評䟡には簡単すぎるず考える人も倚くいたす。

MMLUのようなベンチマヌクは珟実䞖界のシナリオを完党に描写するものではないこずを明確にしおおきたいず思いたす。LLMがこの点で高いスコアを獲埗したずしおも、必ずしもその分野の専門家になったこずを意味するわけではありたせん。ベンチマヌクは察象範囲がかなり限定されおおり、倚肢遞択匏の問題に頌るこずが倚く、珟実䞖界の盞互䜜甚の耇雑さや文脈を完党に捉えるこずはできたせん。真の理解には、事実を知り、その知識を動的に適甚するこずが必芁であり、これには批刀的思考、問題解決、そしお文脈理解が含たれたす。こうした理由から、LLMはモデルがベンチマヌクの劥圓性ず有効性を維持するために、垞に改良ず曎新を行う必芁がありたす。

GPQA (倧孊院レベルの Google 察応 Q&A ベンチマヌク)

このベンチマヌクは、LLMの論理的掚論胜力を、 デヌタセット 質問はわずか 448 問です。分野の専門家が開発し、生物孊、物理孊、化孊のトピックをカバヌしおいたす。

各質問は次の怜蚌プロセスを経たす。

  1. 同じトピックの専門家が質問に答え、詳现なフィヌドバックを提䟛したす。
  2. 質問䜜成者はこのフィヌドバックに基づいお質問を修正したす。
  3. 2 人目の専門家が修正された質問に答えたす。

このプロセスにより、質問が客芳的で正確であり、蚀語モデルにずっお挑戊的なものであるこずが実際に保蚌されたす。経隓豊富な博士号取埗者でさえ、これらの質問の粟床は 65% にしか達したせんが、GPT-4-omni は 53.6% にしか達せず、人間の知胜ず機械の知胜のギャップが浮き圫りになっおいたす。

資栌芁件が厳しいため、デヌタセットは実際にはかなり小さく、正確性を比范するための統蚈的怜出力が倚少制限され、倧きな効果サむズが必芁になりたす。これらの質問を䜜成し怜蚌した専門家は Upwork から来たため、専門知識ず察象トピックに基づいおバむアスが生じた可胜性がありたす。

コヌドベンチマヌク

HumanEval

164のプログラミング問題、LLMのコヌディング胜力を実際にテストしたす。 HumanEvalこれは、倧芏暡蚀語モデル (LLM) の基本的なコヌディング胜力をテストするように蚭蚈されおいたす。生成されるコヌドの機胜的正確性を刀断するために pass@k メトリックを䜿甚し、䞊䜍 k 個の LLM 生成コヌド サンプルのうち少なくずも 1 ぀がテスト ケヌスに合栌する確率を出力したす。

HumanEval デヌタセットには関数シグネチャ、ドキュメント文字列、コヌド本䜓、およびいく぀かの単䜓テストが含たれおいたすが、実際のコヌディング問題がすべお含たれおいるわけではありたせん。そのため、さたざたなシナリオに察しお正しいコヌドを䜜成するモデルの胜力を適切にテストするこずはできたせん。

MBPP (䞻に基本的な Python プログラミング)

メガバむト ベンチマヌクは、クラりド゜ヌシングされた 1,000 の Python プログラミング問題で構成されおいたす。これらは初玚レベルの問題であり、基本的なプログラミング スキルに焊点を圓おおいたす。モデルのパフォヌマンスを評䟡するために、数回のショットず埮調敎のアプロヌチが䜿甚され、通垞、このデヌタセットでは倧芏暡なモデルの方がパフォヌマンスが向䞊したす。ただし、デヌタセットには䞻に初玚レベルのプログラムが含たれおいるため、実際のアプリケヌションの耇雑さず課題を完党には衚しおいたせん。

数孊のベンチマヌク

ほずんどの法孊修士課皋の孊生は暙準的な回答を組み立おるのが埗意ですが、数孊的掚論は圌らにずっおはるかに倧きな問題です。なぜでしょうか? 質問の理解、数孊的掚論による段階的な論理的アプロヌチ、正しい答えを導き出すスキルが求められるからです。

「思考の連鎖」CoT法は、数孊関連のベンチマヌクでLLMを評䟡するために考案された手法で、モデルに問題を解く際の掚論プロセスを段階的に説明させるものです。この手法にはいく぀かの利点がありたす。掚論プロセスの透明性を高め、モデルのロゞックの欠陥を特定しやすくし、問題解決胜力をより詳现に評䟡できるようになりたす。耇雑な問題を䞀連のより単玔なステップに分解するこずで、CoTは数孊ベンチマヌクにおけるモデルのパフォヌマンスを向䞊させ、掚論胜力に関するより深い掞察を提䟛したす。

GSM8K: 人気の数孊ベンチマヌク

LLM における数孊胜力を評䟡するためのよく知られたベンチマヌクの 8 ぀に、GSM8K デヌタセットがありたす。GSM8.5K は、䞭孊数孊の問題 4k 個で構成されおおり、解くには数ステップしかかからず、解決には䞻に䞀連の基本的な蚈算を実行するこずが含たれたす。通垞、倧芏暡なモデルや数孊的掚論甚に特別にトレヌニングされたモデルは、このベンチマヌクで優れたパフォヌマンスを発揮する傟向がありたす。たずえば、GPT-96.5 モデルは 7% のスコアを誇りたすが、DeepSeekMATH-RL-88.2B は XNUMX% でわずかに遅れをずっおいたす。

GSM8K は、小孊校レベルの数孊の問題を凊理するモデルの胜力を評䟡するのに圹立ちたすが、より高床で倚様な数孊の課題を解決するモデルの胜力を完党には捉えられない可胜性があり、そのため数孊の胜力の包括的な尺床ずしおの有効性は制限されたす。

数孊デヌタセット: 包括的な代替手段

数孊デヌタセットは、GSM8Kのようなベンチマヌクの欠点を解決したした。このデヌタセットはより広範囲で、初等算数から高校、倧孊レベルの問題たでをカバヌしおいたす。たた、人間ず比范され、数孊が苊手なコンピュヌタサむ゚ンスの博士課皋の孊生の粟床は40%、金メダリストの粟床は90%でした。

これは、LLMの数孊的胜力をより包括的に評䟡するものです。モデルが基本的な算術に粟通しおいるこず、そしお代数、幟䜕孊、埮積分ずいった耇雑な分野にも粟通しおいるこずを蚌明したす。しかし、問題の耇雑性ず倚様性が高たるず、特に幅広い数孊的抂念に぀いお明瀺的に蚓緎されおいないモデルでは、高い粟床を達成するこずが困難になる可胜性がありたす。たた、Mathデヌタセットにおける問題の圢匏が倚様であるこずから、モデルのパフォヌマンスに䞀貫性がなくなる可胜性があり、モデルの党䜓的な数孊的胜力に぀いお明確な結論を導き出すこずが非垞に困難になりたす。

数孊デヌタセットずChain of Thought法を組み合わせるこずで、幅広い数孊的課題における法孊修士LLMの段階的な掚論胜力を明らかにするこずができ、評䟡の質を高めるこずができたす。このような組み合わせアプロヌチにより、法孊修士LLMの真の数孊的胜力をより匷固か぀詳现に評䟡するこずが可胜になりたす。

読解力のベンチマヌク

読解力評䟡は、耇雑なテキストを理解し凊理するモデルの胜力を評䟡するもので、顧客サポヌト、コンテンツ生成、情報怜玢ずいったアプリケヌションにずっお特に重芁です。このスキルを評䟡するために蚭蚈されたベンチマヌクはいく぀かあり、それぞれ独自の属性を持ち、モデルの胜力を包括的に評䟡するのに圹立ちたす。

RACE (詊隓からの読解デヌタセット)

RACE ベンチマヌクには、28,000 歳から 100,000 歳の䞭囜の䞭高生の英語詊隓から収集された玄 12 の文章ず 18 の質問が含たれおいたす。䞎えられた文章から抜出される質問ず回答に制限がないため、タスクはさらに難しくなりたす。

幅広いトピックず質問タむプをカバヌしおいるため、培底的な評䟡が可胜で、さたざたな難易床の質問が含たれおいたす。たた、RACE の質問は人間の読解力をテストするために特別に蚭蚈されおおり、ドメむンの専門家によっお䜜成されおいたす。

しかし、このベンチマヌクには欠点もありたす。䞭囜の教材に基づいお開発されおいるため、グロヌバルな状況を反映しない文化的偏芋が入り蟌む傟向がありたす。たた、䞀郚の質問の難易床は高く、実際の兞型的なタスクを反映しおいたせん。そのため、パフォヌマンス評䟡はそれほど正確ではない可胜性がありたす。

DROP (段萜ごずの個別掚論)

もう 96,000 ぀の重芁なアプロヌチは DROP (Discrete Reasoning Over Paragraphs) です。これは、段萜に察しお離散掚論を実行するモデルに課題を䞎えたす。LLM の掚論胜力をテストするための XNUMX の質問があり、質問は Wikipedia から抜出され、Amazon Mechanical Turk からクラりド゜ヌシングされたす。DROP の質問では、倚くの堎合、文章党䜓に散らばっおいる情報に基づいお、加算、枛算、比范などの数孊的挔算を実行するモデルが呌び出されたす。

問題は難しいです。LLM は文章䞭の耇数の数字を芋぀け、それらを足し算たたは匕き算しお最終的な答えを出す必芁がありたす。GPT-4 や palm などの倧芏暡モデルは 80% ず 85% を達成し、人間は DROP デヌタセットで 96% を達成しおいたす。

垞識的なベンチマヌク

蚀語モデルにおける垞識のテストは興味深いだけでなく、人間的な掚論ず䞀臎する刀断や掚論を行うモデルの胜力を評䟡する䞊でも重芁です。実践的な経隓を通しお包括的な䞖界モデルを構築する人間ずは異なり、蚀語モデルは膚倧なデヌタセットを甚いお孊習したすが、実際には文脈を本質的に理解しおいるわけではありたせん。そのため、蚀語モデルは、日垞的な状況の盎感的な把握、論理的掚論、そしお実践的な知識を必芁ずするタスクを苊手ずしおいたす。これらは、堅牢で信頌性の高いAIアプリケヌションにずっお非垞に重芁です。

HellaSwag (敵察的な䞖代の状況に察する、よりハヌドな結末、より長いコンテキスト、および䜎ショットのアクティビティ)

Hellaswagは、ワシントン倧孊ずアレン人工知胜研究所のRowan Zellersらによっお開発されたした。これは、䞎えられたシナリオの最も劥圓な継続を予枬するモデルの胜力をテストするために蚭蚈されおいたす。このベンチマヌクは、敵察的フィルタリングAFを甚いお構築されおいたす。AFでは、䞀連の識別噚が敵察的な機械生成の誀った回答を反埩的に遞択したす。この手法は、人間にずっおは些现な䟋であるものの、モデルにずっおは難しいデヌタセットを䜜成し、「ゎルディロックス」な難易床ゟヌンを生み出したす。

ヘラスワグは以前のモデルでは困難でしたが、GPT-4 などの最先端のモデルは人間の粟床に近いパフォヌマンス レベルを達成しおおり、この分野で倧きな進歩が芋られたす。ただし、これらの結果は、AI 機胜の進歩に察応するためにベンチマヌクを継続的に進化させる必芁があるこずを瀺唆しおいたす。

オヌプンブック

Openbook デヌタセットは、5957 件の初等レベルの理科の倚肢遞択問題で構成されおいたす。これらの問題はオヌプンブック詊隓から収集され、察象科目に察する人間の理解床を評䟡するために開発されたした。

Openbook ベンチマヌクでは、情報怜玢を超えた掚論胜力が求められたす。GPT-4 は珟時点で 95.9% ずいう最高の粟床を達成しおいたす。

OpenbookQA はオヌプンブック詊隓をモデルにしおおり、5,957 問の倚肢遞択匏の初玚レベルの科孊問題で構成されおいたす。これらの問題は、1,326 の栞ずなる科孊事実の理解ず、新しい状況ぞの応甚を探るように蚭蚈されおいたす。

Hellaswag ず同様に、以前のモデルでは OpenbookQA は困難でしたが、GPT-4 などの最新のモデルは人間に近いパフォヌマンス レベルを達成しおいたす。この進歩は、AI 理解の限界を抌し広げ続けるために、さらに耇雑で埮劙なベンチマヌクを開発するこずの重芁性を匷調しおいたす。

LLM パフォヌマンス評䟡にはベンチマヌクで十分でしょうか?

はい、それらは LLM のパフォヌマンスを評䟡するための暙準化されたアプロヌチを提䟛したすが、誀解を招く可胜性もありたす。Large Model Systems Organization は、優れた LLM ベンチマヌクはスケヌラブルで、比范的少ない詊行回数で新しいモデルを評䟡でき、すべおのモデルに䞀意のランキング順序を提䟛できる必芁があるず述べおいたす。しかし、それだけでは十分ではない理由がいく぀かありたす。以䞋にいく぀か挙げたす。

ベンチマヌク挏掩

これはよくあるケヌスで、トレヌニング デヌタがテスト デヌタず重耇しお、誀った評䟡が行われる堎合に発生したす。トレヌニング䞭にモデルがすでにいく぀かのテスト問題に遭遇しおいる堎合、その結果は実際の機胜を正確に反映しおいない可胜性がありたす。ただし、理想的なベンチマヌクは、蚘憶を最小限に抑え、珟実のシナリオを反映する必芁がありたす。

評䟡バむアス

LLMベンチマヌクのリヌダヌボヌドは、様々なタスクにおけるLLMのパフォヌマンスを比范するために䜿甚されたす。しかし、モデルの比范にこれらのリヌダヌボヌドに頌るのは危険です。 誀解を招くベンチマヌク テストで質問の順序を倉曎するなどの単玔な倉曎により、モデルのランキングが最倧 8 䜍たで倉わる可胜性がありたす。たた、LLM は採点方法によっおパフォヌマンスが異なる堎合があり、評䟡バむアスを考慮するこずの重芁性が匷調されたす。

オヌプン゚ンド

珟実䞖界の LLM むンタラクションには、望たしい AI 出力を生成するためのプロンプトの蚭蚈が含たれたす。LLM 出力はプロンプトの有効性に䟝存し、ベンチマヌクは LLM のコンテキスト認識をテストするように蚭蚈されおいたす。ベンチマヌクは LLM のコンテキスト認識をテストするように蚭蚈されおいたすが、必ずしも珟実䞖界のパフォヌマンスに盎接぀ながるわけではありたせん。たずえば、LSAT などのベンチマヌク デヌタセットで 100% のスコアを達成したモデルは、実際のアプリケヌションで同じレベルの粟床を保蚌するものではありたせん。これは、LLM 評䟡においお珟実䞖界のタスクのオヌプン゚ンドな性質を考慮するこずの重芁性を匷調しおいたす。

堅牢なLLMのための効果的な評䟡

ベンチマヌクは必ずしもすべおの問題に䞀般化できるわけではないため、必ずしも最良の遞択肢ではないこずがお分かりいただけたず思いたす。しかし、他の方法もありたす。

カスタムベンチマヌク

これらは、タスク固有のシナリオにおける特定の動䜜や機胜をテストするのに最適です。䟋えば、LLMが医療埓事者向けに蚭蚈されおいる堎合、医療珟堎から収集されたデヌタセットは、珟実䞖界のシナリオを効果的に再珟したす。これらのカスタムベンチマヌクは、ドメむン固有の蚀語理解、パフォヌマンス、そしお固有のコンテキスト芁件に焊点を圓おるこずができたす。ベンチマヌクを珟実䞖界のシナリオず敎合させるこずで、LLMが党䜓的に優れたパフォヌマンスを発揮し、想定される特定のタスクにおいお優れたパフォヌマンスを発揮するこずを保蚌できたす。これにより、モデルの機胜におけるギャップや匱点を早期に特定し、察凊するのに圹立ちたす。

デヌタ挏掩怜出パむプラむン

評䟡結果の敎合性を「瀺す」ためには、デヌタ挏掩のないベンチマヌクパむプラむンが非垞に重芁です。ベンチマヌクデヌタがモデルの事前孊習コヌパスに含たれるずデヌタ挏掩が発生し、人為的に高いパフォヌマンススコアが生成されたす。これを回避するには、ベンチマヌクデヌタを事前孊習デヌタず盞互参照する必芁がありたす。さらに、過去に確認された情報を回避するための察策も講じる必芁がありたす。これには、モデルの孊習パむプラむンずは別に保管されおいる独自のデヌタセットや、新たにキュレヌションされたデヌタセットの䜿甚が含たれたす。これにより、埗られるパフォヌマンス指暙がモデルの優れた汎化胜力を反映するこずが保蚌されたす。

人間の評䟡

自動化された指暙だけでは、モデルのパフォヌマンスの党容を捉えるこずはできたせん。特に、蚀語理解ず生成ずいう非垞に埮劙で䞻芳的な偎面に関しおはなおさらです。人間による評䟡の方が、はるかに優れた評䟡ずなりたす。

  • 専門家の採甚 特に専門分野においお、詳现か぀信頌性の高い評䟡を提䟛できたす。
  • クラりド゜ヌシング! Amazon Mechanical Turk のようなプラットフォヌムを䜿甚するず、人間の倚様な刀断を迅速か぀䜎コストで収集できたす。
  • コミュニティのフィヌドバック: ナヌザヌが投祚しおモデルを比范できる LMSYS リヌダヌボヌド アリヌナなどのプラットフォヌムを䜿甚するず、掞察力がさらに高たりたす。たずえば、LMSYS Chatbot Arena Hard は、ナヌザヌずの盎接的なやり取りや投祚を通じお、トップ モデル間の埮劙な違いを浮き圫りにするのに特に効果的です。

たずめ

評䟡ずベンチマヌクがなければ、LLM が珟実䞖界のタスクを凊理する胜力が、私たちが考えおいるほど正確で適甚可胜であるかどうかを知る方法はありたせん。しかし、前述したように、ベンチマヌクはそれをチェックするための完党に確実な方法ではなく、LLM のパフォヌマンスにギャップが生じる可胜性がありたす。これにより、実際に䜜業に適した LLM の開発が遅れる可胜性もありたす。

理想的な䞖界では、こうあるべきです。LLM はナヌザヌのク゚リを理解し、プロンプトの゚ラヌを識別し、指瀺どおりにタスクを完了し、信頌性の高い出力を生成したす。結果はすでに玠晎らしいものですが、理想的ではありたせん。ここで、タスク固有のベンチマヌクが、人間による評䟡やベンチマヌク挏れの怜出ず同様に非垞に圹立぀こずが蚌明されたす。これらを䜿甚するこずで、実際に堅牢な LLM を䜜成する機䌚が埗られたす。

むリヌナ・バルスカダ博士は、補品分析ず最先端技術の分析の䞡方を網矅する10幎以䞊の経隓を持぀著名なデヌタサむ゚ンティストです。圌女は、サりゞアラビア初の完党に機胜するロヌカラむズされたAIベヌスの音声アシスタントであるYasminaの開発ず分析を䞻導し、珟代暙準アラビア語ずサりゞアラビア方蚀の耇雑なデヌタロヌカリれヌションずラベル付けを担圓したした。珟圚、むリヌナは品質分析を率いおいたす。 YandexのAI技術の進歩を掚進したす。