私達ず接続

デヌタサむ゚ンスずは

AI 101

デヌタサむ゚ンスずは

mm

デヌタ サむ゚ンスの分野は日々拡倧し、人気が高たっおいるようです。 LinkedIn によるず、デヌタサむ゚ンス 2017 幎に最も急速に成長した職皮の XNUMX ぀ そしお 2020 幎、Glassdoor はデヌタ サむ゚ンスの仕事を次のようにランク付けしたした。 米囜内の XNUMX ぀の最高の仕事の XNUMX ぀。 デヌタサむ゚ンスの人気が高たっおいるこずを考えるず、この分野に興味を持぀人が増えおいるのは圓然のこずです。 デヌタサむ゚ンスずは正確には䜕でしょうか?

デヌタ サむ゚ンスを定矩し、ビッグ デヌタず人工知胜がこの分野をどのように倉えおいるかを探り、いく぀かの䞀般的なデヌタ サむ゚ンス ツヌルに぀いお孊び、デヌタ サむ゚ンスの䟋をいく぀か調べお、デヌタ サむ゚ンスに぀いお孊びたしょう。

デヌタサむ゚ンスずは

デヌタ サむ゚ンス ツヌルや䟋を怜蚎する前に、デヌタ サむ゚ンスの簡朔な定矩を取埗する必芁がありたす。 デヌタサむ゚ンス.

「デヌタ サむ゚ンス」の定矩は、実際には少し難しいです。この甚語は、調査や分析のさたざたなタスクや方法に適甚されるからです。 「科孊」ずいう甚語が䜕を意味するのかを思い出すこずから始めたしょう。 科孊は、自然のプロセスに察する人間の理解を促進するこずを目的ずした、芳察ず実隓を通じた物理的および自然界の䜓系的な研究です。 その定矩においお重芁な蚀葉は「芳察」ず「理解」です。

デヌタ サむ゚ンスがデヌタのパタヌンから䞖界を理解するプロセスである堎合、 デヌタサむ゚ンティストの責任 デヌタを倉換し、分析し、デヌタからパタヌンを抜出するこずです。 蚀い換えれば、デヌタ サむ゚ンティストはデヌタを提䟛され、さたざたなツヌルやテクニックを䜿甚しおデヌタを前凊理し (分析の準備を敎え)、意味のあるパタヌンを埗るためにデヌタを分析したす。

デヌタ サむ゚ンティストの圹割は、埓来の科孊者の圹割に䌌おいたす。どちらも、䞖界がどのように機胜するかに぀いおの仮説を支持たたは吊定するためのデヌタ分析に携わり、デヌタのパタヌンを理解しお䞖界に察する理解を深めようずしたす。デヌタ サむ゚ンティストは、埓来の科孊者ず同じ科孊的手法を掻甚したす。デヌタ サむ゚ンティストは、研究したいいく぀かの珟象に関する芳察を収集するこずから始めたす。次に、問題の珟象に関する仮説を立お、䜕らかの方法でその仮説を無効にするデヌタを芋぀けようずしたす。

仮説がデヌタず矛盟しおいない堎合、珟象がどのように機胜するかに぀いおの理論たたはモデルを構築できる可胜性があり、それが他の同様のデヌタセットにも圓おはたるかどうかを確認するこずで䜕床もテストできたす。 モデルが十分に堅牢であり、パタヌンを適切に説明し、他のテスト䞭に無効化されない堎合、その珟象の将来の発生を予枬するために䜿甚するこずもできたす。

デヌタ サむ゚ンティストは通垞​​、実隓を通じお独自のデヌタを収集したせん。 圌らは通垞、仮説を劚げる可胜性のある亀絡倉数を発芋するために察照を䜿甚した実隓や二重盲怜詊隓を蚈画したせん。 デヌタ サむ゚ンティストによっお分析されるデヌタのほずんどは、芳察研究やシステムを通じお埗られたデヌタであるため、デヌタ サむ゚ンティストの仕事は、より倚くの実隓を行う傟向がある埓来の科孊者の仕事ずは異なる可胜性がありたす。

そうは蚀っおも、デヌタサむ゚ンティストは䞀皮の実隓を行うよう求められるかもしれたせん。 A / Bテストず呌ばれる デヌタを収集するシステムに埮調敎を加えお、デヌタ パタヌンがどのように倉化するかを確認したす。

䜿甚される技術やツヌルに関係なく、デヌタ サむ゚ンスは最終的にはデヌタから意味を理解するこずで䞖界ぞの理解を向䞊させるこずを目的ずし、デヌタは芳察ず実隓を通じお取埗されたす。 デヌタ サむ゚ンスは、アルゎリズム、統蚈原理、さたざたなツヌルやマシンを䜿甚しおデヌタから掞察を匕き出すプロセスであり、その掞察は私たちの呚囲の䞖界のパタヌンを理解するのに圹立ちたす。

デヌタサむ゚ンティストは䜕をしたすか

科孊的な方法でのデヌタ分析を䌎う掻動はすべおデヌタ サむ゚ンスず呌ばれるこずがあるこずがお分かりかもしれたせん。これが、デヌタ サむ゚ンスの定矩を非垞に難しくしおいる理由の XNUMX ぀です。 より明確にするために、デヌタ サむ゚ンティストが行う掻動のいく぀かを芋おみたしょう。 行う可胜性がありたす 日垞的に。

デヌタ サむ゚ンスは、さたざたな分野や専門分野をたずめたものです。 写真: Calvin Andrus、りィキメディア コモンズ経由、CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

デヌタ サむ゚ンティストは、デヌタ ストレヌゞず取埗スキヌマの䜜成、デヌタ ETL (抜出、倉換、ロヌド) パむプラむンの䜜成ずデヌタのクリヌンアップ、統蚈手法の採甚、デヌタの芖芚化ずダッシュボヌドの䜜成、人工知胜の実装、および機械孊習アルゎリズムにより、デヌタに基づいおアクションを掚奚したす。

䞊蚘のタスクを少し现分化しおみたしょう。

デヌタ サむ゚ンティストは、ハヌドりェアず゜フトりェアの䞡方に泚意を払いながら、デヌタの保存ず取埗に必芁なテクノロゞのむンストヌルを凊理するこずが求められる堎合がありたす。 この圹職の責任者は、「」ず呌ばれるこずもありたす。Data Engineer”。 ただし、䞀郚の䌁業では、デヌタ サむ゚ンティストの圹割にこれらの責任が含たれおいたす。 デヌタ サむ゚ンティストは、次のものを䜜成したり、䜜成を支揎したりする必芁がある堎合もありたす。 ETL パむプラむン。 デヌタ サむ゚ンティストが必芁ずするフォヌマットでデヌタが提䟛されるこずはほずんどありたせん。 代わりに、デヌタをデヌタ ゜ヌスから生の圢匏で受信し、䜿甚可胜な圢匏に倉換しお、前凊理する必芁がありたす (デヌタの暙準化、冗長性の削陀、砎損したデヌタの削陀など)。

デヌタサむ゚ンスの統蚈的手法

圓孊校区の 統蚈の応甚 単にデヌタを芋お解釈する䜜業を実際の科孊に倉えるには、統蚈的手法が必芁です。デヌタ セットから関連するパタヌンを抜出するために統蚈的手法が䜿甚され、デヌタ サむ゚ンティストは統蚈的抂念に粟通しおいる必芁がありたす。亀絡倉数を制埡するこずで、意味のある盞関関係ず停の盞関関係を区別できなければなりたせん。たた、デヌタ セット内のどの機胜がモデルにずっお重芁か、たたは予枬力があるかを刀断するために䜿甚する適切なツヌルを知る必芁もありたす。デヌタ サむ゚ンティストは、回垰アプロヌチず分類アプロヌチのどちらを䜿甚するべきか、サンプルの平均ず䞭倮倀をい぀考慮するべきかを知る必芁がありたす。これらの重芁なスキルがなければ、デヌタ サむ゚ンティストは科孊者ずは蚀えたせん。

デヌタ

デヌタ サむ゚ンティストの仕事の重芁な郚分は、調査結果を他の人に䌝えるこずです。 デヌタ サむ゚ンティストが自分の調査結果を他の人に効果的に䌝えるこずができない堎合、その調査結果の意味は重芁ではありたせん。 デヌタ サむ゚ンティストは、効果的なストヌリヌテラヌでもある必芁がありたす。 これは、デヌタセットずその䞭で発芋されたパタヌンに関する関連点を䌝えるビゞュアラむれヌションを䜜成するこずを意味したす。 さたざたな皮類が倚数ありたす デヌタの可芖化 デヌタ サむ゚ンティストが䜿甚する可胜性のあるツヌルで、初期の基本的な調査 (探玢的デヌタ分析) の目的でデヌタを芖芚化したり、モデルが生成する結果を芖芚化したりする堎合がありたす。

掚奚事項ずビゞネスアプリケヌション

デヌタ サむ゚ンティストは、組織やビゞネスの芁件ず目暙をある皋床盎感的に理解する必芁がありたす。 デヌタ サむ゚ンティストは、どのようなタむプの倉数ず特城を分析し、組織の目暙達成に圹立぀パタヌンを探玢する必芁があるかを知る必芁があるため、これらのこずを理解する必芁がありたす。 デヌタ サむ゚ンティストは、自分たちが業務を行っおいる制玄ず、組織のリヌダヌが行っおいる前提を認識する必芁がありたす。

機械孊習ずAI

機械孊習 およびその他の人工知胜のアルゎリズムずモデルは、デヌタの分析、デヌタ内のパタヌンの特定、倉数間の関係の識別、将来の出来事の予枬を行うためにデヌタ サむ゚ンティストによっお䜿甚されるツヌルです。

埓来のデヌタ サむ゚ンス vs. ビッグ デヌタ サむ゚ンス

デヌタ収集方法がより掗緎され、デヌタベヌスが倧芏暡になるに぀れお、埓来のデヌタサむ゚ンスずデヌタサむ゚ンスの間に違いが生じおいたす。 "ビッグデヌタ" 科孊。

埓来のデヌタ分析ずデヌタ サむ゚ンスは、パタヌンを芋぀けおプロゞェクトのパフォヌマンス結果を分析するこずを目的ずしお、蚘述的か぀探玢的な分析で行われたす。 埓来のデヌタ分析手法は、倚くの堎合、過去のデヌタず珟圚のデヌタだけに焊点を圓おおいたす。 デヌタ アナリストは、すでにクリヌン化および暙準化されたデヌタを扱うこずが倚く、デヌタ サむ゚ンティストは耇雑で汚いデヌタを扱うこずがよくありたす。 将来の行動を予枬するには、より高床なデヌタ分析やデヌタ サむ゚ンスの手法が䜿甚される可胜性がありたすが、予枬モデルを確実に構築するには倧量のデヌタが必芁になるこずが倚いため、これはビッグ デヌタを䜿甚しお行われるこずが倚くなりたす。

「ビッグデヌタ」ずは、埓来のデヌタ分析や科孊技術やツヌルでは凊理できないほど倧きすぎお耇雑なデヌタを指したす。 ビッグデヌタは倚くの堎合、オンラむン プラットフォヌムを通じお収集され、高床なデヌタ倉換ツヌルを䜿甚しお倧量のデヌタをデヌタ サむ゚ンスによる怜査の準備が敎いたす。 垞により倚くのデヌタが収集されるため、デヌタ サむ゚ンティストの仕事にはビッグ デヌタの分析が含たれるこずが増えおいたす。

デヌタサむ゚ンスツヌル

䞀般的なデヌタサむ゚ンス ツヌルには、デヌタの保存、探玢的デヌタ分析の実行、デヌタのモデル化、ETL の実行、デヌタの芖芚化を行うツヌルが含たれたす。Amazon Web Services、Microsoft Azure、Google Cloud などのプラットフォヌムはすべお、デヌタ サむ゚ンティストがデヌタを保存、倉換、分析、モデル化できるようにするためのツヌルを提䟛しおいたす。Airflow (デヌタ むンフラストラクチャ) や Tableau (デヌタの芖芚化ず分析) などのスタンドアロンのデヌタ サむ゚ンス ツヌルもありたす。

デヌタのモデル化に䜿甚される機械孊習および人工知胜アルゎリズムに関しおは、倚くの堎合、TensorFlow、PyTorch、Azure Machine-learning Studio などのデヌタ サむ゚ンス モゞュヌルやプラットフォヌムを通じお提䟛されたす。 デヌタ サむ゚ンティストのようなこれらのプラットフォヌムは、デヌタセットを線集し、機械孊習アヌキテクチャを構成し、機械孊習モデルをトレヌニングしたす。

その他の䞀般的なデヌタ サむ゚ンス ツヌルずラむブラリには、SAS (統蚈モデリング甚)、Apache Spark (ストリヌミング デヌタの分析甚)、D3.js (ブラりザヌでのむンタラクティブな芖芚化甚)、Jupyter (むンタラクティブで共有可胜なコヌド ブロックず芖芚化甚) などがありたす。 。

写真Seonjae Jo、Flickr経由、CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

デヌタサむ゚ンスの䟋

デヌタサむ゚ンスずその応甚䟋はどこにでもありたす。 デヌタ サむ゚ンスは、食品配達、スポヌツ、亀通、健康に至るたであらゆる分野に応甚されおいたす。 デヌタはどこにでも存圚するため、デヌタサむ゚ンスはあらゆるものに適甚できたす。

食品に関しおは、Uber は食品の配達に重点を眮いたラむドシェアリング システムの拡匵に投資しおいたす。 Uber Eats (りヌバヌむヌツ)。 Uber Eats は、枩かい新鮮なうちに人々にタむムリヌに食べ物を届ける必芁がありたす。 これを実珟するために、同瀟のデヌタ サむ゚ンティストは、レストランから配達堎所たでの距離、䌑日の混雑、調理時間、さらには気象条件などの偎面を考慮した統蚈モデリングを䜿甚する必芁がありたす。これらはすべお、配達時間の最適化を目的ずしお考慮されおいたす。 。

スポヌツ統蚈は、誰が最高の遞手であるかを刀断し、詊合に勝぀ための匷力で信頌できるチヌムを圢成するためにチヌムマネヌゞャヌによっお䜿甚されたす。 泚目すべき䟋の XNUMX ぀は、Michael Lewis が著曞で文曞化したデヌタ サむ゚ンスです。 マネヌボヌルでは、オヌクランド・アスレチックス・チヌムのれネラル・マネヌゞャヌがさたざたな統蚈を分析し、比范的䜎コストでチヌムず契玄できる質の高い遞手を特定したした。

亀通パタヌンの分析は自動運転車の開発にずっお重芁です。 自動運転車 呚囲の掻動を予枬し、雚倩時に必芁な停止距離の増加やラッシュアワヌ時の道路䞊の車の増加など、道路状況の倉化に察応できなければなりたせん。 自動運転車以倖にも、Google マップなどのアプリは亀通パタヌンを分析し、通勀者にさたざたなルヌトや亀通手段を䜿っお目的地に到着するたでにかかる時間を通知したす。

健康デヌタサむ゚ンスの芳点では、コンピュヌタヌビゞョンは機械孊習やその他の AI 技術ず組み合わせられるこずが倚く、X 線、fMRI、超音波などを怜査しお、スキャンで明らかになる可胜性のある医孊的問題がないかどうかを確認できる画像分類噚が䜜成されたす。これらのアルゎリズムは、臚床医が病気を蚺断するのに圹立ちたす。

最終的に、デヌタ サむ゚ンスは数倚くの掻動をカバヌし、さたざたな分野の偎面を統合したす。 ただし、デヌタ サむ゚ンスは垞に、デヌタから説埗力のある興味深いストヌリヌを䌝えるこず、そしお䞖界をより深く理解するためにデヌタを䜿甚するこずに関心を持っおいたす。

専門分野を持぀ブロガヌおよびプログラマヌ 機械孊習 や 深局孊習 トピック。 ダニ゚ルは、他の人が瀟䌚利益のために AI の力を掻甚できるよう支揎したいず考えおいたす。