Stummel Was ist Data Science? - Unite.AI
Vernetzen Sie sich mit uns

AI 101

Was ist Data Science?

mm
Aktualisiert on

Der Bereich der Datenwissenschaft scheint von Tag zu Tag größer und beliebter zu werden. Laut LinkedIn, Datenwissenschaft war 2017 eines der am schnellsten wachsenden Berufsfelder und im Jahr 2020 stufte Glassdoor den Beruf der Datenwissenschaft als ein einer der drei besten Jobs in den Vereinigten Staaten. Angesichts der wachsenden Beliebtheit der Datenwissenschaft ist es keine Überraschung, dass sich immer mehr Menschen für das Gebiet interessieren. Doch was genau ist Data Science?

Machen wir uns mit Data Science vertraut, nehmen wir uns etwas Zeit, um Data Science zu definieren, erkunden wir, wie Big Data und künstliche Intelligenz das Fachgebiet verändern, lernen wir einige gängige Data Science-Tools kennen und untersuchen einige Beispiele für Data Science.

Was ist Data Science?

Bevor wir uns mit datenwissenschaftlichen Tools oder Beispielen befassen, möchten wir eine prägnante Definition davon erhalten Datenwissenschaft.

Die Definition von „Data Science“ ist tatsächlich etwas schwierig, da der Begriff auf viele verschiedene Aufgaben und Untersuchungs- und Analysemethoden angewendet wird. Wir können damit beginnen, uns daran zu erinnern, was der Begriff „Wissenschaft“ bedeutet. Wissenschaft ist die systematische Untersuchung der physischen und natürlichen Welt durch Beobachtung und Experimente mit dem Ziel, das menschliche Verständnis natürlicher Prozesse zu verbessern. Die wichtigen Wörter in dieser Definition sind „Beobachtung“ und „Verstehen“.

Wenn Data Science der Prozess ist, die Welt anhand von Datenmustern zu verstehen, dann ist die Verantwortung eines Datenwissenschaftlers besteht darin, Daten zu transformieren, Daten zu analysieren und Muster aus Daten zu extrahieren. Mit anderen Worten: Ein Datenwissenschaftler erhält Daten und verwendet eine Reihe verschiedener Tools und Techniken, um die Daten vorzuverarbeiten (für die Analyse vorzubereiten) und sie dann auf aussagekräftige Muster zu analysieren.

Die Rolle eines Datenwissenschaftlers ähnelt der Rolle eines traditionellen Wissenschaftlers. Beide befassen sich mit der Analyse von Daten Hypothesen zu unterstützen oder abzulehnen Wir untersuchen, wie die Welt funktioniert, und versuchen, Muster in den Daten zu verstehen, um unser Verständnis der Welt zu verbessern. Datenwissenschaftler nutzen die gleichen wissenschaftlichen Methoden wie ein traditioneller Wissenschaftler. Ein Datenwissenschaftler sammelt zunächst Beobachtungen zu einigen Phänomenen, die er untersuchen möchte. Anschließend formulieren sie eine Hypothese über das betreffende Phänomen und versuchen, Daten zu finden, die ihre Hypothese in irgendeiner Weise zunichte machen.

Wenn die Daten der Hypothese nicht widersprechen, können sie möglicherweise eine Theorie oder ein Modell zur Funktionsweise des Phänomens erstellen, das sie dann immer wieder testen können, indem sie prüfen, ob es für andere ähnliche Datensätze gilt. Wenn ein Modell ausreichend robust ist, Muster gut erklärt und bei anderen Tests nicht aufgehoben wird, kann es sogar zur Vorhersage zukünftiger Ereignisse dieses Phänomens verwendet werden.

Ein Datenwissenschaftler sammelt seine eigenen Daten normalerweise nicht durch ein Experiment. Normalerweise entwerfen sie keine Experimente mit Kontrollen und Doppelblindversuchen, um verwirrende Variablen zu entdecken, die eine Hypothese beeinträchtigen könnten. Bei den meisten von einem Datenwissenschaftler analysierten Daten handelt es sich um Daten, die durch Beobachtungsstudien und -systeme gewonnen wurden. Dadurch kann sich die Arbeit eines Datenwissenschaftlers von der Arbeit eines traditionellen Wissenschaftlers unterscheiden, der tendenziell mehr Experimente durchführt.

Allerdings könnte ein Datenwissenschaftler aufgefordert werden, eine Art Experiment durchzuführen A / B-Test genannt Dabei werden Optimierungen an einem System vorgenommen, das Daten sammelt, um zu sehen, wie sich die Datenmuster ändern.

Unabhängig von den verwendeten Techniken und Werkzeugen zielt die Datenwissenschaft letztendlich darauf ab, unser Verständnis der Welt zu verbessern, indem sie Daten sinnvoll nutzt. Daten werden durch Beobachtung und Experimente gewonnen. Bei der Datenwissenschaft werden Algorithmen, statistische Prinzipien sowie verschiedene Werkzeuge und Maschinen eingesetzt, um Erkenntnisse aus Daten zu gewinnen, Erkenntnisse, die uns helfen, Muster in der Welt um uns herum zu verstehen.

Was machen Data Scientists?

Sie werden vielleicht feststellen, dass jede Aktivität, die die Analyse von Daten auf wissenschaftliche Weise beinhaltet, als Datenwissenschaft bezeichnet werden kann, was einen Teil dessen darstellt, was die Definition von Datenwissenschaft so schwierig macht. Um es klarer zu machen, wollen wir uns einige der Aktivitäten ansehen, die ein Datenwissenschaftler ausübt könnte tun täglich.

Data Science vereint viele verschiedene Disziplinen und Fachgebiete. Foto: Calvin Andrus über Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

An einem beliebigen Tag könnte ein Datenwissenschaftler gebeten werden, ein Datenspeicherungs- und -abrufschema zu erstellen, Daten-ETL-Pipelines (Extrahieren, Transformieren, Laden) zu erstellen und Daten zu bereinigen, statistische Methoden anzuwenden, Datenvisualisierungen und Dashboards zu erstellen, künstliche Intelligenz zu implementieren und vieles mehr Algorithmen des maschinellen Lernens geben auf Basis der Daten Handlungsempfehlungen.

Lassen Sie uns die oben aufgeführten Aufgaben etwas aufschlüsseln.

Möglicherweise muss ein Datenwissenschaftler die Installation von Technologien übernehmen, die zum Speichern und Abrufen von Daten erforderlich sind, und dabei sowohl auf Hardware als auch auf Software achten. Die für diese Position verantwortliche Person kann auch als „Dateningenieur“. Einige Unternehmen fassen diese Aufgaben jedoch in der Rolle von Datenwissenschaftlern zusammen. Ein Datenwissenschaftler muss möglicherweise auch Folgendes erstellen oder bei der Erstellung mithelfen: ETL-Pipelines. Daten werden nur sehr selten so formatiert, wie es ein Datenwissenschaftler benötigt. Stattdessen müssen die Daten in Rohform von der Datenquelle empfangen, in ein verwendbares Format umgewandelt und vorverarbeitet werden (z. B. Standardisierung der Daten, Beseitigung von Redundanzen und Entfernung beschädigter Daten).

Statistische Methoden der Datenwissenschaft

Das Anwendung von Statistiken Es ist notwendig, das bloße Betrachten und Interpretieren von Daten in eine tatsächliche Wissenschaft umzuwandeln. Statistische Methoden werden verwendet, um relevante Muster aus Datensätzen zu extrahieren, und ein Datenwissenschaftler muss sich mit statistischen Konzepten gut auskennen. Sie müssen in der Lage sein, sinnvolle Korrelationen von falschen Korrelationen zu unterscheiden, indem sie Störvariablen kontrollieren. Sie müssen auch die richtigen Tools kennen, mit denen sie bestimmen können, welche Merkmale im Datensatz für ihr Modell wichtig sind bzw. über eine Vorhersagekraft verfügen. Ein Datenwissenschaftler muss wissen, wann er einen Regressionsansatz oder einen Klassifizierungsansatz verwenden sollte und wann er sich um den Mittelwert einer Stichprobe gegenüber dem Median einer Stichprobe kümmern sollte. Ohne diese entscheidenden Fähigkeiten wäre ein Datenwissenschaftler einfach kein Wissenschaftler.

Datenvisualisierung

Ein entscheidender Teil der Arbeit eines Datenwissenschaftlers besteht darin, seine Ergebnisse anderen mitzuteilen. Wenn ein Datenwissenschaftler seine Ergebnisse nicht effektiv anderen mitteilen kann, spielen die Auswirkungen seiner Ergebnisse keine Rolle. Ein Datenwissenschaftler sollte auch ein effektiver Geschichtenerzähler sein. Das bedeutet, Visualisierungen zu erstellen, die relevante Punkte über den Datensatz und die darin entdeckten Muster vermitteln. Es gibt eine große Anzahl verschiedener Datenvisualisierung Werkzeuge, die ein Datenwissenschaftler möglicherweise verwendet, und sie können Daten für die Zwecke der ersten, grundlegenden Erkundung (explorative Datenanalyse) oder die Ergebnisse, die ein Modell liefert, visualisieren.

Empfehlungen und Geschäftsanwendungen

Ein Datenwissenschaftler muss ein gewisses Gespür für die Anforderungen und Ziele seiner Organisation oder seines Unternehmens haben. Ein Datenwissenschaftler muss diese Dinge verstehen, weil er wissen muss, welche Arten von Variablen und Funktionen er analysieren und Muster untersuchen sollte, die seinem Unternehmen helfen, seine Ziele zu erreichen. Die Datenwissenschaftler müssen sich der Einschränkungen bewusst sein, denen sie unterliegen, und der Annahmen, die die Führung der Organisation trifft.

Maschinelles Lernen und KI

Maschinelles Lernen und andere Algorithmen und Modelle der künstlichen Intelligenz sind Werkzeuge, die von Datenwissenschaftlern verwendet werden, um Daten zu analysieren, Muster in Daten zu identifizieren, Beziehungen zwischen Variablen zu erkennen und Vorhersagen über zukünftige Ereignisse zu treffen.

Traditionelle Datenwissenschaft vs. Big Data-Wissenschaft

Da die Datenerfassungsmethoden immer ausgefeilter und die Datenbanken größer wurden, ist ein Unterschied zwischen der traditionellen Datenwissenschaft und der Datenwissenschaft entstanden "Große Daten" Wissenschaft.

Traditionelle Datenanalysen und Datenwissenschaft basieren auf deskriptiven und explorativen Analysen mit dem Ziel, Muster zu finden und die Leistungsergebnisse von Projekten zu analysieren. Herkömmliche Datenanalysemethoden konzentrieren sich häufig auf vergangene und aktuelle Daten. Datenanalysten arbeiten häufig mit Daten, die bereits bereinigt und standardisiert wurden, während Datenwissenschaftler häufig mit komplexen und schmutzigen Daten arbeiten. Fortgeschrittenere Datenanalyse- und Data-Science-Techniken könnten verwendet werden, um zukünftiges Verhalten vorherzusagen, obwohl dies häufiger mit Big Data geschieht, da Vorhersagemodelle oft große Datenmengen benötigen, um zuverlässig erstellt zu werden.

„Big Data“ bezieht sich auf Daten, die zu groß und komplex sind, als dass sie mit herkömmlichen Datenanalyse- und wissenschaftlichen Techniken und Werkzeugen verarbeitet werden könnten. Große Datenmengen werden oft über Online-Plattformen gesammelt und fortschrittliche Datentransformationstools werden verwendet, um die großen Datenmengen für die Prüfung durch die Datenwissenschaft vorzubereiten. Da ständig mehr Daten gesammelt werden, besteht die Aufgabe eines Datenwissenschaftlers immer mehr darin, große Datenmengen zu analysieren.

Data-Science-Tools

Gemeinsame Datenwissenschaft Werkzeuge Dazu gehören Tools zum Speichern von Daten, zum Durchführen explorativer Datenanalysen, zum Modellieren von Daten, zum Durchführen von ETL und zum Visualisieren von Daten. Plattformen wie Amazon Web Services, Microsoft Azure und Google Cloud bieten alle Tools, die Datenwissenschaftlern beim Speichern, Transformieren, Analysieren und Modellieren von Daten helfen. Es gibt auch eigenständige Data-Science-Tools wie Airflow (Dateninfrastruktur) und Tableau (Datenvisualisierung und -analyse).

Algorithmen für maschinelles Lernen und künstliche Intelligenz, die zur Modellierung von Daten verwendet werden, werden häufig über datenwissenschaftliche Module und Plattformen wie TensorFlow, PyTorch und das Azure Machine-Learning-Studio bereitgestellt. Diese Plattformen wie Datenwissenschaftler nehmen Änderungen an ihren Datensätzen vor, erstellen Architekturen für maschinelles Lernen und trainieren Modelle für maschinelles Lernen.

Weitere gängige Data-Science-Tools und -Bibliotheken sind SAS (für statistische Modellierung), Apache Spark (für die Analyse von Streaming-Daten), D3.js (für interaktive Visualisierungen im Browser) und Jupyter (für interaktive, gemeinsam nutzbare Codeblöcke und Visualisierungen). .

Foto: Seonjae Jo über Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

Beispiele für Data Science

Beispiele für Data Science und ihre Anwendungen gibt es überall. Die Datenwissenschaft findet in allen Bereichen Anwendung, von der Lebensmittellieferung über Sport, Verkehr bis hin zur Gesundheit. Daten sind überall und daher kann Data Science auf alles angewendet werden.

Im Lebensmittelbereich investiert Uber in eine Erweiterung seines Mitfahrsystems, das sich auf die Lieferung von Lebensmitteln konzentriert. Uber isst. Uber Eats muss den Menschen ihr Essen rechtzeitig liefern, solange es noch heiß und frisch ist. Damit dies geschieht, müssen Datenwissenschaftler des Unternehmens statistische Modelle verwenden, die Aspekte wie die Entfernung von Restaurants zu Lieferorten, Feiertagsansturm, Kochzeit und sogar Wetterbedingungen berücksichtigen, alles mit dem Ziel, die Lieferzeiten zu optimieren .

Sportstatistiken werden von Teammanagern verwendet, um die besten Spieler zu ermitteln und starke, zuverlässige Teams zu bilden, die Spiele gewinnen. Ein bemerkenswertes Beispiel ist die von Michael Lewis in dem Buch dokumentierte Datenwissenschaft Moneyball, wo der General Manager des Oakland Athletics-Teams verschiedene Statistiken analysierte, um hochwertige Spieler zu identifizieren, die zu relativ geringen Kosten für das Team verpflichtet werden könnten.

Die Analyse von Verkehrsmustern ist für die Entwicklung selbstfahrender Fahrzeuge von entscheidender Bedeutung. Selbstfahrende Fahrzeuge Sie müssen in der Lage sein, die Aktivität um sie herum vorherzusagen und auf Veränderungen der Straßenbedingungen zu reagieren, wie z. B. den bei Regen erforderlichen längeren Bremsweg oder die Anwesenheit von mehr Autos auf der Straße während der Hauptverkehrszeit. Über selbstfahrende Fahrzeuge hinaus analysieren Apps wie Google Maps Verkehrsmuster, um Pendlern mitzuteilen, wie lange es dauern wird, bis sie auf verschiedenen Routen und Transportmitteln ihr Ziel erreichen.

In Hinsicht auf Gesundheitsdatenwissenschaft, wird Computer Vision oft mit maschinellem Lernen und anderen KI-Techniken kombiniert, um Bildklassifikatoren zu erstellen, die in der Lage sind, Dinge wie Röntgenaufnahmen, FMRIs und Ultraschalluntersuchungen zu untersuchen, um festzustellen, ob im Scan potenzielle medizinische Probleme auftauchen könnten. Diese Algorithmen können verwendet werden, um Ärzten bei der Diagnose von Krankheiten zu helfen.

Letztlich umfasst Data Science zahlreiche Aktivitäten und vereint Aspekte unterschiedlicher Disziplinen. Allerdings geht es in der Datenwissenschaft immer darum, aus Daten überzeugende, interessante Geschichten zu erzählen und Daten zu nutzen, um die Welt besser zu verstehen.

Blogger und Programmierer mit Spezialisierung auf Maschinelles lernen und Tiefes Lernen Themen. Daniel hofft, anderen dabei zu helfen, die Macht der KI für das soziale Wohl zu nutzen.