potongan Apa itu Ilmu Data? - Bersatu.AI
Terhubung dengan kami

AI 101

Apa itu Ilmu Data?

mm
Updated on

Bidang ilmu data tampaknya semakin besar dan semakin populer setiap hari. Menurut LinkedIn, ilmu data adalah salah satu bidang pekerjaan dengan pertumbuhan tercepat di tahun 2017 dan pada tahun 2020 Glassdoor memberi peringkat pekerjaan ilmu data sebagai salah satu dari tiga pekerjaan terbaik di Amerika Serikat. Mengingat semakin populernya ilmu data, tidak mengherankan jika semakin banyak orang yang tertarik dengan bidang ini. Namun apa sebenarnya ilmu data itu?

Mari berkenalan dengan ilmu data, luangkan waktu untuk mendefinisikan ilmu data, jelajahi bagaimana data besar dan kecerdasan buatan mengubah lapangan, pelajari tentang beberapa alat ilmu data yang umum, dan periksa beberapa contoh ilmu data.

Apa itu Ilmu Data?

Sebelum kita dapat menjelajahi alat atau contoh ilmu data apa pun, kita ingin mendapatkan definisi singkat tentang ilmu data.

Mendefinisikan "ilmu data" sebenarnya sedikit rumit, karena istilah tersebut diterapkan pada banyak tugas dan metode penyelidikan dan analisis yang berbeda. Kita bisa mulai dengan mengingatkan diri kita sendiri tentang apa arti istilah "sains". Sains adalah studi sistematis tentang dunia fisik dan alam melalui observasi dan eksperimen, yang bertujuan untuk memajukan pemahaman manusia tentang proses alam. Kata-kata penting dalam definisi tersebut adalah “pengamatan” dan “pemahaman”.

Jika ilmu data adalah proses memahami dunia dari pola dalam data, maka tanggung jawab seorang ilmuwan data adalah mengubah data, menganalisis data, dan mengekstrak pola dari data. Dengan kata lain, seorang ilmuwan data diberikan data dan mereka menggunakan sejumlah alat dan teknik yang berbeda untuk memproses data terlebih dahulu (menyiapkannya untuk analisis) dan kemudian menganalisis data untuk pola yang bermakna.

Peran ilmuwan data mirip dengan peran ilmuwan tradisional. Keduanya berkaitan dengan analisis data untuk mendukung atau menolak hipotesis tentang bagaimana dunia beroperasi, mencoba memahami pola dalam data untuk meningkatkan pemahaman kita tentang dunia. Ilmuwan data menggunakan metode ilmiah yang sama seperti yang dilakukan ilmuwan tradisional. Seorang ilmuwan data memulai dengan mengumpulkan pengamatan tentang beberapa fenomena yang ingin mereka pelajari. Mereka kemudian merumuskan hipotesis tentang fenomena tersebut dan mencoba menemukan data yang membatalkan hipotesis mereka dengan cara tertentu.

Jika hipotesis tidak bertentangan dengan data, mereka mungkin dapat membangun teori, atau model, tentang bagaimana fenomena itu bekerja, yang dapat mereka uji berulang kali dengan melihat apakah itu berlaku untuk kumpulan data serupa lainnya. Jika sebuah model cukup kuat, jika menjelaskan pola dengan baik dan tidak ditiadakan selama pengujian lainnya, model tersebut bahkan dapat digunakan untuk memprediksi kemunculan fenomena tersebut di masa mendatang.

Ilmuwan data biasanya tidak akan mengumpulkan data mereka sendiri melalui eksperimen. Mereka biasanya tidak akan merancang eksperimen dengan kontrol dan uji coba buta ganda untuk menemukan variabel pengganggu yang mungkin mengganggu hipotesis. Sebagian besar data yang dianalisis oleh seorang ilmuwan data akan menjadi data yang diperoleh melalui studi dan sistem observasional, yang merupakan cara di mana pekerjaan seorang ilmuwan data mungkin berbeda dari pekerjaan seorang ilmuwan tradisional, yang cenderung melakukan lebih banyak eksperimen.

Konon, seorang ilmuwan data mungkin dipanggil untuk melakukan suatu bentuk eksperimen disebut pengujian A/B di mana penyesuaian dilakukan pada sistem yang mengumpulkan data untuk melihat bagaimana pola data berubah.

Terlepas dari teknik dan alat yang digunakan, ilmu data pada akhirnya bertujuan untuk meningkatkan pemahaman kita tentang dunia dengan memahami data, dan data diperoleh melalui observasi dan eksperimen. Ilmu data adalah proses penggunaan algoritme, prinsip statistik, dan berbagai alat dan mesin untuk menarik wawasan dari data, wawasan yang membantu kita memahami pola di dunia sekitar kita.

Apa yang Dilakukan Ilmuwan Data?

Anda mungkin melihat bahwa aktivitas apa pun yang melibatkan analisis data secara ilmiah dapat disebut ilmu data, yang merupakan bagian dari apa yang membuat definisi ilmu data begitu sulit. Biar lebih jelas, mari kita telusuri beberapa aktivitas yang dilakukan seorang data scientist mungkin bisa sehari-hari.

Ilmu data menyatukan berbagai disiplin ilmu dan spesialisasi. Foto: Calvin Andrus via Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

Pada hari tertentu, seorang data scientist mungkin diminta untuk: membuat skema penyimpanan dan pengambilan data, membuat pipeline ETL (ekstrak, transformasi, memuat) data dan membersihkan data, menggunakan metode statistik, membuat visualisasi dan dasbor data, menerapkan kecerdasan buatan, dan algoritma pembelajaran mesin, membuat rekomendasi tindakan berdasarkan data.

Mari kita pecahkan sedikit tugas yang tercantum di atas.

Seorang ilmuwan data mungkin diminta untuk menangani pemasangan teknologi yang diperlukan untuk menyimpan dan mengambil data, memperhatikan perangkat keras dan perangkat lunak. Orang yang bertanggung jawab untuk posisi ini juga dapat disebut sebagai “Insinyur Data”. Namun, beberapa perusahaan menyertakan tanggung jawab ini di bawah peran ilmuwan data. Seorang ilmuwan data mungkin juga perlu membuat, atau membantu pembuatan, pipa ETL. Data sangat jarang diformat seperti yang dibutuhkan oleh ilmuwan data. Sebagai gantinya, data perlu diterima dalam bentuk mentah dari sumber data, diubah menjadi format yang dapat digunakan, dan diproses sebelumnya (hal-hal seperti standarisasi data, menghapus redudansi, dan menghapus data yang rusak).

Metode Statistik Ilmu Data

Grafik penerapan statistik diperlukan untuk mengubah hanya melihat data dan menafsirkannya menjadi ilmu yang sebenarnya. Metode statistik digunakan untuk mengekstraksi pola yang relevan dari kumpulan data, dan seorang ilmuwan data harus berpengalaman dalam konsep statistik. Mereka harus mampu membedakan korelasi yang bermakna dari korelasi palsu dengan mengendalikan variabel perancu. Mereka juga perlu mengetahui alat yang tepat untuk digunakan guna menentukan fitur mana dalam kumpulan data yang penting bagi model mereka/memiliki kekuatan prediktif. Seorang ilmuwan data perlu mengetahui kapan harus menggunakan pendekatan regresi vs. pendekatan klasifikasi, dan kapan harus memperhatikan rata-rata sampel vs. median sampel. Seorang ilmuwan data tidak akan menjadi ilmuwan tanpa keterampilan penting ini.

Visualisasi data

Bagian penting dari pekerjaan ilmuwan data adalah mengkomunikasikan temuan mereka kepada orang lain. Jika seorang ilmuwan data tidak dapat mengomunikasikan temuan mereka secara efektif kepada orang lain, maka implikasi dari temuan mereka tidak menjadi masalah. Seorang ilmuwan data juga harus menjadi pendongeng yang efektif. Ini berarti menghasilkan visualisasi yang mengomunikasikan poin-poin relevan tentang kumpulan data dan pola yang ditemukan di dalamnya. Ada sejumlah besar yang berbeda visualisasi data alat yang mungkin digunakan oleh ilmuwan data, dan mereka dapat memvisualisasikan data untuk tujuan eksplorasi awal dan dasar (analisis data eksplorasi) atau memvisualisasikan hasil yang dihasilkan model.

Rekomendasi dan Aplikasi Bisnis

Seorang ilmuwan data perlu memiliki intuisi tentang persyaratan dan tujuan organisasi atau bisnis mereka. Seorang ilmuwan data perlu memahami hal-hal ini karena mereka perlu mengetahui jenis variabel dan fitur apa yang harus mereka analisis, mengeksplorasi pola yang akan membantu organisasi mereka mencapai tujuannya. Ilmuwan data perlu menyadari kendala yang mereka hadapi dan asumsi yang dibuat oleh kepemimpinan organisasi.

Pembelajaran Mesin dan AI

Pembelajaran mesin dan algoritme dan model kecerdasan buatan lainnya adalah alat yang digunakan oleh ilmuwan data untuk menganalisis data, mengidentifikasi pola dalam data, membedakan hubungan antar variabel, dan membuat prediksi tentang peristiwa di masa mendatang.

Ilmu Data Tradisional vs. Ilmu Data Besar

Karena metode pengumpulan data menjadi lebih canggih dan basis data lebih besar, muncul perbedaan antara ilmu data tradisional dan "data besar" ilmu.

Analisis data tradisional dan ilmu data dilakukan dengan analisis deskriptif dan eksplorasi, yang bertujuan untuk menemukan pola dan menganalisis hasil kinerja proyek. Metode analitik data tradisional seringkali hanya berfokus pada data masa lalu dan data saat ini. Analis data sering berurusan dengan data yang telah dibersihkan dan distandarisasi, sementara ilmuwan data sering berurusan dengan data yang kompleks dan kotor. Analitik data yang lebih maju dan teknik ilmu data dapat digunakan untuk memprediksi perilaku masa depan, meskipun hal ini lebih sering dilakukan dengan data besar, karena model prediktif sering membutuhkan data dalam jumlah besar agar dapat dibangun dengan andal.

“Big data” mengacu pada data yang terlalu besar dan rumit untuk ditangani dengan analitik data tradisional serta teknik dan alat sains. Big data sering dikumpulkan melalui platform online dan alat transformasi data canggih digunakan untuk membuat volume data yang besar siap diperiksa oleh ilmu data. Semakin banyak data yang dikumpulkan setiap saat, semakin banyak pekerjaan data scientist yang melibatkan analisis data besar.

Alat Ilmu Data

Ilmu data umum alat termasuk alat untuk menyimpan data, melakukan analisis data eksplorasi, memodelkan data, melakukan ETL, dan memvisualisasikan data. Platform seperti Amazon Web Services, Microsoft Azure, dan Google Cloud semuanya menawarkan alat untuk membantu ilmuwan data menyimpan, mengubah, menganalisis, dan memodelkan data. Ada juga alat sains data mandiri seperti Airflow (infrastruktur data) dan Tableau (visualisasi dan analitik data).

Dalam hal pembelajaran mesin dan algoritme kecerdasan buatan yang digunakan untuk memodelkan data, mereka sering disediakan melalui modul dan platform ilmu data seperti TensorFlow, PyTorch, dan studio pembelajaran Mesin Azure. Platform ini, seperti ilmuwan data, mengedit set data mereka, menyusun arsitektur pembelajaran mesin, dan melatih model pembelajaran mesin.

Pustaka dan alat sains data umum lainnya termasuk SAS (untuk pemodelan statistik), Apache Spark (untuk analisis data streaming), D3.js (untuk visualisasi interaktif di browser), dan Jupyter (untuk visualisasi dan blok kode interaktif yang dapat dibagikan) .

Foto: Seonjae Jo melalui Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

Contoh Ilmu Data

Contoh ilmu data dan penerapannya ada di mana-mana. Ilmu data memiliki aplikasi dalam segala hal mulai dari pengiriman makanan, olahraga, lalu lintas, dan kesehatan. Data ada di mana-mana sehingga ilmu data dapat diterapkan untuk segala hal.

Dalam hal makanan, Uber berinvestasi dalam perluasan sistem berbagi tumpangan yang berfokus pada pengiriman makanan, Uber Eats. Uber Eats perlu menyediakan makanan kepada orang-orang tepat waktu, selagi masih panas dan segar. Agar hal ini terjadi, ilmuwan data untuk perusahaan perlu menggunakan pemodelan statistik yang mempertimbangkan aspek-aspek seperti jarak dari restoran ke titik pengiriman, kesibukan liburan, waktu memasak, dan bahkan kondisi cuaca, semuanya dipertimbangkan dengan tujuan mengoptimalkan waktu pengiriman. .

Statistik olahraga digunakan oleh manajer tim untuk menentukan siapa pemain terbaik dan membentuk tim yang kuat dan andal yang akan memenangkan pertandingan. Salah satu contoh penting adalah ilmu data yang didokumentasikan oleh Michael Lewis dalam buku tersebut Moneyball, di mana manajer umum tim Atletik Oakland menganalisis berbagai statistik untuk mengidentifikasi pemain berkualitas yang dapat masuk ke tim dengan biaya yang relatif rendah.

Analisis pola lalu lintas sangat penting untuk penciptaan kendaraan tanpa pengemudi. Kendaraan self-driving harus dapat memprediksi aktivitas di sekitar mereka dan merespons perubahan kondisi jalan, seperti jarak berhenti yang lebih jauh yang diperlukan saat hujan, serta kehadiran lebih banyak mobil di jalan pada jam sibuk. Selain kendaraan tanpa pengemudi, aplikasi seperti Google Maps menganalisis pola lalu lintas untuk memberi tahu komuter berapa lama waktu yang dibutuhkan untuk mencapai tujuan menggunakan berbagai rute dan bentuk transportasi.

Dalam hal ilmu data kesehatan, visi komputer sering kali digabungkan dengan pembelajaran mesin dan teknik AI lainnya untuk membuat pengklasifikasi gambar yang mampu memeriksa hal-hal seperti sinar-X, FMRI, dan ultrasound untuk melihat apakah ada potensi masalah medis yang mungkin muncul dalam pemindaian. Algoritma ini dapat digunakan untuk membantu dokter mendiagnosis penyakit.

Pada akhirnya, ilmu data mencakup banyak aktivitas dan menyatukan aspek-aspek dari berbagai disiplin ilmu. Namun, ilmu data selalu berkaitan dengan menceritakan kisah yang meyakinkan dan menarik dari data, dan dengan menggunakan data untuk lebih memahami dunia.

Blogger dan programmer dengan spesialisasi di Pembelajaran mesin dan Belajar mendalam topik. Daniel berharap dapat membantu orang lain menggunakan kekuatan AI untuk kebaikan sosial.