ต้นขั้ว วิทยาศาสตร์ข้อมูลคืออะไร? - Unite.AI
เชื่อมต่อกับเรา
มาสเตอร์คลาส AI:

AI 101

วิทยาศาสตร์ข้อมูลคืออะไร

mm
วันที่อัพเดท on

สาขาวิทยาศาสตร์ข้อมูลดูเหมือนจะได้รับความนิยมมากขึ้นทุกวัน จากข้อมูลของ LinkedIn วิทยาศาสตร์ข้อมูล เป็นหนึ่งในสาขางานที่เติบโตเร็วที่สุดในปี 2017 และในปี 2020 Glassdoor ได้จัดอันดับงานด้านวิทยาศาสตร์ข้อมูลเป็น หนึ่งในสามงานที่ดีที่สุดในสหรัฐอเมริกา. ด้วยความนิยมที่เพิ่มขึ้นของวิทยาการข้อมูล จึงไม่แปลกใจเลยที่มีผู้คนสนใจในสาขานี้มากขึ้น แต่วิทยาศาสตร์ข้อมูลคืออะไรกันแน่?

มาทำความคุ้นเคยกับวิทยาศาสตร์ข้อมูล ใช้เวลาในการนิยามวิทยาศาสตร์ข้อมูล สำรวจว่าข้อมูลขนาดใหญ่และปัญญาประดิษฐ์กำลังเปลี่ยนแปลงวงการอย่างไร เรียนรู้เกี่ยวกับเครื่องมือวิทยาศาสตร์ข้อมูลทั่วไป และตรวจสอบตัวอย่างของวิทยาศาสตร์ข้อมูล

วิทยาศาสตร์ข้อมูลคืออะไร

ก่อนที่เราจะสำรวจเครื่องมือหรือตัวอย่างด้านวิทยาการข้อมูล เราจำเป็นต้องได้รับคำจำกัดความที่กระชับของ วิทยาศาสตร์ข้อมูล.

การนิยาม “วิทยาศาสตร์ข้อมูล” นั้นค่อนข้างยุ่งยากเล็กน้อย เนื่องจากคำนี้ใช้กับงานและวิธีการสอบถามและวิเคราะห์ที่แตกต่างกันมากมาย เราสามารถเริ่มต้นด้วยการเตือนตัวเองว่าคำว่า "วิทยาศาสตร์" หมายถึงอะไร วิทยาศาสตร์คือการศึกษาโลกทางกายภาพและธรรมชาติอย่างเป็นระบบผ่านการสังเกตและการทดลอง โดยมีจุดมุ่งหมายเพื่อให้มนุษย์เข้าใจกระบวนการทางธรรมชาติมากขึ้น คำสำคัญในนิยามนั้นคือ “การสังเกต” และ “ความเข้าใจ”

หากวิทยาศาสตร์ข้อมูลคือกระบวนการทำความเข้าใจโลกจากรูปแบบในข้อมูล ความรับผิดชอบของนักวิทยาศาสตร์ข้อมูล คือการแปลงข้อมูล วิเคราะห์ข้อมูล และแยกรูปแบบออกจากข้อมูล กล่าวอีกนัยหนึ่ง นักวิทยาศาสตร์ข้อมูลได้รับข้อมูลและใช้เครื่องมือและเทคนิคต่างๆ มากมายเพื่อประมวลผลข้อมูลล่วงหน้า (เตรียมข้อมูลให้พร้อมสำหรับการวิเคราะห์) จากนั้นจึงวิเคราะห์ข้อมูลเพื่อหารูปแบบที่มีความหมาย

บทบาทของนักวิทยาศาสตร์ข้อมูลนั้นคล้ายคลึงกับบทบาทของนักวิทยาศาสตร์แบบดั้งเดิม ทั้งคู่เกี่ยวข้องกับการวิเคราะห์ข้อมูล เพื่อสนับสนุนหรือปฏิเสธสมมติฐาน เกี่ยวกับวิธีการทำงานของโลก พยายามทำความเข้าใจรูปแบบในข้อมูลเพื่อปรับปรุงความเข้าใจของเราเกี่ยวกับโลก นักวิทยาศาสตร์ด้านข้อมูลใช้วิธีการทางวิทยาศาสตร์แบบเดียวกับที่นักวิทยาศาสตร์แบบดั้งเดิมทำ นักวิทยาศาสตร์ข้อมูลเริ่มต้นด้วยการรวบรวมข้อสังเกตเกี่ยวกับปรากฏการณ์บางอย่างที่พวกเขาต้องการศึกษา จากนั้นพวกเขาตั้งสมมติฐานเกี่ยวกับปรากฏการณ์ที่เป็นปัญหา และพยายามหาข้อมูลที่ทำให้สมมติฐานของพวกเขาเป็นโมฆะไม่ทางใดก็ทางหนึ่ง

หากสมมติฐานไม่ขัดแย้งกับข้อมูล พวกเขาอาจสร้างทฤษฎีหรือแบบจำลองเกี่ยวกับวิธีการทำงานของปรากฏการณ์ ซึ่งพวกเขาสามารถทดสอบครั้งแล้วครั้งเล่าโดยดูว่าเป็นจริงสำหรับชุดข้อมูลอื่นที่คล้ายคลึงกันหรือไม่ หากแบบจำลองมีความแข็งแกร่งเพียงพอ หากอธิบายรูปแบบได้ดีและไม่เป็นโมฆะในระหว่างการทดสอบอื่นๆ ก็จะสามารถใช้ทำนายเหตุการณ์ในอนาคตของปรากฏการณ์นั้นได้

นักวิทยาศาสตร์ข้อมูลมักจะไม่รวบรวมข้อมูลของตนเองผ่านการทดลอง พวกเขามักจะไม่ออกแบบการทดลองที่มีการควบคุมและการทดลองแบบปกปิดสองทางเพื่อค้นหาตัวแปรที่รบกวนซึ่งอาจขัดขวางสมมติฐาน ข้อมูลส่วนใหญ่ที่นักวิทยาศาสตร์ข้อมูลวิเคราะห์จะเป็นข้อมูลที่ได้รับจากการศึกษาเชิงสังเกตการณ์และระบบ ซึ่งเป็นวิธีที่งานของนักวิทยาศาสตร์ข้อมูลอาจแตกต่างจากงานของนักวิทยาศาสตร์แบบดั้งเดิมซึ่งมักจะทำการทดลองมากกว่า

ที่กล่าวว่านักวิทยาศาสตร์ข้อมูลอาจถูกเรียกให้ทำการทดลองรูปแบบหนึ่ง เรียกว่าการทดสอบ A/B ที่ปรับแต่งระบบที่รวบรวมข้อมูลเพื่อดูว่ารูปแบบข้อมูลเปลี่ยนแปลงอย่างไร

โดยไม่คำนึงถึงเทคนิคและเครื่องมือที่ใช้ ในที่สุดวิทยาการข้อมูลมีเป้าหมายเพื่อปรับปรุงความเข้าใจของเราเกี่ยวกับโลกโดยการทำความเข้าใจกับข้อมูล และข้อมูลได้มาจากการสังเกตและการทดลอง วิทยาศาสตร์ข้อมูลเป็นกระบวนการของการใช้อัลกอริธึม หลักการทางสถิติ และเครื่องมือและเครื่องจักรต่างๆ เพื่อดึงข้อมูลเชิงลึกจากข้อมูล ซึ่งเป็นข้อมูลเชิงลึกที่ช่วยให้เราเข้าใจรูปแบบต่างๆ ในโลกรอบตัวเรา

นักวิทยาศาสตร์ข้อมูลทำอะไร?

คุณอาจเห็นว่ากิจกรรมใด ๆ ที่เกี่ยวข้องกับการวิเคราะห์ข้อมูลในลักษณะทางวิทยาศาสตร์สามารถเรียกว่าวิทยาศาสตร์ข้อมูล ซึ่งเป็นส่วนหนึ่งของสิ่งที่ทำให้การกำหนดวิทยาศาสตร์ข้อมูลเป็นเรื่องยากมาก เพื่อให้ชัดเจนยิ่งขึ้น ลองสำรวจกิจกรรมบางอย่างของนักวิทยาศาสตร์ข้อมูล อาจจะทำ ในชีวิตประจำวัน.

วิทยาการข้อมูลนำสาขาวิชาและความเชี่ยวชาญพิเศษต่างๆ มากมายมารวมกัน รูปภาพ: Calvin Andrus ผ่าน Wikimedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

ในแต่ละวัน นักวิทยาศาสตร์ด้านข้อมูลอาจถูกขอให้: สร้างพื้นที่จัดเก็บข้อมูลและสคีมาการดึงข้อมูล สร้างไปป์ไลน์ ETL (แยก แปลง โหลด) ข้อมูล และล้างข้อมูล ใช้วิธีการทางสถิติ สร้างภาพข้อมูลและแดชบอร์ด ใช้ปัญญาประดิษฐ์ และ อัลกอริธึมการเรียนรู้ของเครื่องให้คำแนะนำสำหรับการดำเนินการตามข้อมูล

มาแบ่งภารกิจด้านบนลงเล็กน้อย

นักวิทยาศาสตร์ข้อมูลอาจต้องจัดการการติดตั้งเทคโนโลยีที่จำเป็นในการจัดเก็บและดึงข้อมูล โดยให้ความสำคัญกับทั้งฮาร์ดแวร์และซอฟต์แวร์ ผู้รับผิดชอบตำแหน่งนี้อาจเรียกว่า “วิศวกรข้อมูล". อย่างไรก็ตาม บางบริษัทรวมความรับผิดชอบเหล่านี้ไว้ภายใต้บทบาทของนักวิทยาศาสตร์ข้อมูล นักวิทยาศาสตร์ข้อมูลอาจต้องสร้างหรือช่วยเหลือในการสร้าง ท่อ ETL. ข้อมูลไม่ค่อยได้รับการจัดรูปแบบตามที่นักวิทยาศาสตร์ข้อมูลต้องการ แต่จะต้องได้รับข้อมูลในรูปแบบดิบจากแหล่งข้อมูล แปลงเป็นรูปแบบที่ใช้งานได้ และประมวลผลล่วงหน้า (เช่น การทำข้อมูลให้เป็นมาตรฐาน การทิ้งข้อมูลที่ซ้ำซ้อน และการนำข้อมูลที่เสียหายออก)

วิธีการทางสถิติของวิทยาศาสตร์ข้อมูล

พื้นที่ การประยุกต์ใช้สถิติ จำเป็นต้องเปลี่ยนเพียงแค่การดูข้อมูลและตีความเป็นวิทยาศาสตร์จริง วิธีการทางสถิติ ใช้เพื่อแยกรูปแบบที่เกี่ยวข้องจากชุดข้อมูล และนักวิทยาศาสตร์ข้อมูลจำเป็นต้องมีความเชี่ยวชาญในแนวคิดทางสถิติเป็นอย่างดี พวกเขาจำเป็นต้องแยกแยะความสัมพันธ์ที่มีความหมายออกจากความสัมพันธ์ปลอมโดยการควบคุมตัวแปรที่ทำให้สับสน พวกเขายังจำเป็นต้องรู้เครื่องมือที่เหมาะสมเพื่อใช้ในการพิจารณาว่าฟีเจอร์ใดในชุดข้อมูลมีความสำคัญต่อโมเดลของตน/มีอำนาจในการคาดการณ์ นักวิทยาศาสตร์ข้อมูลจำเป็นต้องรู้ว่าเมื่อใดควรใช้วิธีการถดถอยเทียบกับวิธีการจัดหมวดหมู่ และเมื่อใดควรสนใจเกี่ยวกับค่าเฉลี่ยของตัวอย่างเทียบกับค่ามัธยฐานของตัวอย่าง นักวิทยาศาสตร์ข้อมูลจะไม่สามารถเป็นนักวิทยาศาสตร์ได้หากปราศจากทักษะที่สำคัญเหล่านี้

การแสดงข้อมูล

ส่วนสำคัญของงานของนักวิทยาศาสตร์ข้อมูลคือการสื่อสารสิ่งที่ค้นพบกับผู้อื่น หากนักวิทยาศาสตร์ด้านข้อมูลไม่สามารถสื่อสารสิ่งที่ค้นพบกับผู้อื่นได้อย่างมีประสิทธิภาพ ความหมายโดยนัยของสิ่งที่ค้นพบก็ไม่สำคัญ นักวิทยาศาสตร์ข้อมูลควรเป็นผู้เล่าเรื่องที่มีประสิทธิภาพเช่นกัน ซึ่งหมายถึงการสร้างการแสดงภาพที่สื่อสารประเด็นที่เกี่ยวข้องเกี่ยวกับชุดข้อมูลและรูปแบบที่ค้นพบภายในชุดนั้น มีจำนวนมากแตกต่างกัน การสร้างภาพข้อมูล เครื่องมือที่นักวิทยาศาสตร์ข้อมูลอาจใช้ และพวกเขาอาจแสดงภาพข้อมูลสำหรับวัตถุประสงค์ของการเริ่มต้น การสำรวจขั้นพื้นฐาน (การวิเคราะห์ข้อมูลเชิงสำรวจ) หรือแสดงภาพผลลัพธ์ที่แบบจำลองสร้างขึ้น

คำแนะนำและการประยุกต์ใช้ทางธุรกิจ

นักวิทยาศาสตร์ข้อมูลจำเป็นต้องมีสัญชาตญาณเกี่ยวกับข้อกำหนดและเป้าหมายขององค์กรหรือธุรกิจของตน นักวิทยาศาสตร์ข้อมูลจำเป็นต้องเข้าใจสิ่งเหล่านี้เนื่องจากจำเป็นต้องรู้ว่าควรวิเคราะห์ตัวแปรและคุณสมบัติประเภทใด สำรวจรูปแบบที่จะช่วยให้องค์กรบรรลุเป้าหมาย นักวิทยาศาสตร์ข้อมูลจำเป็นต้องตระหนักถึงข้อจำกัดที่พวกเขากำลังดำเนินการและสมมติฐานที่ผู้นำขององค์กรกำลังทำอยู่

การเรียนรู้ของเครื่องและ AI

การเรียนรู้เครื่อง และอัลกอริธึมและแบบจำลองปัญญาประดิษฐ์อื่นๆ เป็นเครื่องมือที่นักวิทยาศาสตร์ข้อมูลใช้ในการวิเคราะห์ข้อมูล ระบุรูปแบบภายในข้อมูล แยกแยะความสัมพันธ์ระหว่างตัวแปร และคาดการณ์เหตุการณ์ในอนาคต

วิทยาศาสตร์ข้อมูลแบบดั้งเดิมกับวิทยาศาสตร์ข้อมูลขนาดใหญ่

เนื่องจากวิธีการรวบรวมข้อมูลมีความซับซ้อนมากขึ้นและฐานข้อมูลมีขนาดใหญ่ขึ้น ความแตกต่างจึงเกิดขึ้นระหว่างวิทยาศาสตร์ข้อมูลแบบดั้งเดิมและ "ข้อมูลใหญ่" วิทยาศาสตร์.

การวิเคราะห์ข้อมูลแบบดั้งเดิมและวิทยาศาสตร์ข้อมูลทำได้ด้วยการวิเคราะห์เชิงพรรณนาและเชิงสำรวจ โดยมีเป้าหมายเพื่อค้นหารูปแบบและวิเคราะห์ผลการปฏิบัติงานของโครงการ วิธีการวิเคราะห์ข้อมูลแบบดั้งเดิมมักมุ่งเน้นไปที่ข้อมูลในอดีตและข้อมูลปัจจุบัน นักวิเคราะห์ข้อมูลมักจะจัดการกับข้อมูลที่ได้รับการทำความสะอาดและได้มาตรฐานแล้ว ในขณะที่นักวิทยาศาสตร์ข้อมูลมักจะจัดการกับข้อมูลที่ซับซ้อนและสกปรก การวิเคราะห์ข้อมูลขั้นสูงและเทคนิคด้านวิทยาศาสตร์ข้อมูลอาจถูกนำมาใช้ในการทำนายพฤติกรรมในอนาคต แม้ว่าสิ่งนี้มักจะทำกับข้อมูลขนาดใหญ่ เนื่องจากแบบจำลองการคาดการณ์มักต้องการข้อมูลจำนวนมากเพื่อสร้างความน่าเชื่อถือ

“ข้อมูลขนาดใหญ่” หมายถึงข้อมูลที่มีขนาดใหญ่และซับซ้อนเกินกว่าจะจัดการได้ด้วยเทคนิคและเครื่องมือด้านการวิเคราะห์ข้อมูลแบบดั้งเดิมและวิทยาศาสตร์ ข้อมูลขนาดใหญ่มักถูกรวบรวมผ่านแพลตฟอร์มออนไลน์และเครื่องมือการแปลงข้อมูลขั้นสูงถูกนำมาใช้เพื่อทำให้ข้อมูลปริมาณมากพร้อมสำหรับการตรวจสอบโดยวิทยาการข้อมูล เมื่อมีการรวบรวมข้อมูลมากขึ้นตลอดเวลา งานของนักวิทยาศาสตร์ข้อมูลจึงเกี่ยวข้องกับการวิเคราะห์ข้อมูลขนาดใหญ่มากขึ้น

เครื่องมือวิทยาศาสตร์ข้อมูล

วิทยาศาสตร์ข้อมูลทั่วไป เครื่องมือ รวมถึงเครื่องมือในการจัดเก็บข้อมูล ดำเนินการวิเคราะห์ข้อมูลเชิงสำรวจ สร้างแบบจำลองข้อมูล ดำเนินการ ETL และแสดงข้อมูลเป็นภาพ แพลตฟอร์มต่างๆ เช่น Amazon Web Services, Microsoft Azure และ Google Cloud ล้วนมีเครื่องมือที่ช่วยให้นักวิทยาศาสตร์ข้อมูลจัดเก็บ แปลง วิเคราะห์ และจำลองข้อมูล นอกจากนี้ยังมีเครื่องมือวิทยาศาสตร์ข้อมูลแบบสแตนด์อโลน เช่น Airflow (โครงสร้างพื้นฐานข้อมูล) และ Tableau (การสร้างภาพข้อมูลและการวิเคราะห์)

ในแง่ของแมชชีนเลิร์นนิงและอัลกอริทึมปัญญาประดิษฐ์ที่ใช้ในการสร้างโมเดลข้อมูล มักมีให้บริการผ่านโมดูลและแพลตฟอร์มด้านวิทยาการข้อมูล เช่น TensorFlow, PyTorch และสตูดิโอการเรียนรู้ของเครื่อง Azure แพลตฟอร์มเหล่านี้ เช่น นักวิทยาศาสตร์ข้อมูลทำการแก้ไขชุดข้อมูล สร้างสถาปัตยกรรมแมชชีนเลิร์นนิง และฝึกโมเดลแมชชีนเลิร์นนิง

เครื่องมือและไลบรารีวิทยาศาสตร์ข้อมูลทั่วไปอื่นๆ ได้แก่ SAS (สำหรับการสร้างแบบจำลองทางสถิติ), Apache Spark (สำหรับการวิเคราะห์ข้อมูลการสตรีม), D3.js (สำหรับการสร้างภาพข้อมูลเชิงโต้ตอบในเบราว์เซอร์) และ Jupyter (สำหรับบล็อกโค้ดและการแสดงภาพเชิงโต้ตอบที่แชร์ได้) .

ภาพ: Seonjae Jo ผ่าน Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

ตัวอย่างของวิทยาศาสตร์ข้อมูล

ตัวอย่างของวิทยาศาสตร์ข้อมูลและการประยุกต์ใช้มีอยู่ทั่วไป วิทยาศาสตร์ข้อมูลมีการประยุกต์ใช้ในทุกสิ่งตั้งแต่การจัดส่งอาหาร กีฬา การจราจร และสุขภาพ ข้อมูลมีอยู่ทั่วไป ดังนั้นศาสตร์ข้อมูลจึงสามารถนำไปใช้กับทุกสิ่งได้

ในแง่ของอาหาร Uber กำลังลงทุนในการขยายระบบแชร์รถโดยเน้นที่การจัดส่งอาหาร Uber Eats. Uber Eats จำเป็นต้องจัดหาอาหารให้ทันเวลาในขณะที่ยังร้อนและสดใหม่ เพื่อให้สิ่งนี้เกิดขึ้น นักวิทยาศาสตร์ข้อมูลของบริษัทจำเป็นต้องใช้แบบจำลองทางสถิติที่คำนึงถึงลักษณะต่างๆ เช่น ระยะทางจากร้านอาหารไปยังจุดจัดส่ง ความเร่งรีบในวันหยุด เวลาทำอาหาร และแม้แต่สภาพอากาศ ทั้งหมดนี้พิจารณาโดยมีเป้าหมายเพื่อเพิ่มประสิทธิภาพเวลาในการจัดส่ง .

ผู้จัดการทีมใช้สถิติกีฬาเพื่อตัดสินว่าใครคือผู้เล่นที่ดีที่สุดและสร้างทีมที่แข็งแกร่งและเชื่อถือได้ซึ่งจะชนะเกม ตัวอย่างหนึ่งที่โดดเด่นคือวิทยาศาสตร์ข้อมูลที่จัดทำโดย Michael Lewis ในหนังสือเล่มนี้ Moneyballซึ่งผู้จัดการทั่วไปของทีม Oakland Athletics วิเคราะห์สถิติต่างๆ เพื่อระบุผู้เล่นที่มีคุณภาพที่สามารถเซ็นสัญญากับทีมด้วยต้นทุนที่ค่อนข้างต่ำ

การวิเคราะห์รูปแบบการจราจรมีความสำคัญอย่างยิ่งต่อการสร้างยานพาหนะที่ขับเคลื่อนด้วยตัวเอง ยานพาหนะขับเคลื่อนด้วยตนเอง ต้องสามารถคาดการณ์กิจกรรมรอบตัวและตอบสนองต่อการเปลี่ยนแปลงของสภาพถนน เช่น ระยะหยุดรถที่เพิ่มขึ้นเมื่อฝนตก รวมถึงปริมาณรถบนถนนที่เพิ่มขึ้นในชั่วโมงเร่งด่วน นอกเหนือจากรถยนต์ที่ขับเองแล้ว แอปต่างๆ เช่น Google Maps ยังวิเคราะห์รูปแบบการจราจรเพื่อบอกผู้สัญจรว่าต้องใช้เวลานานเท่าใดจึงจะถึงจุดหมายโดยใช้เส้นทางและรูปแบบการขนส่งต่างๆ

ในแง่ของการ วิทยาศาสตร์ข้อมูลสุขภาพคอมพิวเตอร์วิทัศน์มักจะรวมกับการเรียนรู้ของเครื่องและเทคนิค AI อื่นๆ เพื่อสร้างเครื่องแยกประเภทภาพที่สามารถตรวจสอบสิ่งต่างๆ เช่น รังสีเอกซ์ FMRI และอัลตราซาวนด์ เพื่อดูว่ามีปัญหาทางการแพทย์ที่อาจเกิดขึ้นในการสแกนหรือไม่ อัลกอริธึมเหล่านี้สามารถใช้เพื่อช่วยให้แพทย์วินิจฉัยโรคได้

ท้ายที่สุดแล้ว วิทยาการข้อมูลครอบคลุมกิจกรรมต่างๆ มากมายและรวบรวมแง่มุมต่างๆ ของสาขาวิชาต่างๆ อย่างไรก็ตาม วิทยาศาสตร์ข้อมูลมักจะเกี่ยวข้องกับการบอกเล่าเรื่องราวที่น่าสนใจและน่าสนใจจากข้อมูล และการใช้ข้อมูลเพื่อทำความเข้าใจโลกให้ดียิ่งขึ้น

บล็อกเกอร์และโปรแกรมเมอร์ที่มีความเชี่ยวชาญด้าน เครื่องเรียนรู้ และ การเรียนรู้ลึก ๆ หัวข้อ Daniel หวังว่าจะช่วยให้ผู้อื่นใช้พลังของ AI เพื่อประโยชน์ทางสังคม