AI 101
วิทยาศาสตร์ข้อมูลคืออะไร?

สาขาวิชาวิทยาศาสตร์ข้อมูลดูเหมือนจะใหญ่ขึ้นและเป็นที่นิยมมากขึ้นทุกวัน ตาม LinkedIn วิทยาศาสตร์ข้อมูลเป็น หนึ่งในสาขางานที่เติบโตเร็วที่สุดในปี 2017 และในปี 2020 Glassdoor จัดอันดับงานวิทยาศาสตร์ข้อมูลเป็น หนึ่งในสามงานที่ดีที่สุดในสหรัฐอเมริกา ด้วยความนิยมที่เพิ่มขึ้นของวิทยาศาสตร์ข้อมูล จึงไม่น่าแปลกใจที่คนจำนวนมากขึ้นสนใจในสาขานี้ แต่สิ่งที่วิทยาศาสตร์ข้อมูลคืออะไร?
มาเรียนรู้เกี่ยวกับวิทยาศาสตร์ข้อมูล โดยใช้เวลาในการกำหนดวิทยาศาสตร์ข้อมูล ตรวจสอบว่าข้อมูลขนาดใหญ่และปัญญาประดิษฐ์เปลี่ยนแปลงสาขานี้อย่างไร เรียนรู้เกี่ยวกับเครื่องมือวิทยาศาสตร์ข้อมูลทั่วไป และตรวจสอบตัวอย่างของวิทยาศาสตร์ข้อมูล
วิทยาศาสตร์ข้อมูลคืออะไร?
ก่อนที่เราจะสำรวจเครื่องมือวิทยาศาสตร์ข้อมูลหรือตัวอย่างใดๆ เราต้องการคำจำกัดความที่ชัดเจนของ วิทยาศาสตร์ข้อมูล
การกำหนด “วิทยาศาสตร์ข้อมูล” จริงๆ แล้วค่อนข้างยากเพราะคำนี้ถูกนำไปใช้กับงานและวิธีการสอบถามและวิเคราะห์ที่แตกต่างกันมากมาย เราสามารถเริ่มต้นด้วยการเตือนตัวเองว่าคำว่า “วิทยาศาสตร์” หมายถึงอะไร วิทยาศาสตร์คือการศึกษาทางระบบของโลกธรรมชาติและกายภาพผ่านการสังเกตและทดลอง โดยมีเป้าหมายเพื่อพัฒนาความเข้าใจของมนุษย์เกี่ยวกับกระบวนการธรรมชาติ คำสำคัญในคำจำกัดความนี้คือ “การสังเกต” และ “ความเข้าใจ”
หากวิทยาศาสตร์ข้อมูลเป็นกระบวนการในการทำความเข้าใจโลกจากรูปแบบในข้อมูล แล้ว ความรับผิดชอบของนักวิทยาศาสตร์ข้อมูล คือการเปลี่ยนแปลงข้อมูล วิเคราะห์ข้อมูล และดึงรูปแบบออกจากข้อมูล ในอีกคำหนึ่ง นักวิทยาศาสตร์ข้อมูลได้รับข้อมูลและใช้เครื่องมือและเทคนิคต่างๆ เพื่อเตรียมข้อมูล (ทำให้พร้อมสำหรับการวิเคราะห์) และวิเคราะห์ข้อมูลเพื่อหารูปแบบที่มีความหมาย
บทบาทของนักวิทยาศาสตร์ข้อมูลคล้ายกับบทบาทของนักวิทยาศาสตร์แบบดั้งเดิม ทั้งสองมีความกังวลเกี่ยวกับการวิเคราะห์ข้อมูลเพื่อสนับสนุนหรือปฏิเสธสมมติฐานเกี่ยวกับวิธีการทำงานของโลก พยายามทำความเข้าใจรูปแบบในข้อมูลเพื่อปรับปรุงความเข้าใจของเราเกี่ยวกับโลก นักวิทยาศาสตร์ข้อมูลใช้วิธีการทางวิทยาศาสตร์เดียวกับที่นักวิทยาศาสตร์แบบดั้งเดิมใช้ นักวิทยาศาสตร์ข้อมูลเริ่มต้นด้วยการรวบรวมการสังเกตเกี่ยวกับปรากฏการณ์ที่พวกเขาต้องการศึกษา จากนั้นจึงสร้างสมมติฐานเกี่ยวกับปรากฏการณ์นั้นและพยายามหาข้อมูลที่หักล้างสมมติฐานของพวกเขาในบางวิธี
หากสมมติฐานไม่ถูกหักล้างโดยข้อมูล พวกเขาอาจสามารถสร้างทฤษฎีหรือแบบจำลองเกี่ยวกับวิธีการทำงานของปรากฏการณ์นั้นได้ ซึ่งพวกเขาสามารถทดสอบซ้ำๆ โดยดูว่ามันใช้ได้กับชุดข้อมูลอื่นๆ หรือไม่ หากแบบจำลองมีความแข็งแกร่งพอที่จะอธิบายรูปแบบได้ดีและไม่ถูกหักล้างระหว่างการทดสอบอื่นๆ แบบจำลองนั้นสามารถใช้เพื่อคาดการณ์เหตุการณ์ในอนาคตได้
นักวิทยาศาสตร์ข้อมูลโดยทั่วไปจะไม่รวบรวมข้อมูลของตนเองผ่านการทดลอง พวกเขาจะไม่ออกแบบการทดลองที่มีการควบคุมและทดลองแบบปิดบังเพื่อค้นหาตัวแปรที่รบกวนซึ่งอาจขัดขวางสมมติฐาน ข้อมูลส่วนใหญ่ที่วิเคราะห์โดยนักวิทยาศาสตร์ข้อมูลจะได้รับจากการศึกษาทางการสังเกตและระบบ ซึ่งเป็นวิธีการที่งานของนักวิทยาศาสตร์ข้อมูลอาจแตกต่างจากงานของนักวิทยาศาสตร์แบบดั้งเดิมที่มักจะทำการทดลองมากกว่า
อย่างไรก็ตาม นักวิทยาศาสตร์ข้อมูลอาจถูกเรียกให้ทำการทดลองในรูปแบบที่เรียกว่า การทดสอบ A/B โดยที่มีการปรับเปลี่ยนระบบที่รวบรวมข้อมูลเพื่อดูว่ารูปแบบข้อมูลเปลี่ยนแปลงไปอย่างไร
ไม่ว่าจะใช้เทคนิคหรือเครื่องมือใด วิทยาศาสตร์ข้อมูลมีเป้าหมายสูงสุดในการปรับปรุงความเข้าใจของเราเกี่ยวกับโลกโดยการทำความเข้าใจข้อมูล และข้อมูลได้รับจากการสังเกตและทดลอง วิทยาศาสตร์ข้อมูลคือกระบวนการของการใช้แอลกอริทึม หลักการทางสถิติ และเครื่องมือและเครื่องจักรต่างๆ เพื่อดึงข้อมูลเชิงลึกออกจากข้อมูล ซึ่งช่วยให้เราเข้าใจรูปแบบในโลกรอบๆ ตัวเรา
นักวิทยาศาสตร์ข้อมูลทำอะไร?
คุณอาจเห็นว่ากิจกรรมใดๆ ที่เกี่ยวข้องกับการวิเคราะห์ข้อมูลในลักษณะทางวิทยาศาสตร์สามารถเรียกว่าวิทยาศาสตร์ข้อมูล ซึ่งเป็นส่วนหนึ่งของสิ่งที่ทำให้การกำหนดวิทยาศาสตร์ข้อมูลยาก เพื่อให้เข้าใจมากขึ้น มาสำรวจกิจกรรมที่นักวิทยาศาสตร์ข้อมูล อาจทำ ในแต่ละวัน

วิทยาศาสตร์ข้อมูลรวมวิชาชีพและความเชี่ยวชาญที่แตกต่างกันมากมาย รูป: Calvin Andrus via Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)
ในแต่ละวัน นักวิทยาศาสตร์ข้อมูลอาจถูกขอให้: สร้างสเคมาการจัดเก็บและ检索ข้อมูล สร้างพายพันข้อมูล ETL (extract, transform, load) และทำความสะอาดข้อมูล ใช้วิธีการทางสถิติ สร้างการแสดงภาพข้อมูลและแดชบอร์ด ใช้แอลกอริทึมปัญญาประดิษฐ์และการเรียนรู้ของเครื่อง และให้คำแนะนำสำหรับการดำเนินการตามข้อมูล
มาแบ่งงานที่กล่าวมาข้างต้นออกเป็นรายละเอียด
นักวิทยาศาสตร์ข้อมูลอาจต้องจัดการกับการติดตั้งเทคโนโลยีที่จำเป็นในการจัดเก็บและ检索ข้อมูล โดยให้ความสนใจทั้งฮาร์ดแวร์และซอฟต์แวร์ บุคคลที่รับผิดชอบตำแหน่งนี้อาจเรียกว่า “วิศวกรข้อมูล” อย่างไรก็ตาม บางบริษัทรวมความรับผิดชอบเหล่านี้ไว้ภายใต้บทบาทของนักวิทยาศาสตร์ข้อมูล นักวิทยาศาสตร์ข้อมูลอาจต้องสร้างหรือช่วยในการสร้าง พายพันข้อมูล ETL ข้อมูลมักจะไม่มาในแบบฟอร์มที่นักวิทยาศาสตร์ข้อมูลต้องการ แต่ข้อมูลจะถูกส่งมาในแบบฟอร์มดิบจากแหล่งข้อมูล จากนั้นข้อมูลจะต้องถูกแปลงให้เป็นรูปแบบที่ใช้ได้และเตรียมการ (เช่น การมาตรฐานข้อมูล การลบรายการซ้ำ การลบข้อมูลที่เสียหาย)
วิธีการทางสถิติของวิทยาศาสตร์ข้อมูล
การนำ สถิติ ไปใช้จำเป็นต่อการเปลี่ยนจากการดูข้อมูลและตีความเป็นวิทยาศาสตร์ที่แท้จริง วิธีการทางสถิติใช้เพื่อดึงรูปแบบที่เกี่ยวข้องออกจากชุดข้อมูล และนักวิทยาศาสตร์ข้อมูลต้องมีความรู้ด้านแนวคิดทางสถิติ พวกเขาต้องสามารถแยกความสัมพันธ์ที่มีความหมายออกจากความสัมพันธ์ที่ไม่มีความหมายโดยการควบคุมตัวแปรที่รบกวน พวกเขายังต้องรู้เครื่องมือที่ถูกต้องในการกำหนดคุณลักษณะที่สำคัญในข้อมูลสำหรับแบบจำลองหรือมีพลังในการทำนาย นักวิทยาศาสตร์ข้อมูลต้องรู้ว่าเมื่อใดที่ควรใช้การวิเคราะห์แบบ回帰หรือการจำแนกประเภท และเมื่อใดที่ควรสนใจค่าเฉลี่ยของตัวอย่างหรือค่าเฉลี่ยของตัวอย่าง นักวิทยาศาสตร์ข้อมูลไม่สามารถเป็นนักวิทยาศาสตร์ได้หากไม่มีทักษะเหล่านี้
การแสดงภาพข้อมูล
ส่วนสำคัญของงานนักวิทยาศาสตร์ข้อมูลคือการถ่ายทอดผลการวิเคราะห์ให้กับผู้อื่น หากนักวิทยาศาสตร์ข้อมูลไม่สามารถสื่อสารผลการวิเคราะห์ของตนให้กับผู้อื่นได้อย่างมีประสิทธิภาพ ผลกระทบของผลการวิเคราะห์เหล่านั้นจะไม่มีความหมาย นักวิทยาศาสตร์ข้อมูลควรเป็นนักเล่าเรื่องที่มีประสิทธิภาพเช่นกัน ซึ่งหมายความว่าผลิตการแสดงภาพที่สื่อสารจุดสำคัญเกี่ยวกับชุดข้อมูลและรูปแบบที่ค้นพบภายใน มีเครื่องมือการแสดงภาพข้อมูลมากมายที่นักวิทยาศาสตร์ข้อมูลอาจใช้ และพวกเขาอาจแสดงภาพข้อมูลเพื่อวัตถุประสงค์ของการสำรวจข้อมูลเบื้องต้น (การวิเคราะห์ข้อมูลแบบสำรวจ) หรือแสดงผลที่แบบจำลองผลิตขึ้น
คำแนะนำและการใช้งานทางธุรกิจ
นักวิทยาศาสตร์ข้อมูลต้องมีความเข้าใจในข้อกำหนดและเป้าหมายขององค์กรหรือธุรกิจของตน นักวิทยาศาสตร์ข้อมูลต้องเข้าใจสิ่งเหล่านี้เพราะพวกเขาต้องรู้ว่าควรวิเคราะห์ปริมาณและคุณลักษณะใดที่จะช่วยให้องค์กรบรรลุเป้าหมายได้ นักวิทยาศาสตร์ข้อมูลต้องตระหนักถึงข้อจำกัดที่พวกเขากำลังทำงานอยู่และสมมติฐานที่ผู้นำขององค์กรกำลังทำ
การเรียนรู้ของเครื่องและปัญญาประดิษฐ์
การเรียนรู้ของเครื่องและแอลกอริทึมและแบบจำลองปัญญาประดิษฐ์อื่นๆ เป็นเครื่องมือที่นักวิทยาศาสตร์ข้อมูลใช้ในการวิเคราะห์ข้อมูล ระบุรูปแบบในข้อมูล และทำนายเหตุการณ์ในอนาคต
วิทยาศาสตร์ข้อมูลแบบดั้งเดิมกับวิทยาศาสตร์ข้อมูลขนาดใหญ่
เมื่อวิธีการรวบรวมข้อมูลมีความซับซ้อนมากขึ้นและฐานข้อมูลมีขนาดใหญ่ขึ้น ความแตกต่างระหว่างวิทยาศาสตร์ข้อมูลแบบดั้งเดิมและวิทยาศาสตร์ข้อมูล “ขนาดใหญ่” ได้ปรากฏขึ้น
การวิเคราะห์ข้อมูลแบบดั้งเดิมและวิทยาศาสตร์ข้อมูลทำด้วยการวิเคราะห์แบบอธิบายและแบบสำรวจ โดยมีเป้าหมายในการค้นหารูปแบบและวิเคราะห์ผลการดำเนินงานของโครงการ การวิเคราะห์ข้อมูลแบบดั้งเดิมมักมุ่งเน้นไปที่ข้อมูลในอดีตและปัจจุบัน นักวิเคราะห์ข้อมูลมักจะจัดการกับข้อมูลที่สะอาดและมาตรฐานแล้ว ในขณะที่นักวิทยาศาสตร์ข้อมูลมักจะจัดการกับข้อมูลที่ซับซ้อนและไม่สะอาด เทคนิคการวิเคราะห์ข้อมูลที่ซับซ้อนกว่านี้อาจใช้เพื่อคาดการณ์พฤติกรรมในอนาคต แม้ว่าสิ่งนี้จะทำได้บ่อยขึ้นด้วยข้อมูลขนาดใหญ่ เนื่องจากแบบจำลองการคาดการณ์มักต้องการข้อมูลจำนวนมากเพื่อสร้างแบบจำลองที่เชื่อถือได้
“ข้อมูลขนาดใหญ่” หมายถึงข้อมูลที่มีขนาดใหญ่และซับซ้อนเกินกว่าที่จะจัดการได้ด้วยเทคนิคและเครื่องมือวิทยาศาสตร์ข้อมูลแบบดั้งเดิม ข้อมูลขนาดใหญ่มักจะรวบรวมผ่านแพลตฟอร์มออนไลน์และเครื่องมือการแปลงข้อมูลที่ซับซ้อนจะถูกนำมาใช้เพื่อเตรียมปริมาณข้อมูลขนาดใหญ่ให้พร้อมสำหรับการตรวจสอบโดยวิทยาศาสตร์ข้อมูล เมื่อมีการรวบรวมข้อมูลมากขึ้นทุกครั้ง ส่วนงานของนักวิทยาศาสตร์ข้อมูลจึงเกี่ยวข้องกับการวิเคราะห์ข้อมูลขนาดใหญ่มากขึ้น
เครื่องมือวิทยาศาสตร์ข้อมูล
เครื่องมือวิทยาศาสตร์ข้อมูลทั่วไปรวมถึงเครื่องมือในการจัดเก็บข้อมูล การทำการวิเคราะห์ข้อมูลแบบสำรวจ การสร้างแบบจำลองข้อมูล การทำ ETL และการแสดงภาพข้อมูล แพลตฟอร์ม เช่น Amazon Web Services, Microsoft Azure และ Google Cloud มีเครื่องมือที่ช่วยให้นักวิทยาศาสตร์ข้อมูลสามารถจัดเก็บ ขยายขนาด วิเคราะห์ และสร้างแบบจำลองข้อมูลได้ ยังมีเครื่องมือวิทยาศาสตร์ข้อมูลแบบสแตนด์อโลน เช่น Airflow (โครงสร้างพื้นฐานข้อมูล) และ Tableau (การแสดงภาพข้อมูลและวิเคราะห์)
ในแง่ของแอลกอริทึมการเรียนรู้ของเครื่องและปัญญาประดิษฐ์ที่ใช้ในการสร้างแบบจำลองข้อมูล มักจะถูกจัดเตรียมผ่านโมดูลและแพลตฟอร์มวิทยาศาสตร์ข้อมูล เช่น TensorFlow, PyTorch และ Azure Machine-learning studio แพลตฟอร์มเหล่านี้ช่วยให้นักวิทยาศาสตร์ข้อมูลสามารถแก้ไขชุดข้อมูล สร้างโครงสร้างการเรียนรู้ของเครื่อง และฝึกฝนแบบจำลองการเรียนรู้ของเครื่อง
เครื่องมือและไลบรารีวิทยาศาสตร์ข้อมูลทั่วไปอื่นๆ รวมถึง SAS (สำหรับการสร้างแบบจำลองทางสถิติ) Apache Spark (สำหรับการวิเคราะห์ข้อมูลสตรีม) D3.js (สำหรับการแสดงภาพแบบโต้ตอบในเบราว์เซอร์) และ Jupyter (สำหรับบล็อกโค้ดและภาพที่สามารถแชร์ได้)

รูป: Seonjae Jo via Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)
ตัวอย่างของวิทยาศาสตร์ข้อมูล
ตัวอย่างของวิทยาศาสตร์ข้อมูลและการใช้งานมีมากมาย วิทยาศาสตร์ข้อมูลสามารถใช้ได้กับทุกสิ่ง ตั้งแต่การส่งอาหาร กีฬา การจราจร และสุขภาพ ข้อมูลมีในทุกที่ และดังนั้น วิทยาศาสตร์ข้อมูลสามารถนำไปใช้กับทุกสิ่ง
ในแง่ของอาหาร Uber กำลังลงทุนในการขยายระบบการขนส่งไปยังบริการส่งอาหาร Uber Eats Uber Eats ต้องการให้คนได้รับอาหารในเวลาที่เหมาะสม ในขณะที่อาหารยังอุ่นและสดใหม่ เพื่อให้สิ่งนี้เกิดขึ้น นักวิทยาศาสตร์ข้อมูลของบริษัทต้องใช้การสร้างแบบจำลองทางสถิติที่คำนึงถึงประเด็นต่างๆ เช่น ระยะทางจากภัตตาคารไปยังจุดส่งมอบ วันหยุดเทศกาล เวลาปรุงอาหาร และแม้แต่สภาพอากาศ โดยมีเป้าหมายในการเพิ่มประสิทธิภาพเวลาในการส่งมอบ
สถิติกีฬาใช้โดยผู้จัดการทีมเพื่อกำหนดผู้เล่นที่ดีที่สุดและสร้างทีมที่แข็งแกร่งและเชื่อถือได้ซึ่งจะชนะเกม ตัวอย่างที่น่าสนใจหนึ่งคือวิทยาศาสตร์ข้อมูลที่ได้รับการบันทึกโดย Michael Lewis ในหนังสือ Moneyball โดยที่ผู้จัดการทั่วไปของทีม Oakland Athletics วิเคราะห์สถิติต่างๆ เพื่อระบุผู้เล่นที่มีคุณภาพซึ่งสามารถเซ็นสัญญาได้ในราคาไม่แพง
การวิเคราะห์รูปแบบการจราจรเป็นสิ่งสำคัญสำหรับการสร้างรถยนต์ขับเคลื่อนอัตโนมัติ รถยนต์ขับเคลื่อนอัตโนมัติ ต้องสามารถคาดการณ์กิจกรรมรอบๆ ตัวและตอบสนองต่อการเปลี่ยนแปลงสภาพถนน เช่น ระยะทางที่เพิ่มขึ้นในการหยุดเมื่อมีฝน ตลอดจนการมีรถยนต์มากขึ้นบนถนนในชั่วโมงเร่งด่วน นอกเหนือจากรถยนต์ขับเคลื่อนอัตโนมัติ แอปพลิเคชัน เช่น Google Maps วิเคราะห์รูปแบบการจราจรเพื่อบอกนักเดินทางว่าจะใช้เวลาเท่าใดในการเดินทางไปยังจุดหมายโดยใช้เส้นทางและรูปแบบการเดินทางต่างๆ
ในแง่ของสุขภาพ วิทยาศาสตร์ข้อมูลใช้การรวมกันของการมองเห็นของคอมพิวเตอร์ การเรียนรู้ของเครื่อง และเทคนิค AI อื่นๆ เพื่อสร้างเครื่องจำแนกภาพที่สามารถตรวจสอบสิ่งเช่น X-ray, FMRIs และอัลตราซาวนด์เพื่อดูว่ามีปัญหาทางการแพทย์ที่อาจปรากฏในภาพสแกนหรือไม่ แอลกอริทึมเหล่านี้สามารถใช้เพื่อช่วยแพทย์ในการวินิจฉัยโรค
ในที่สุด วิทยาศาสตร์ข้อมูลครอบคลุมกิจกรรมต่างๆ และรวมเอาส่วนต่างๆ ของสาขาวิชาที่แตกต่างกัน แต่วิทยาศาสตร์ข้อมูลมักจะเกี่ยวข้องกับการเล่าเรื่องที่น่าสนใจจากข้อมูล และการใช้ข้อมูลเพื่อทำความเข้าใจโลกให้ดีขึ้น












