ผู้นำทางความคิด
การทำความสะอาดข้อมูลที่ไม่เรียบร้อยของเรา: วิธีที่ AI เปลี่ยนแปลงเกม

เรากำลังจมอยู่ในข้อมูล Every แพลตฟอร์ม สมาร์ทวอทช์ และสมาร์ทโฟน ทำให้เราสามารถแบ่งชีวิตออกเป็นชิ้นเล็กๆ ที่สามารถวัดได้ แต่ส่วนใหญ่ของมัน vẫnไม่สอดคล้องกันและไม่สามารถใช้งานได้
บริษัทต่างๆ รู้เรื่องนี้ ซึ่งเป็นเหตุผลที่ Meta บริษัทเทคโนโลยีขนาดใหญ่ ลงทุน 14 พันล้านดอลลาร์สหรัฐฯ เมื่อฤดูร้อนปีที่แล้วเพื่อซื้อหุ้น 49% ในบริษัท Scale AI ซึ่งเป็นบริษัทที่ให้บริการทำความสะอาดข้อมูล โดยการลงทุนครั้งนี้เป็นการเคลื่อนไหวที่คำนวณและเชิงกลยุทธ์ในการรับประกันข้อมูลที่มีคุณภาพสูงสำหรับโมเดล AI ของตน
ความน่าเชื่อถือของโมเดลภาษาขนาดใหญ่นั้นขึ้นอยู่กับคุณภาพของข้อมูลที่ให้มาโดยสิ้นเชิง – ในระยะสั้น “ข้อมูลที่ไม่ดีเข้าไป ข้อมูลที่ไม่ดีออกไป” แต่ปัจจุบัน บริษัทต่างๆ ต้องเผชิญกับความท้าทายที่แท้จริงในการเปลี่ยนข้อมูลที่ไม่เรียบร้อยให้เป็นข้อมูลที่สามารถใช้งานได้
วิธีแก้ปัญหาอาจอยู่ในความเห็นชัดเจน: AI เองสามารถช่วยได้โดยการสร้างกลยุทธ์เพื่อหลีกเลี่ยงการทำความสะอาดข้อมูลที่น่าเบื่อหรือการค้นหาข้อมูลที่ไม่สอดคล้องกัน และเปลี่ยนความวุ่นวายให้เป็นข้อมูลที่มีคุณภาพและสามารถใช้งานได้
เมื่อข้อมูลไม่เรียบร้อย: ต้นทุนซ่อนเร้นที่บริษัทต่างๆ ต้องเผชิญ
ตาม การวิจัยของ Gartner ในปี 2020 คุณภาพข้อมูลที่ไม่ดีทำให้บริษัทต่างๆ สูญเสียเงินอย่างน้อย 12.9 พันล้านดอลลาร์สหรัฐฯ ต่อปี ซึ่งส่งผลกระทบต่อประสิทธิภาพและทำให้การตัดสินใจไม่ถูกต้องและรายงานไม่ถูกต้อง
ผลกระทบของข้อมูลที่ไม่เรียบร้อยเห็นได้ชัดเจนในภาคส่วนต่างๆ เช่น สาธารณสุข บันทึกสุขภาพที่ไม่สมบูรณ์ รายละเอียดการเรียกเก็บเงิน และข้อมูลที่ไม่สอดคล้องกันระหว่างระบบสามารถนำไปสู่การวินิจฉัยที่ไม่ถูกต้อง ข้อผิดพลาดในการรักษา และการกระจายทรัพยากรที่ไม่มีประสิทธิภาพ ในระยะยาว สิ่งนี้จะทำให้ต้นทุนเพิ่มขึ้นและทำให้ความเชื่อมั่นในระบบเหล่านี้ลดลง
ในขณะเดียวกัน ในภาคการขนส่ง ข้อมูลที่ไม่สอดคล้องกันระหว่างซัพพลายเออร์และผู้จัดจำหน่ายสามารถทำให้เกิดความล่าช้าหรือขาดแคลนสินค้า ที่อยู่จัดส่งที่ไม่ถูกต้องหรือข้อมูลสินค้าที่ไม่ถูกต้องสามารถส่งผลกระทบต่อทั้งห่วงโซ่อุปทานและทำให้ลูกค้าไม่พอใจ
“โดยการสามารถคาดการณ์หรือเข้าใจสิ่งที่อาจเกิดขึ้น [ตามเส้นทาง] – ตามข้อมูลที่ผ่านมา – คุณสามารถลดความไร้ประสิทธิภาพเหล่านี้ได้” Asparuh Koev ซีอีโอของ Transmetrics บริษัท AI ในภาคการขนส่ง ระบุในการสนทนากับ Unite AI.
ในแง่ปฏิบัติ ข้อมูลที่ไม่เรียบร้อยมีค่าใช้จ่ายสูง กฎ 1-10-100 อธิบายสิ่งนี้: ต้นทุน 1 ดอลลาร์ในการตรวจสอบข้อมูลเมื่อมันถูกป้อนเข้าไป ต้นทุน 10 ดอลลาร์ในการทำความสะอาดข้อมูลหลังจากนั้น และต้นทุน 100 ดอลลาร์หากไม่มีการทำอะไรเลย
สิ่งที่แพลตฟอร์ม AI ที่มีพลังนำมาให้
เมื่อบริษัทต่างๆ ต้องเผชิญกับข้อมูลที่ไม่เรียบร้อยที่เพิ่มขึ้น พวกเขากำลังหันไปหาวิธีแก้ปัญหาจาก AI แพลตฟอร์ม AI ที่มีพลังใหม่ๆ กำลังทำให้กระบวนการทำความสะอาดข้อมูลเป็นแบบอัตโนมัติ ซึ่งทำให้สามารถลดต้นทุนและเพิ่มความแม่นยำ
Robert Giardina ผู้ก่อตั้ง Claritype แพลตฟอร์มหนึ่งที่มีพลังนี้ อธิบายกระบวนการของ AI ว่า:
“มันรวมข้อมูลเข้าด้วยกันในรูปแบบที่เหมือนกัน: ส่วนหนึ่งของกระบวนการคือการแปลงข้อมูลแต่ละรายการให้เป็นรูปแบบที่เหมาะสมกับธุรกิจ”
Claritype ของ Giardina ไปไกลกว่าการทำให้มาตรฐานอย่างง่ายๆ แพลตฟอร์มนี้มีการซ่อมแซมที่ได้รับการดูแล ซึ่งช่วยให้บริษัทต่างๆ สามารถข้ามขอบเขตของระบบเพื่อตามหาคำตอบสำหรับคำถามที่สำคัญที่สุดของพวกเขา และทำลายกำแพงระหว่างระบบ
“ระบบที่เคยถูกแยกออกจากกันแต่ละระบบก็มีคำตอบสำหรับคำถามที่ครอบคลุมทั้งธุรกิจ” Giardina กล่าวในการสนทนากับ Unite AI
ถ้าซัพพลายเออร์สำคัญถูกกระทบจากความล่าช้าในการจัดส่ง เช่น หากต้องการทราบว่าควรแจ้งให้ลูกค้าที่สำคัญที่สุดของพวกเขารู้ก่อนว่าเมื่อใดที่จะแจ้งให้ทราบเกี่ยวกับความล่าช้า จะต้องเชื่อมต่อซัพพลายเออร์กับคำสั่งซื้อและประวัติลูกค้า
“เป้าหมายสูงสุดของเราคือการขยายความคิดที่เชื่อมโยงกันเพื่อทำให้ทุกชิ้นส่วนของข้อมูลในองค์กรเป็นหนึ่งเดียว เพื่อให้สามารถตอบคำถามทุกๆ คำถามได้อย่างง่ายดายและทันที” Giardina กล่าว
การคิดที่เชื่อมโยงกันนี้เป็นตัวอย่างของการเปลี่ยนแปลงความคิดที่เกิดขึ้นในบริษัทต่างๆ ในปัจจุบัน เมื่อพวกเขาเปลี่ยนจากการทำความสะอาดข้อมูลแบบ ad hoc ไปเป็นการกำกับดูแลข้อมูลแบบเป็นระบบ แทนที่จะรักษาคุณภาพข้อมูลเป็นการแก้ปัญหาครั้งเดียว บริษัทต่างๆ กำลังพัฒนาการดำเนินการที่มีโครงสร้างเพื่อให้แน่ใจถึงความสอดคล้องและความน่าเชื่อถือทั่วทั้งระบบของพวกเขา
การกำกับดูแลข้อมูลถือเป็นกระบวนการทางธุรกิจที่มีค่า ไม่ใช่แค่หน้าที่ของฝ่ายไอทีเท่านั้น โดยการรวมการบริหารข้อมูลเข้ากับกลยุทธ์โดยรวมของพวกเขา บริษัทต่างๆ สามารถตัดสินใจได้ดีขึ้นและได้รับข้อมูลเชิงลึกที่มีความหมายมากขึ้นจากข้อมูลของพวกเขา
วิธีที่ AI ทำความสะอาดข้อมูลและความท้าทายที่ AI ต้องเผชิญ
การอาศัย AI มากเกินไปอาจเป็นอันตราย สำหรับ Giardina “การแปลงข้อมูลอัตโนมัติที่น่าห่วงใยคือการแปลงที่เกินมาตรฐานและเข้าสู่การเดา”
ตัวอย่างเช่น การย่อหนังสือบางอย่างอาจถูกตีความผิดได้ง่ายๆ “International Business Machines, Inc.” หรือ “I.B.M.” โดยทั่วไปจะถูกแปลงเป็น “IBM” แต่ถ้าการแปลงนั้นเป็นอัตโนมัติและ “I.B.” ถูกแปลงเป็น “IBM” โดยไม่ถูกต้อง อาจทำให้เกิดปัญหาใหญ่สำหรับทั้งสองบริษัท
ข้อมูลที่หายไปและไม่ถูกต้องเป็นสองปัญหาหลักที่พบบ่อย และการอาศัย AI เพียงอย่างเดียวในการเติมช่องว่างตามบริบทอาจทำให้เกิดปัญหาได้ง่ายๆ ตามที่ Giardina ระบุ “เมื่อผลกระทบมีผลอย่างมีนัยสำคัญ เราต้องการให้มนุษย์อนุมัติการเดาแต่ละครั้ง”
การสร้างสมดุลระหว่างการทำงานอัตโนมัติและความเข้าใจของมนุษย์
ข้อมูลที่ไม่เรียบร้อยเน้นย้ำถึงข้อบกพร่องที่ลึกซึ้งในการจัดการข้อมูลขององค์กร เพื่อที่จะก้าวหน้าและปรับปรุงการตัดสินใจ บริษัทต่างๆ ต้องหยุดมองข้อมูลเป็นเพียงปัญหาทางเทคนิคและเปลี่ยนไปใช้โมเดลการกำกับดูแลที่รวมทั้งความเชี่ยวชาญของมนุษย์ ความตระหนักทางจริยธรรม และมุมมองเชิงกลยุทธ์ระยะยาว
ข้อมูลที่สะอาดทำให้ AI มีประสิทธิภาพมากขึ้น ซึ่งจะช่วยปรับปรุงคุณภาพข้อมูล; วงจรที่เสริมซึ่งกันและกันนี้มีแนวโน้ม แต่เตือนให้เราเห็นได้ว่าการทำงานอัตโนมัติเพียงอย่างเดียวจะไม่แก้ปัญหาข้อมูลที่ไม่เรียบร้อยของเราได้ โอกาสนี้สามารถเกิดขึ้นได้โดยการผสมผสานความแม่นยำของอัลกอริทึมเข้ากับการตัดสินใจของมนุษย์และความตระหนักถึงความลำเอียงที่อาจเกิดขึ้น เพื่อให้แน่ใจถึงความโปร่งใสและความเชื่อมั่นในระบบที่เราสร้างขึ้น
Alex Sandoval ซีอีโอของ Allie AI บริษัท AI ที่ให้บริการข้อมูลการผลิต ยังเน้นย้ำถึงความสำคัญของการทำงานร่วมกันระหว่าง AI และมนุษย์ในการทำความสะอาดข้อมูล
“การนำไปใช้งานที่ประสบความสำเร็จมากที่สุดในปัจจุบันไม่ได้เพียงแค่ให้อาหารโมเดลด้วยข้อมูลจากเครื่องควบคุมลอจิกที่สามารถเขียนโปรแกรมได้ (PLC) หมายเหตุของผู้ดำเนินการ และโพรโทคอลการปฏิบัติตามกฎระเบียบเท่านั้น แต่ยังต้องอาศัยคนงานแนวหน้าประเภทใหม่ที่สามารถแปลระหว่างพฤติกรรมของเครื่องจักรและ直觉ดิจิทัล” เขาสรุป












