บทสัมภาษณ์

ชาฮาร์ อะซูเลย์ ซีอีโอและผู้ร่วมก่อตั้งบริษัท Groundcover

การตีพิมพ์ January 6, 2026

อองตวน ทาร์ดิฟ ซีอีโอและผู้ก่อตั้ง Unite.AI

ชาฮาร์ อะซูเลย์ ซีอีโอและผู้ร่วมก่อตั้ง Groundcover อย่าง Shahar เป็นผู้นำด้านการวิจัยและพัฒนาที่มีประสบการณ์มากมาย เขาเชี่ยวชาญด้านความปลอดภัยทางไซเบอร์และการเรียนรู้ของเครื่องจักร โดยเคยดำรงตำแหน่งผู้นำในบริษัทต่างๆ เช่น Apple, DayTwo และ Cymotive Technologies Shahar ใช้เวลาหลายปีในแผนกไซเบอร์ของสำนักงานนายกรัฐมนตรีอิสราเอล และสำเร็จการศึกษาระดับปริญญาตรี 3 สาขา ได้แก่ ฟิสิกส์ วิศวกรรมไฟฟ้า และวิทยาการคอมพิวเตอร์ จากสถาบันเทคโนโลยี Technion Israel และมหาวิทยาลัย Tel Aviv Shahar มุ่งมั่นที่จะนำความรู้ทางเทคโนโลยีจากประสบการณ์อันยาวนานนี้มาใช้ในสมรภูมิคลาวด์เนทีฟในปัจจุบันอย่างเฉียบคมและสร้างสรรค์ที่สุด เพื่อทำให้โลกแห่งการพัฒนาซอฟต์แวร์ดีขึ้น

คลุมดิน เป็นแพลตฟอร์มการตรวจสอบระบบบนคลาวด์ที่ออกแบบมาเพื่อให้ทีมวิศวกรรมสามารถมองเห็นระบบของตนได้อย่างเต็มรูปแบบและแบบเรียลไทม์ โดยไม่ต้องเผชิญกับความซับซ้อนหรือค่าใช้จ่ายของเครื่องมือตรวจสอบแบบดั้งเดิม สร้างขึ้นบนเทคโนโลยี eBPF โดยจะรวบรวมและเชื่อมโยงบันทึก ข้อมูลเมตริก ร่องรอย และเหตุการณ์ต่างๆ ในสภาพแวดล้อมคลาวด์เนทีฟและ Kubernetes โดยไม่ต้องเปลี่ยนแปลงโค้ด ทำให้สามารถวิเคราะห์สาเหตุที่แท้จริงได้เร็วขึ้นและเข้าใจระบบได้ชัดเจนยิ่งขึ้น แพลตฟอร์มนี้เน้นการกำหนดราคาที่คาดการณ์ได้ การปรับใช้ที่ยืดหยุ่นซึ่งเก็บข้อมูลไว้ในคลาวด์ของลูกค้า และการตรวจสอบระบบแบบครบวงจรที่ครอบคลุมโครงสร้างพื้นฐาน แอปพลิเคชัน และเวิร์กโหลดที่ขับเคลื่อนด้วย AI สมัยใหม่

เมื่อมองย้อนกลับไปในเส้นทางการทำงานของคุณ ตั้งแต่การเป็นผู้นำทีมวิจัยและพัฒนาด้านไซเบอร์ในสำนักงานนายกรัฐมนตรีของอิสราเอล ไปจนถึงการบริหารจัดการโครงการแมชชีนเลิร์นนิงที่ Apple ประสบการณ์ใดบ้างที่ผลักดันให้คุณก่อตั้ง Groundcover และคุณเริ่มตระหนักถึงช่องว่างด้านการตรวจสอบระบบ AI สมัยใหม่เมื่อใด

แรงผลักดันในการสร้างระบบตรวจสอบความปลอดภัยมาจากช่วงเวลาที่ผมทำงานที่ Apple และ DayTwo แม้จะมีงบประมาณมหาศาล เราก็ยังติดอยู่กับการเลือกระหว่างการจ่ายเงินก้อนโตเพื่อบันทึกทุกอย่าง หรือการสุ่มตัวอย่างและทำงานโดยไม่รู้ข้อมูลอะไรเลย ในเวลานั้น เรากำลังมองหาเทคโนโลยีที่จะแก้ปัญหานั้น เมื่อเราได้พบกับ Extended Berkeley Packet Filter (eBPF) ก็ชัดเจนว่ามันจะเปลี่ยนทุกอย่าง eBPF ช่วยให้เรามองเห็นทุกสิ่งที่เกิดขึ้นในเคอร์เนลโดยไม่ต้องพึ่งพาการเปลี่ยนแปลงของแอปพลิเคชัน ผมไม่เข้าใจว่าทำไมเครื่องมือตรวจสอบความปลอดภัยจึงไม่ใช้ประโยชน์จากสิ่งนี้ ช่องว่างของ AI ชัดเจนขึ้นในภายหลัง เมื่อแพลตฟอร์ม Kubernetes ของเราเติบโตเต็มที่ เราเห็นลูกค้ารีบเร่งในการใช้งาน GenAI ในขณะที่มอง LLM เหมือนกล่องดำ พวกเขารู้ว่าโมเดลตอบสนอง แต่ไม่รู้ว่าทำไมมันถึงทำงานอย่างคาดเดาไม่ได้ หรือทำไมต้นทุนถึงพุ่งสูงขึ้น เราตระหนักว่าเวิร์กโฟลว์แบบเอเจนต์นั้นเป็นเพียงไมโครเซอร์วิสที่ซับซ้อนและไม่สามารถคาดเดาได้ ซึ่งต้องการการมองเห็นแบบไม่ต้องสัมผัสใดๆ เช่นเดียวกับที่เราได้สร้างไว้แล้ว

ประสบการณ์ของคุณในด้านความปลอดภัยทางไซเบอร์ ระบบฝังตัว และการวิจัยและพัฒนาด้านแมชชีนเลิร์นนิง มีอิทธิพลต่อวิสัยทัศน์เบื้องหลัง Groundcover อย่างไร และคุณเผชิญกับความท้าทายอะไรบ้างในช่วงแรกในการสร้างบริษัทที่มุ่งเน้นด้านการตรวจสอบสำหรับแอปพลิเคชันที่ขับเคลื่อนด้วย LLM และเอเจนต์?

ประสบการณ์ด้านไซเบอร์ของผมหล่อหลอมดีเอ็นเอของบริษัท ในโลกของข่าวกรอง คุณต้องสมมติว่าคุณควบคุมแอปพลิเคชันไม่ได้ นั่นคือเหตุผลที่ Groundcover ไม่จำเป็นต้องใช้เครื่องมือวัด ผมรู้จากประสบการณ์ว่าการขอให้นักพัฒนาแก้ไขโค้ดเป็นวิธีที่เร็วที่สุดในการขัดขวางการใช้งาน ความท้าทายที่ยากที่สุดในช่วงแรกของการตรวจสอบ LLM คือเรื่องความเป็นส่วนตัว การตรวจสอบ AI จะบันทึกข้อความแจ้งเตือนที่อาจมีข้อมูลส่วนบุคคลหรือทรัพย์สินทางปัญญาที่ละเอียดอ่อน ประสบการณ์ของผมทำให้เห็นได้ชัดว่าองค์กรต่างๆ จะไม่ต้องการให้ข้อมูลเหล่านั้นออกจากสภาพแวดล้อมของพวกเขา นั่นคือเหตุผลที่เราสร้างสถาปัตยกรรมบนคลาวด์ ซึ่งช่วยให้เราสามารถมองเห็นพฤติกรรมของเอเจนต์ได้อย่างละเอียด ในขณะที่เก็บข้อมูลทั้งหมดไว้ภายในสภาพแวดล้อมของลูกค้าเอง

คุณนิยามความสามารถในการสังเกตการณ์ของ LLM อย่างไร และอะไรที่ทำให้มันแตกต่างจากการสังเกตการณ์แบบดั้งเดิมหรือการสังเกตการณ์ด้วยแมชชีนเลิร์นนิง?

การตรวจสอบการทำงานของ LLM (Large Language Model) คือการติดตั้งเครื่องมือและตรวจสอบระบบการผลิตที่ใช้โมเดลภาษาขนาดใหญ่ เพื่อให้คุณสามารถบันทึกบริบททั้งหมดของการอนุมานแต่ละครั้งได้ ไม่ว่าจะเป็นข้อความแจ้ง บริบท การเสร็จสิ้น การใช้งานโทเค็น ความหน่วง ข้อผิดพลาด เมตาเดต้าของโมเดล และโดยอุดมคติแล้วคือสัญญาณตอบรับหรือสัญญาณคุณภาพในขั้นตอนถัดไป แทนที่จะถามเพียงแค่ว่า “บริการทำงานได้เร็วหรือไม่” หรือ “คำขอเกิดข้อผิดพลาดหรือไม่” การตรวจสอบการทำงานของ LLM ช่วยให้คุณตอบคำถามเช่น “เหตุใดคำขอเฉพาะนี้จึงสำเร็จหรือล้มเหลว” “เกิดอะไรขึ้นจริง ๆ ภายในเวิร์กโฟลว์หลายขั้นตอน” และ “การเปลี่ยนแปลงข้อความแจ้ง บริบท หรือเวอร์ชันของโมเดลส่งผลต่อต้นทุน ความหน่วง และคุณภาพของผลลัพธ์อย่างไร” ซึ่งแตกต่างอย่างมากจากการตรวจสอบแบบดั้งเดิม หรือแม้แต่การตรวจสอบ ML แบบคลาสสิก วิธีการแบบเดิมได้รับการปรับแต่งสำหรับระบบที่กำหนดได้ เมตริกโครงสร้างพื้นฐาน และเกณฑ์คงที่ แอปพลิเคชัน LLM นั้นไม่สามารถกำหนดได้ เปิดกว้าง และขึ้นอยู่กับบริบทอย่างมาก ความสำเร็จมักเป็นเรื่องของความหมายและอัตวิสัย ไม่ใช่แค่รหัสสถานะ 200 เทียบกับ 500 เท่านั้น นั่นหมายความว่าคุณต้องติดตามอินพุตและเอาต์พุต เข้าใจการเรียกใช้เครื่องมือและขั้นตอนการดึงข้อมูล ประเมินการตอบสนองสำหรับสิ่งต่างๆ เช่น ภาพหลอนหรือการละเมิดนโยบาย และเชื่อมโยงต้นทุนและความล่าช้าในระดับโทเค็นกลับไปยังแอปพลิเคชันและโครงสร้างพื้นฐานโดยรอบ

แอปพลิเคชันที่ขับเคลื่อนด้วย LLM ก่อให้เกิดความท้าทายอะไรบ้างที่ทำให้เครื่องมือตรวจสอบแบบดั้งเดิมไม่เพียงพอ?

ระบบที่ขับเคลื่อนด้วย LLM ก่อให้เกิดความท้าทายหลายประการที่เผยให้เห็นข้อจำกัดของเครื่องมือแบบดั้งเดิม:

เวิร์กโฟลว์ที่ซับซ้อนและหลายขั้นตอน – เราเปลี่ยนจากการทำงานแบบง่ายๆ “เรียกใช้โมเดล รับการตอบกลับ” ไปสู่เอเจนต์แบบหลายรอบ กระบวนการทำงานหลายขั้นตอน การสร้างข้อมูลที่เสริมด้วยการดึงข้อมูล และการใช้เครื่องมือ ความล้มเหลวที่เกิดขึ้นโดยไม่แสดงอาการในขั้นตอนใดๆ เหล่านั้น เช่น การดึงข้อมูล การเสริมข้อมูล การฝังข้อมูล การเรียกใช้เครื่องมือ หรือการเรียกใช้โมเดล อาจทำให้ประสบการณ์การใช้งานทั้งหมดหยุดชะงักได้ การตรวจสอบแบบดั้งเดิมมักไม่ให้มุมมองที่สมบูรณ์ในระดับการติดตามของห่วงโซ่เหล่านั้น รวมถึงข้อความแจ้งเตือนและการตอบกลับด้วย
สแต็ก AI ที่พัฒนาอย่างรวดเร็ว – ทีมต่างๆ กำลังเพิ่มโมเดล เครื่องมือ และผู้จำหน่ายรายใหม่ๆ ในอัตราที่ไม่เคยมีมาก่อน ในหลายบริษัท ไม่มีใครสามารถระบุได้อย่างมั่นใจว่าโมเดลใดบ้างที่ใช้งานอยู่ในแต่ละช่วงเวลา การตรวจสอบแบบดั้งเดิมมักจะสันนิษฐานว่าคุณมีเวลาในการติดตั้ง SDK ปรับใช้ใหม่ และคัดกรองสิ่งที่คุณวัดอย่างระมัดระวัง ซึ่งวิธีการนั้นไม่สามารถตามทันความเร็วในการนำ AI มาใช้ได้เลย
เศรษฐศาสตร์แบบใช้โทเค็นและโควตา – การกำหนดราคาและข้อจำกัดด้านอัตราการใช้งานนั้นผูกติดอยู่กับจำนวนโทเค็นและความยาวของบริบท ซึ่งมักถูกควบคุมโดยนักพัฒนา ข้อความแจ้งเตือน หรือพฤติกรรมของผู้ใช้ ไม่ใช่โดยฝ่ายปฏิบัติการส่วนกลาง เครื่องมือแบบดั้งเดิมไม่ได้ถูกสร้างมาเพื่อแสดงให้คุณเห็นว่า “ใครใช้โทเค็นไปกี่โทเค็นในโมเดลใด สำหรับเวิร์กโฟลว์ใด และด้วยความหน่วงเวลาเท่าใด”
ความถูกต้องทางความหมายแทนที่จะเป็นความสำเร็จแบบไบนารี – LLM อาจส่งค่า 200 กลับมาได้ แต่ก็ยังคงมีอาการประสาทหลอน พูดนอกเรื่อง หรือละเมิดนโยบายได้ เครื่องมือแบบดั้งเดิมมองว่านั่นคือความสำเร็จ คุณจำเป็นต้องมีระบบสังเกตการณ์ที่สามารถแสดงคำถามและคำตอบ และให้บริบทที่เพียงพอสำหรับการตรวจสอบพฤติกรรม และเมื่อเวลาผ่านไป ก็สามารถเพิ่มการตรวจสอบคุณภาพอัตโนมัติเข้าไปได้
ข้อมูลป้อนเข้าที่มีความละเอียดอ่อนซึ่งไหลเข้าสู่บุคคลที่สาม – LLM เชิญชวนให้ผู้ใช้แบ่งปันข้อมูลที่ละเอียดอ่อนมากผ่านอินเทอร์เฟซแบบแชท ซึ่งหมายความว่าคุณต้องรับผิดชอบต่อข้อมูลนั้น สถานที่จัดเก็บ และผู้ให้บริการรายใดบ้างที่จะเห็นข้อมูลนั้น การตรวจสอบแบบ SaaS ทั่วไปที่ส่งข้อมูลการวัดทั้งหมดไปยังบุคคลที่สามมักไม่เหมาะสมกับปริมาณงานเหล่านี้

ทั้งหมดนี้หมายความว่าระบบ LLM ต้องการความสามารถในการสังเกตการณ์ที่คำนึงถึง AI มีบริบทที่สมบูรณ์ และพึ่งพาการตรวจสอบด้วยตนเองน้อยกว่าเครื่องมือที่ทีมส่วนใหญ่ใช้ในปัจจุบัน

สัญญาณหรือตัวชี้วัดใดมีความสำคัญที่สุดในการทำความเข้าใจประสิทธิภาพและคุณภาพของระบบ LLM ซึ่งรวมถึงความหน่วงแฝง การใช้งานโทเค็น และพฤติกรรมการตอบกลับ/แจ้งเตือน?

มีสัญญาณอยู่ไม่กี่ประเภทที่มีความสำคัญอย่างมากในทางปฏิบัติ:

ความหน่วงและปริมาณงาน

เวลาแฝงทั้งหมดต่อคำขอ รวมถึงเวลาของโมเดลและเวลาของแอปพลิเคชันโดยรอบ
ค่าความหน่วงของหาง (P90, P95, P99) ต่อโมเดลและต่อเวิร์กโฟลว์
ปริมาณงานแยกตามรุ่น เส้นทาง และบริการ เพื่อให้คุณทราบว่าภาระงานส่วนใหญ่ไปอยู่ที่ใด

การใช้งานโทเค็นและปัจจัยด้านต้นทุน

จำนวนโทเค็นขาเข้าและขาออกต่อคำขอ โดยแยกตามรุ่น
ปริมาณการใช้โทเค็นโดยรวมเมื่อเวลาผ่านไป จำแนกตามโมเดล ทีม ผู้ใช้ และเวิร์กโฟลว์
ขนาดบริบทสำหรับไปป์ไลน์ที่มีการดึงข้อมูลจำนวนมาก เพื่อให้คุณเห็นว่าเมื่อใดที่ข้อความแจ้งเตือนมีขนาดใหญ่เกินไป
นี่คือสิ่งที่ช่วยให้คุณตอบคำถามได้ว่า “ใครเป็นผู้ใช้จ่ายเงินงบประมาณด้าน AI ของเรา และใช้ไปกับอะไรบ้าง?”

พฤติกรรมการตอบสนองอย่างรวดเร็ว

ข้อมูลการส่งและรับข้อความจริงในตัวอย่างการติดตาม รวมถึงการเรียกใช้เครื่องมือและเส้นทางการให้เหตุผล
หลักสูตร LLM เลือกใช้เครื่องมืออะไรบ้าง และเรียงลำดับอย่างไร
ความแตกต่างของคำตอบสำหรับคำถามที่คล้ายคลึงกัน ช่วยให้คุณสามารถบอกได้ว่าพฤติกรรมนั้นมีความคงที่มากน้อยเพียงใด

ความน่าเชื่อถือและข้อผิดพลาด

อัตราและประเภทของข้อผิดพลาดเฉพาะรุ่น (ข้อผิดพลาดจากผู้ให้บริการ, การหมดเวลา, ปัญหาการตรวจสอบสิทธิ์, ข้อผิดพลาดเกี่ยวกับโควต้า)
ความล้มเหลวในขั้นตอนการทำงานโดยรอบ เช่น เครื่องมือหมดเวลาหรือข้อผิดพลาดในการเรียกค้นข้อมูล มีความสัมพันธ์กับการเรียกใช้ LLM

บริบทโครงสร้างพื้นฐานแบบคลาสสิก

เมตริก CPU หน่วยความจำ และเครือข่ายของคอนเทนเนอร์สำหรับบริการที่จัดการการเรียกใช้ LLM ของคุณ
บันทึกข้อมูลที่สัมพันธ์กันซึ่งอธิบายว่าแอปพลิเคชันพยายามทำอะไร

เมื่อคุณสามารถเห็นทุกอย่างได้ในที่เดียว ความสามารถในการตรวจสอบของ LLM จะเปลี่ยนจาก “ฉันรู้ว่าบางอย่างทำงานช้าหรือมีค่าใช้จ่ายสูง” ไปเป็น “ฉันรู้แน่ชัดว่าโมเดล รูปแบบการแจ้งเตือน และบริการใดเป็นสาเหตุ และเพราะเหตุใด”

การตรวจสอบช่วยให้ทีมตรวจจับความล้มเหลวที่เกิดขึ้นอย่างเงียบๆ ได้อย่างไร เช่น การเปลี่ยนแปลงอย่างฉับพลัน ภาพหลอน หรือคุณภาพผลลัพธ์ที่ลดลงอย่างค่อยเป็นค่อยไป?

ความล้มเหลวแบบเงียบๆ ในระบบ LLM มักเกิดขึ้นเมื่อทุกอย่างดู "ปกติดี" ในระดับโครงสร้างพื้นฐาน แต่พฤติกรรมที่แท้จริงกลับเปลี่ยนแปลงไป การตรวจสอบช่วยได้หลายวิธี:

ติดตามขั้นตอนการทำงานทั้งหมด ไม่ใช่แค่การเรียกใช้โมเดล – การบันทึกเส้นทางทั้งหมดของการร้องขอจากไคลเอ็นต์ไปยังบริการ การดึงข้อมูล การสร้างแบบจำลอง และการใช้เครื่องมือ จะช่วยให้คุณเห็นว่าพฤติกรรมเปลี่ยนแปลงไปที่ใด ตัวอย่างเช่น การดึงข้อมูลอาจส่งคืนเอกสารน้อยลง หรือการเรียกใช้เครื่องมือล้มเหลวเป็นระยะ และแบบจำลองกำลังปรับปรุงแก้ไขเฉพาะหน้า
โดยคำนึงถึงคำถาม บริบท และการตอบสนองอยู่เสมอ – เมื่อคุณสามารถตรวจสอบข้อความแจ้งเตือนและการตอบสนองควบคู่ไปกับข้อมูลการติดตามได้ จะทำให้การระบุกรณีที่เวอร์ชันข้อความแจ้งเตือนใหม่ คำสั่งระบบใหม่ หรือแหล่งบริบทใหม่ เปลี่ยนแปลงพฤติกรรมได้ง่ายขึ้นมาก แม้ว่าความหน่วงและอัตราข้อผิดพลาดจะยังคงเท่าเดิมก็ตาม
การกรองและการแบ่งส่วนตามเงื่อนไขทางความหมาย – เมื่อคุณมีข้อมูลการวัดระยะทางของ LLM ที่ครบถ้วนแล้ว คุณสามารถกรองข้อมูลลงไปถึงรายละเอียดต่างๆ เช่น “การเรียกใช้ฐานระบบที่นานกว่าหนึ่งวินาที”, “คำขอที่ใช้ตระกูลโมเดลนี้” หรือ “ร่องรอยที่เกี่ยวข้องกับเส้นทางเฉพาะนี้” จากนั้นอ่านข้อความแจ้งและคำตอบเพื่อดูว่าโมเดลมีการเบี่ยงเบนหรือเกิดภาพหลอนในสถานการณ์เฉพาะหรือไม่
การแจ้งเตือนเกี่ยวกับ SLO ระดับธุรกิจ – คุณสามารถกำหนด SLO ได้ เช่น “การเรียกใช้ LLM เกินหนึ่งวินาทีถือเป็นการละเมิด SLA ที่ผู้ใช้ต้องปฏิบัติตาม” และตั้งค่าการแจ้งเตือนเมื่อตรงตามเงื่อนไขเหล่านั้น เมื่อเวลาผ่านไป SLO ที่คล้ายกันนี้สามารถเชื่อมโยงกับคะแนนคุณภาพหรือการตรวจสอบนโยบายได้ เพื่อให้คุณได้รับการแจ้งเตือนเมื่อคุณภาพลดลง ไม่ใช่แค่เมื่อโครงสร้างพื้นฐานล้มเหลวเท่านั้น

เนื่องจากเลเยอร์การสังเกตการณ์สามารถเข้าถึงทั้งสัญญาณเฉพาะของ AI และบันทึกข้อมูล ตัวชี้วัด และร่องรอยแบบดั้งเดิม จึงกลายเป็นสถานที่ที่เหมาะสมในการตรวจจับปัญหาที่อาจส่งผลเสียต่อประสบการณ์ของผู้ใช้โดยที่เราไม่รู้ตัว

แนวทางของ Groundcover สนับสนุนการวินิจฉัยความล่าช้าที่ไม่สามารถคาดเดาได้หรือพฤติกรรมที่ไม่คาดคิดภายในเวิร์กโฟลว์เอเจนต์หลายขั้นตอนและการเรียกใช้เครื่องมือได้อย่างไร

groundcover ใช้แนวทางที่ออกแบบมาสำหรับระบบ AI สมัยใหม่ เราใช้เซนเซอร์ที่ใช้ eBPF ในระดับเคอร์เนลเพื่อสังเกตการรับส่งข้อมูลระหว่างไมโครเซอร์วิสโดยไม่ต้องเปลี่ยนแปลงโค้ดหรือปรับใช้ใหม่ ทันทีที่คุณนำเวิร์กโฟลว์ LLM มาใช้ เราสามารถค้นหาการเรียกใช้งานเหล่านั้นได้โดยอัตโนมัติ หากคุณเริ่มใช้โมเดลใหม่ เช่น Anthropic, OpenAI หรือ Bedrock ในวันพรุ่งนี้ groundcover จะจับการรับส่งข้อมูลเหล่านั้นโดยอัตโนมัติ ซึ่งจะทำให้คุณได้รับ:

การติดตามการทำงานแบบหลายขั้นตอนตั้งแต่ต้นจนจบ – คุณจะเห็นเส้นทางทั้งหมดของการร้องขอผ่านบริการต่างๆ รวมถึงตำแหน่งที่ใช้ LLM หรือเครื่องมืออื่นๆ
บริบทเชิงลึกของการโทร LLM แต่ละครั้ง – ทุกการเรียกใช้งานจะรวมถึงโมเดลที่ใช้ เวลาแฝง การใช้โทเค็น ข้อความแจ้งเตือน การตอบสนอง และบันทึกที่เกี่ยวข้อง ตลอดจนเมตริกโครงสร้างพื้นฐาน
การกรองที่มีประสิทธิภาพสูงโดยพิจารณาจากความหน่วงและเงื่อนไขต่างๆ – ตัวอย่างเช่น คุณสามารถกรองหาการเรียกใช้ Claude 3.5 ทั้งหมดที่ใช้เวลานานกว่าหนึ่งวินาที และตรวจสอบร่องรอยที่ละเมิด SLA ของคุณได้ทันที
การแจ้งเตือนและแดชบอร์ดที่เชื่อมโยงกับพฤติกรรม LLM – เมื่อมีข้อมูลพร้อมแล้ว คุณสามารถสร้างการแจ้งเตือนสำหรับการละเมิด SLA หรือสร้างแดชบอร์ดที่ติดตามความหน่วงแฝง ปริมาณงาน การใช้งานโทเค็น และข้อผิดพลาดได้

เนื่องจาก eBPF รวบรวมข้อมูลทั้งหมดที่ขอบเครือข่ายและจัดเก็บไว้ในคลาวด์ของคุณเอง คุณจึงได้รับมุมมองที่มีความละเอียดสูงโดยไม่ต้องเพิ่มเครื่องมือวัดภายในเอเจนต์หรือการเรียกใช้เครื่องมือแต่ละครั้ง

คุณมองเห็นความเสี่ยงด้านความปลอดภัยของข้อมูลและการปฏิบัติตามกฎระเบียบอะไรบ้างที่อาจเกิดขึ้นในการใช้งาน LLM และการตรวจสอบติดตามจะช่วยลดความเสี่ยงเหล่านั้นได้อย่างไร?

การใช้งาน LLM นำมาซึ่งความเสี่ยงด้านข้อมูลที่ไม่เหมือนใคร:

การป้อนข้อมูลของผู้ใช้แบบไม่จำกัด – ผู้ใช้สามารถป้อนข้อมูลที่ละเอียดอ่อนอย่างยิ่งลงในแชทบอทและอินเทอร์เฟซที่ขับเคลื่อนด้วย AI ซึ่งอาจรวมถึงข้อมูลส่วนบุคคล ข้อมูลลูกค้า หรือข้อมูลที่อยู่ภายใต้ข้อกำหนดที่คุณไม่ได้ตั้งใจจะเก็บรวบรวม
ผู้ให้บริการโมเดลจากภายนอก – เมื่อคุณส่งข้อมูลนั้นไปยังผู้ให้บริการ LLM ภายนอก คุณจะต้องรับผิดชอบต่อว่าข้อมูลนั้นไปอยู่ที่ไหน จัดเก็บอย่างไร และมีผู้ประมวลผลย่อยรายใดบ้างที่เกี่ยวข้อง ซึ่งส่งผลกระทบอย่างมากต่อ GDPR การจัดเก็บข้อมูลในประเทศ และความไว้วางใจของลูกค้า
ระบบส่งข้อมูลทางไกล (Telemetry) เป็นสำเนาที่สองของข้อมูลสำคัญ – หากระบบตรวจสอบการทำงานของคุณส่งข้อมูลทั้งหมดไปยังผู้ให้บริการ SaaS คุณก็จะมีสำเนาข้อมูลสำคัญนั้นอีกชุดหนึ่งอยู่นอกสภาพแวดล้อมของคุณ

โครงสร้างทางสถาปัตยกรรมของพืชคลุมดินได้รับการออกแบบมาเพื่อแก้ไขข้อกังวลเหล่านั้นโดยเฉพาะ:

เราใช้โมเดล Bring Your Own Cloud (BRO) โดยที่ระบบตรวจสอบและเฝ้าระวังทั้งหมดจะทำงานอยู่ภายในบัญชีคลาวด์ของคุณ ในบัญชีย่อย ในรูปแบบของ Data Plane ที่ได้รับการจัดการอย่างเต็มรูปแบบ ส่วน Control Plane ที่ทำหน้าที่ปรับขนาดและจัดการระบบนั้น เราเป็นผู้ดูแล แต่เราจะไม่เข้าถึง จัดเก็บ หรือประมวลผลข้อมูล Telemetry ของคุณ
เนื่องจากเราสามารถบันทึกข้อมูลได้อย่างปลอดภัยในสภาพแวดล้อมของคุณเอง คุณจึงสามารถสังเกตข้อความแจ้งเตือน การตอบสนอง และขั้นตอนการทำงานได้โดยที่ข้อมูลเหล่านั้นไม่ถูกส่งออกจากระบบคลาวด์ของคุณ ไม่มีการจัดเก็บข้อมูลการติดตาม LLM ของคุณโดยบุคคลที่สาม และไม่ต้องกังวลเรื่องการส่งออกข้อมูลเพิ่มเติม
ด้วยความสามารถในการมองเห็นภาพรวมนี้ คุณจะสามารถดูได้ว่าใครกำลังอัปโหลดอะไรและข้อมูลไหลไปที่ใด ตรวจจับการใช้งานข้อมูลที่ละเอียดอ่อนโดยไม่คาดคิด และบังคับใช้นโยบายเกี่ยวกับโมเดลและภูมิภาคที่ได้รับอนุญาต

กล่าวอีกนัยหนึ่ง ความสามารถในการตรวจสอบได้กลายเป็นเครื่องมือที่ไม่เพียงแต่ช่วยเพิ่มความน่าเชื่อถือและลดต้นทุนเท่านั้น แต่ยังเป็นจุดควบคุมที่สำคัญสำหรับความเป็นส่วนตัว การจัดเก็บข้อมูลในประเทศ และการปฏิบัติตามกฎระเบียบอีกด้วย

เมื่อองค์กรขยายขนาดจากการผสานรวม LLM เพียงหนึ่งเดียวไปสู่บริการที่ขับเคลื่อนด้วย AI จำนวนมาก ความท้าทายในการดำเนินงานด้านใดบ้างที่มักปรากฏขึ้นเกี่ยวกับความสามารถในการมองเห็น ความน่าเชื่อถือ และต้นทุน?

การผสานรวมครั้งแรกมักจะเป็นโมเดลเดียวในเวิร์กโฟลว์เดียว ในขั้นตอนนี้ ทุกอย่างดูเหมือนจะจัดการได้ง่าย แต่เมื่อทีมเห็นคุณค่า การใช้งานก็จะเพิ่มขึ้นอย่างรวดเร็ว และความท้าทายหลายประการก็จะปรากฏขึ้น:

การขยายตัวของแบบจำลองและผู้ขาย – ทีมงานทดสอบโมเดลใหม่ๆ อย่างต่อเนื่อง ทำให้ไม่แน่ชัดว่าโมเดลใดบ้างที่ถูกนำไปใช้งานจริง และใช้งานอย่างไร
ค่าใช้จ่ายที่ไม่คาดคิดจากการใช้งานโทเค็น – การใช้โทเค็นจะเพิ่มขึ้นตามความยาวของบริบทและความซับซ้อนของเวิร์กโฟลว์ หากไม่มีข้อมูลเชิงลึกเกี่ยวกับการใช้โทเค็นต่อโมเดลและเวิร์กโฟลว์ การจัดการต้นทุนจึงทำได้ยากมาก
การพึ่งพาความน่าเชื่อถือจากผู้ให้บริการภายนอก – API ที่ผู้ใช้ใช้งานโดยตรงจะมีความอ่อนไหวต่อความล่าช้าหรือข้อผิดพลาดของโมเดล ซึ่งอาจส่งผลกระทบต่อ SLA แม้ว่าโครงสร้างพื้นฐานหลักจะทำงานได้ดีก็ตาม
หนี้สินด้านเครื่องมือวัดที่เพิ่มขึ้น – การตรวจสอบแบบดั้งเดิมนั้นตั้งอยู่บนสมมติฐานว่าคุณสามารถเพิ่มเครื่องมือตรวจสอบได้เมื่อจำเป็น แต่ในระบบ AI ที่เปลี่ยนแปลงอย่างรวดเร็ว นักพัฒนาแทบไม่มีเวลาทำเช่นนั้นเลย

แอปพลิเคชัน groundcover แก้ปัญหาเหล่านี้โดยการตรวจจับปริมาณการจราจรด้วย AI โดยอัตโนมัติ แล้วแสดงผลลัพธ์ดังนี้:

สามารถตรวจสอบได้อย่างชัดเจนว่าใช้โมเดลและผู้จำหน่ายรายใดบ้าง
แดชบอร์ดแสดงค่าความหน่วงแฝง ปริมาณงาน และการใช้โทเค็นเมื่อเวลาผ่านไป
ความสัมพันธ์ระหว่างพฤติกรรม LLM และบริการที่ขึ้นอยู่กับพฤติกรรมนั้น
การแจ้งเตือนสำหรับการละเมิด SLO ที่ขับเคลื่อนด้วย AI

นั่นทำให้การขยายขอบเขตจาก “ฟีเจอร์ AI สุดเจ๋งเพียงอย่างเดียว” ไปสู่ “การผสาน AI เข้ากับบริการสำคัญหลายสิบรายการ” ทำได้ง่ายขึ้นมาก โดยไม่สูญเสียการควบคุม

เมื่อมองไปข้างหน้า คุณคาดหวังว่าการตรวจสอบ LLM จะพัฒนาไปอย่างไรในอีกห้าปีข้างหน้า ในขณะที่ AI แบบตัวแทน การจัดการแบบหลายโมเดล และแรงกดดันด้านกฎระเบียบเพิ่มสูงขึ้น?

เราเพิ่งเริ่มต้นเท่านั้น ในอีกห้าปีข้างหน้า ผมคาดว่าจะมีการเปลี่ยนแปลงครั้งใหญ่หลายอย่าง:

ตั้งแต่ระดับคำขอไปจนถึงความเข้าใจในระดับตัวแทน – ความสามารถในการสังเกตการณ์จะขยายขอบเขตไปครอบคลุมลำดับการทำงานของเครื่องมือ เส้นทางการให้เหตุผล และตรรกะการลองใหม่ ไม่ใช่แค่การเรียกใช้โมเดลเท่านั้น
สัญญาณเชิงความหมายและนโยบายที่สมบูรณ์ยิ่งขึ้น – การตรวจสอบคุณภาพอัตโนมัติสำหรับภาพหลอน ปัญหาด้านความปลอดภัย และความสอดคล้องกับแบรนด์ จะกลายเป็นมาตรฐานการวัดผล
การเชื่อมโยงที่แน่นแฟ้นยิ่งขึ้นระหว่างการกำกับดูแลและความเป็นส่วนตัว – เมื่อกฎระเบียบเพิ่มมากขึ้น ความสามารถในการตรวจสอบจะทำหน้าที่เป็นเครื่องมือบังคับใช้และตรวจสอบความถูกต้องของข้อมูลในด้านการจัดเก็บ การเก็บรักษา และการใช้งานโมเดลที่ได้รับอนุมัติด้วย
การเพิ่มประสิทธิภาพข้ามโมเดลและจากผู้จำหน่ายหลายราย – ทีมงานจะกำหนดเส้นทางการรับส่งข้อมูลระหว่างโมเดลต่างๆ แบบไดนามิก โดยพิจารณาจากประสิทธิภาพและต้นทุน โดยอาศัยข้อมูลการตรวจสอบแบบเรียลไทม์เป็นแนวทาง
ใช้เครื่องมือวัดแบบแมนนวลน้อยลง – เทคนิคต่างๆ เช่น การรวบรวมข้อมูลโดยใช้ eBPF และการค้นหาอัตโนมัติ จะกลายเป็นมาตรฐาน ทำให้ทีมต่างๆ สามารถสร้างสรรค์นวัตกรรมได้โดยไม่ต้องเสียเวลาเพิ่มขึ้น

กล่าวโดยสรุป การตรวจสอบการทำงานของ LLM จะพัฒนาจาก “แดชบอร์ดที่ควรมีสำหรับ AI” ไปสู่ระบบประสาทส่วนกลางที่เชื่อมโยงความน่าเชื่อถือ การควบคุมต้นทุน การกำกับดูแลข้อมูล และคุณภาพของผลิตภัณฑ์ในทุกสิ่งที่องค์กรดำเนินการเกี่ยวกับ AI

ขอบคุณสำหรับบทสัมภาษณ์ที่ดี ผู้อ่านที่ต้องการเรียนรู้เพิ่มเติมควรเยี่ยมชม คลุมดิน.

หัวข้อที่เกี่ยวข้อง:คลุมดิน สัมภาษณ์

อองตวน ทาร์ดิฟ

อองตวนเป็นผู้นำที่มีวิสัยทัศน์และหุ้นส่วนผู้ก่อตั้ง Unite.AI ผู้เปี่ยมด้วยความมุ่งมั่นอย่างไม่ลดละในการกำหนดและส่งเสริมอนาคตของ AI และหุ่นยนต์ เขาเป็นผู้ประกอบการต่อเนื่องที่เชื่อว่า AI จะสร้างการเปลี่ยนแปลงครั้งใหญ่ให้กับสังคมเช่นเดียวกับพลังงานไฟฟ้า และมักถูกพูดถึงอย่างออกรสออกชาติเกี่ยวกับศักยภาพของเทคโนโลยีที่พลิกโฉมและ AGI

ในฐานะที่เป็น ผู้เป็นเจ้ายังมาไม่ถึงเขาอุทิศตนเพื่อสำรวจว่านวัตกรรมเหล่านี้จะกำหนดโลกของเราอย่างไร นอกจากนี้ เขายังเป็นผู้ก่อตั้ง หลักทรัพย์.ioแพลตฟอร์มที่มุ่งเน้นการลงทุนในเทคโนโลยีล้ำสมัยที่กำลังกำหนดอนาคตใหม่และปรับเปลี่ยนรูปแบบภาคส่วนต่างๆ ทั้งหมด

ยูไนเต็ด.เอไอ

ชาฮาร์ อะซูเลย์ ซีอีโอและผู้ร่วมก่อตั้งบริษัท Groundcover

คุณอาจชอบ