ปัญญาประดิษฐ์
Agentic SRE: วิธีการสร้าง Infrastructure ที่สามารถฟื้นตัวได้ด้วยตนเอง โดยใช้ Agent ที่มีความสามารถในการให้เหตุผล

ระบบ IT ขององค์กรได้พัฒนาไปสู่จุดที่การดำเนินงานโดยมนุษย์ไม่สามารถตามทันความต้องการได้แล้ว ไมโครเซอร์วิส เอดจ์คอมพิวติ้ง และ 5G ได้เพิ่มความซับซ้อนและโหมดการล้มเหลว ทำให้การโต้ตอบของผู้ใช้สามารถส่งผลกระทบต่อหลาย ๆ เซอร์วิส ในทางกลับกัน ระบบจะสร้างลอگ เมทริกซ์ และเทรซที่มากเกินไปในเวลาเพียงไม่กี่วินาที ดังนั้น วิศวกรจึงต้องเผชิญกับ “กำแพงการตรวจสอบ” ซึ่งการแก้ไขการแจ้งเตือนหนึ่งครั้งจะตามมาด้วยการแจ้งเตือนหลายร้อยครั้งที่ต้องการความสนใจ
ในช่วงปี 2024 และ 2025 การเติบโตของข้อมูลทีเลเมทรีได้ท้าทายแนวปฏิบัติของ Site Reliability Engineering (SRE) แบบดั้งเดิม การเหนื่อยหน่ายจากการแจ้งเตือนและการตอบสนองต่อการแจ้งเตือนช้าลง ทีมงานต้องเผชิญกับปัญหาในการมองเห็นที่สมบูรณ์แบบ แต่ไม่สามารถควบคุมระบบได้ดีขึ้น นอกจากนี้ การแทรกแซงด้วยมือ สคริปต์ที่ไม่เปลี่ยนแปลง และการทำงานแบบตั๋วไม่สามารถจัดการกับความซับซ้อนของระบบสมัยใหม่ได้ การล้มเหลวไม่ตามรูปแบบที่คาดการณ์ได้ และไมโครเซอร์วิสโต้ตอบกันอย่างไดนามิก ในขณะที่โหนดเอดจ์เปลี่ยนสถานะอย่างต่อเนื่อง
ความก้าวหน้าทางฮาร์ดแวร์ เช่น อาร์คิเทคเจอร์ Rubin ของ NVIDIA ทำให้เอเย่นต์ที่มีความสามารถในการให้เหตุผลเป็นไปได้ในการใช้งานขนาดใหญ่ องค์กรต่างๆ ได้รับการนำ Agentic SRE ไปใช้ในปี 2026 โดยที่เอเย่นต์ฉลาดรับผิดชอบต่อผลลัพธ์ของความน่าเชื่อถือ เอเย่นต์เหล่านี้วิเคราะห์สถานะของระบบอย่างต่อเนื่อง ใช้การบำบัด และตรวจสอบผลลัพธ์ นอกจากนี้ วิศวกรยังเน้นไปที่การกำหนดนโยบาย การตั้งค่าพารามิเตอร์ และการกำหนดจุดประสงค์ทางธุรกิจ ดังนั้น วิธีการนี้จึงสร้างโครงสร้างพื้นฐานที่สามารถฟื้นตัวได้ด้วยตนเอง และเปลี่ยนแปลงสิ่งที่ AIOps ขององค์กรสามารถทำได้ในสภาพแวดล้อมที่มีการใช้งานตลอดเวลา
Agentic SRE คืออะไร ตั้งแต่การอัตโนมัติที่มีสคริปต์ไปสู่เอเย่นต์ที่มีความสามารถในการให้เหตุผล
ก่อนที่จะตรวจสอบข้อจำกัดของแนวปฏิบัติที่มีอยู่แล้ว มันจำเป็นต้องชี้แจงว่าสิ่งใดที่ทำให้ Agentic SRE แตกต่างจากแบบจำลองการอัตโนมัติที่ใช้ในสภาพแวดล้อมขององค์กร
ทำไมหลักการ SRE คลาสสิกจึงไม่เพียงพออีกต่อไป
การปฏิบัติงาน SRE แบบดั้งเดิมพึ่งพา Service Level Objectives และ runbooks ที่กำหนดไว้ล่วงหน้าเพื่อรักษาความน่าเชื่อถือของระบบ เมื่อเมตริกตัดผ่านขอบเขตที่กำหนดไว้ วิศวกรจะเข้าแทรกแซง ในบางกรณี สคริปต์จะดำเนินการแก้ไขที่กำหนดไว้ล่วงหน้า วิธีการนี้ทำงานได้ดีในสภาพแวดล้อมที่พฤติกรรมของระบบยังคงเสถียรและคาดการณ์ได้ตลอดเวลา
อย่างไรก็ตาม ระบบขององค์กรได้เปลี่ยนแปลงไปอย่างมาก ไมโครเซอร์วิสโต้ตอบกันอย่างไดนามิกข้ามแพลตฟอร์มที่กระจายความซับซ้อน การพึ่งพาเปลี่ยนแปลงบ่อย ดังนั้น พฤติกรรมของระบบจึงยากต่อการคาดการณ์ การล้มเหลวบ่อยครั้งปรากฏขึ้นโดยไม่มีรูปแบบที่ทราบก่อนหน้านี้ ดังนั้น การอัตโนมัติที่มีสคริปต์จึงต่อสู้เพื่อตอบสนองอย่างมีประสิทธิภาพ สคริปต์ที่กำหนดไว้ล่วงหน้าจัดการกับสภาพการณ์ที่ทราบเท่านั้น และไม่สามารถปรับตัวเมื่อเหตุการณ์เบี่ยงเบนไปจากสถานการณ์ที่คาดหวัง
การกำหนด Agentic ในบริบทของ Site Reliability Engineering
โดยคำนึงถึงข้อจำกัดเหล่านี้ Agentic SRE นำเสนอมอดेलการดำเนินการที่แตกต่าง แทนที่จะตอบสนองต่อการแจ้งเตือนแบบแยกกัน เอเย่นต์ฉลาดให้เหตุผลเกี่ยวกับบริบทของระบบทั้งหมด เอเย่นต์เหล่านี้ใช้การให้เหตุผลแบบ Chain of Thought กับลอกรายการ เมตริกซ์ และข้อมูลเหตุการณ์ประวัติศาสตร์ ดังนั้น การตัดสินใจในการบำบัดจึงเกิดขึ้นจากการวิเคราะห์มากกว่ากฎที่กำหนดไว้ล่วงหน้า
Agentic SRE เทียบกับ AIOps แบบดั้งเดิม: สิ่งที่แตกต่าง
ทำไม AIOps ที่มีประวัติไม่สามารถแก้ไขปัญหาการตอบสนองต่อเหตุการณ์ได้
AIOps แบบดั้งเดิมหรือ AIOps 1.0 มุ่งเน้นไปที่การรู้จำรูปแบบและการจัดกลุ่มการแจ้งเตือน มันลดเสียงรบกวนและปรับปรุงความสามารถในการมองเห็น แต่ทีมงานของมนุษย์ยังคงรับผิดชอบต่อการบำบัด ระบบเหล่านี้สามารถระบุความล้มเหลวและเน้นย้ำถึงสาเหตุที่เป็นไปได้ แต่ไม่สามารถแก้ไขเหตุการณ์ได้ด้วยตนเอง วิศวกรยังคงต้องตีความคำแนะนำและดำเนินการ ซึ่งรักษาการตอบสนองให้เป็นแบบตอบสนอง
Agentic AIOps: การปิดลูปการดำเนินการ
Agentic AIOps เสริมขีดจำกัดของระบบที่มีอยู่โดยการรวมการวิเคราะห์กับการดำเนินการ เอเย่นต์ฉลาดดำเนินการตามสัญญาณที่ได้รับการยืนยัน แทนที่จะหยุดอยู่ที่คำแนะนำ โดยใช้ Large Action Models เอเย่นต์สามารถดำเนินการบำบัดที่มีโครงสร้างข้ามแอปพลิเคชันและโครงสร้างพื้นฐาน โดยเปลี่ยนการตรวจสอบเป็นการดำเนินการควบคุม
ทำไมโครงสร้างพื้นฐานที่สามารถฟื้นตัวได้ด้วยตนเองจึงได้รับความนิยม
การนำโครงสร้างพื้นฐานที่สามารถฟื้นตัวได้ด้วยตนเองมาใช้กำลังเพิ่มขึ้นเนื่องจากทั้งความก้าวหน้าทางเทคโนโลยีและความต้องการขององค์กร การปรับปรุงฮาร์ดแวร์ทำให้สามารถใช้เอเย่นต์ AI ที่มีความสามารถในการให้เหตุผลได้มากขึ้นในระบบองค์กรขนาดใหญ่ในราคาที่ต่ำลงและมีการตอบสนองที่เร็วขึ้น นอกจากนี้ ชิป AI พิเศษทำให้เอเย่นต์สามารถวิเคราะห์สตรีมข้อมูลที่ซับซ้อนและดำเนินการตามข้อมูลนั้นได้ในเวลาจริง ซึ่งเป็นความสามารถที่ไม่เคยเป็นไปได้ก่อนหน้านี้
เทคโนโลยีที่อยู่เบื้องหลัง Agentic SRE
ระบบ Agentic SRE รวมการตรวจสอบ การให้เหตุผล และการอัตโนมัติที่ควบคุมไว้ในพายพันการทำงานแบบปิดลูป ซึ่งสามารถตรวจจับ วินิจฉัย และบำบัดปัญหาได้ด้วยการแทรกแซงของมนุษย์ขั้นต่ำ ระบบนี้โดยทั่วไปจะพึ่งพาสามชั้นหลัก: ชั้นข้อมูลที่รวมกัน ชั้นการให้เหตุผล และชั้นการดำเนินการ แต่ละชั้นจะทำงานภายในนโยบายและพารามิเตอร์ที่เข้มงวดเพื่อให้แน่ใจถึงการดำเนินการอย่างปลอดภัยและเชื่อถือได้
การตรวจสอบแบบรวมด้วย OpenTelemetry
การฟื้นตัวของระบบตัวเองเริ่มต้นด้วยข้อมูลการตรวจสอบที่สอดคล้องกันและคุณภาพสูง ลอกรายการ เมตริกซ์ เทรซ และเหตุการณ์จากไมโครเซอร์วิส คลัสเตอร์ Kubernetes เครือข่าย และแพลตฟอร์มคลาวด์ถูกเก็บรวบรวมและมาตรฐาน化 OpenTelemetry ให้โครงสร้างในการส่งออกข้อมูลนี้ ซึ่งจะถูกผสมเข้ากับแพลตฟอร์มการตรวจสอบและ AIOps ที่รวมกัน
การให้เหตุผลที่ตระหนักถึงบริบทด้วย RAG และกราฟความพึ่งพา
ชั้นการให้เหตุผลทำให้เอเย่นต์สามารถไปไกลกว่าการค้นหาพื้นฐานได้ การให้เหตุผลแบบ Retrieval-Augmented Generation (RAG) ดึงเหตุการณ์ประวัติศาสตร์ที่เกี่ยวข้อง runbooks ข้อมูลการกำหนดค่า และการวิเคราะห์หลังเหตุการณ์จากฐานความรู้ภายใน เอเย่นต์ใช้การตัดสินใจโดยอาศัยประวัติการดำเนินงานและนโยบายจริง แทนที่จะอาศัยความทรงจำของโมเดลทั่วไป
โมเดลการดำเนินการขนาดใหญ่และการดำเนินการภายใต้นโยบาย
ชั้นการดำเนินการเปลี่ยนการตัดสินใจเป็นการเปลี่ยนแปลงที่ปลอดภัยและสามารถตรวจสอบได้ในระบบการผลิต โมเดลการดำเนินการขนาดใหญ่หรือเอเย่นต์ที่ได้รับการเพิ่มประสิทธิภาพจากเครื่องมือติดต่อ API โครงสร้างพื้นฐาน เช่น Kubernetes SDK ของผู้ให้บริการคลาวด์ ระบบ CI/CD และแพลตฟอร์ม infrastructure-as-code ดังนั้นจึงสามารถดำเนินการเช่นการรีสตาร์ท การกลับไปสู่รุ่นก่อนหน้า การกำหนดเส้นทางการจราจร และการอัปเดตการกำหนดค่าโดยอัตโนมัติ
ความสามารถหลักของโครงสร้างพื้นฐานที่สามารถฟื้นตัวได้ด้วยตนเอง
โครงสร้างพื้นฐานที่สามารถฟื้นตัวได้ด้วยตนเองมอบความสามารถหลักสามประการซึ่งทำงานร่วมกันเพื่อรักษาความน่าเชื่อถือของระบบโดยมีการแทรกแซงของมนุษย์ขั้นต่ำ ประการแรก การตรวจจับที่คาดการณ์ไว้สามารถระบุความล้มเหลวสีเทาได้ก่อนที่จะบานปลายออกเป็นความล้มเหลวที่สมบูรณ์ ประการสอง การวิเคราะห์สาเหตุของการล้มเหลวแบบอัตโนมัติทำให้เอเย่นต์สามารถติดตามความผิดปกติข้ามหลายชั้นของระบบและเชื่อมโยงกับการเปลี่ยนแปลงโค้ด การอัปเดตการกำหนดค่าหรือการปรับเปลี่ยนโครงสร้างพื้นฐานล่าสุด สิ่งนี้ลดความจำเป็นในการสืบสวนของมนุษย์และเร่งการแก้ไขเหตุการณ์
ความกังวลเรื่องความไว้วางใจและความปลอดภัยใน Agentic SRE
การนำเอเย่นต์ที่มีความสามารถในการให้เหตุผลมาใช้ใน Site Reliability Engineering สร้างความท้าทายใหม่ๆ สำหรับองค์กร เมื่อเอเย่นต์ฉลาดรับผิดชอบต่อการตรวจจับ การวินิจฉัย และการบำบัดเหตุการณ์ ความเสี่ยงของข้อผิดพลาดก็เพิ่มขึ้นเช่นกัน ตัวอย่างเช่น เอเย่นต์อาจตีความสัญญาณทีเลเมทรีผิดและดำเนินการซึ่งอาจรบกวนบริการ ดังนั้น องค์กรจึงต้องใช้มาตรการป้องกันที่เข้มงวดเพื่อจัดการความเสี่ยงนี้
สรุป
การนำระบบอัตโนมัติมาใช้สามารถให้ประโยชน์อย่างมาก แต่ก็ต้องมีการจัดการความเสี่ยงอย่างระมัดระวัง ด้วยการผสมผสานเอเย่นต์ที่มีการอนุญาตให้ใช้สิทธิขั้นต่ำเข้ากับขอบเขตการดำเนินการที่ชัดเจน องค์กรสามารถป้องกันการดำเนินการโดยไม่ได้ตั้งใจ นอกจากนี้ การรักษาการกำกับดูแลของมนุษย์สำหรับงานที่สำคัญยังช่วยให้แน่ใจว่าการเปลี่ยนแปลงที่มีผลกระทบสูงจะได้รับการตรวจสอบเสมอ การบันทึกและเส้นทางการตรวจสอบที่โปร่งใสยังเพิ่มความรับผิดชอบโดยให้ความสามารถในการมองเห็นที่ต่อเนื่องตลอดทั้งระบบ ดังนั้น ความไว้วางใจในโครงสร้างพื้นฐานที่สามารถฟื้นตัวได้ด้วยตนเองจึงเติบโตไม่ใช่จากการเอาหน้าที่ของมนุษย์ออกไป แต่จากการออกแบบการควบคุมที่ทำให้การอัตโนมัติสามารถคาดการณ์ได้ ปลอดภัย และสามารถตรวจสอบได้ ความสมดุลที่รอบคอบนี้ช่วยให้องค์กรสามารถพึ่งพาเอเย่นต์ฉลาดได้อย่างมั่นใจ ในขณะเดียวกันก็ปกป้องทั้งการดำเนินงานและผลลัพธ์ทางธุรกิจ












