ปัญญาประดิษฐ์

Agentic SRE: วิธีการสร้าง Infrastructure ที่สามารถฟื้นตัวได้ด้วยตนเอง โดยใช้ Agent ที่มีความสามารถในการให้เหตุผล

mm
Agentic SRE: How Self-Healing Infrastructure Is Redefining Enterprise AIOps in 2026

ระบบ IT ขององค์กรได้พัฒนาไปสู่จุดที่การดำเนินงานโดยมนุษย์ไม่สามารถตามทันความต้องการได้แล้ว ไมโครเซอร์วิส เอดจ์คอมพิวติ้ง และ 5G ได้เพิ่มความซับซ้อนและโหมดการล้มเหลว ทำให้การโต้ตอบของผู้ใช้สามารถส่งผลกระทบต่อหลาย ๆ เซอร์วิส ในทางกลับกัน ระบบจะสร้างลอگ เมทริกซ์ และเทรซที่มากเกินไปในเวลาเพียงไม่กี่วินาที ดังนั้น วิศวกรจึงต้องเผชิญกับ “กำแพงการตรวจสอบ” ซึ่งการแก้ไขการแจ้งเตือนหนึ่งครั้งจะตามมาด้วยการแจ้งเตือนหลายร้อยครั้งที่ต้องการความสนใจ

ในช่วงปี 2024 และ 2025 การเติบโตของข้อมูลทีเลเมทรีได้ท้าทายแนวปฏิบัติของ Site Reliability Engineering (SRE) แบบดั้งเดิม การเหนื่อยหน่ายจากการแจ้งเตือนและการตอบสนองต่อการแจ้งเตือนช้าลง ทีมงานต้องเผชิญกับปัญหาในการมองเห็นที่สมบูรณ์แบบ แต่ไม่สามารถควบคุมระบบได้ดีขึ้น นอกจากนี้ การแทรกแซงด้วยมือ สคริปต์ที่ไม่เปลี่ยนแปลง และการทำงานแบบตั๋วไม่สามารถจัดการกับความซับซ้อนของระบบสมัยใหม่ได้ การล้มเหลวไม่ตามรูปแบบที่คาดการณ์ได้ และไมโครเซอร์วิสโต้ตอบกันอย่างไดนามิก ในขณะที่โหนดเอดจ์เปลี่ยนสถานะอย่างต่อเนื่อง

ความก้าวหน้าทางฮาร์ดแวร์ เช่น อาร์คิเทคเจอร์ Rubin ของ NVIDIA ทำให้เอเย่นต์ที่มีความสามารถในการให้เหตุผลเป็นไปได้ในการใช้งานขนาดใหญ่ องค์กรต่างๆ ได้รับการนำ Agentic SRE ไปใช้ในปี 2026 โดยที่เอเย่นต์ฉลาดรับผิดชอบต่อผลลัพธ์ของความน่าเชื่อถือ เอเย่นต์เหล่านี้วิเคราะห์สถานะของระบบอย่างต่อเนื่อง ใช้การบำบัด และตรวจสอบผลลัพธ์ นอกจากนี้ วิศวกรยังเน้นไปที่การกำหนดนโยบาย การตั้งค่าพารามิเตอร์ และการกำหนดจุดประสงค์ทางธุรกิจ ดังนั้น วิธีการนี้จึงสร้างโครงสร้างพื้นฐานที่สามารถฟื้นตัวได้ด้วยตนเอง และเปลี่ยนแปลงสิ่งที่ AIOps ขององค์กรสามารถทำได้ในสภาพแวดล้อมที่มีการใช้งานตลอดเวลา

Agentic SRE คืออะไร ตั้งแต่การอัตโนมัติที่มีสคริปต์ไปสู่เอเย่นต์ที่มีความสามารถในการให้เหตุผล

ก่อนที่จะตรวจสอบข้อจำกัดของแนวปฏิบัติที่มีอยู่แล้ว มันจำเป็นต้องชี้แจงว่าสิ่งใดที่ทำให้ Agentic SRE แตกต่างจากแบบจำลองการอัตโนมัติที่ใช้ในสภาพแวดล้อมขององค์กร

ทำไมหลักการ SRE คลาสสิกจึงไม่เพียงพออีกต่อไป

การปฏิบัติงาน SRE แบบดั้งเดิมพึ่งพา Service Level Objectives และ runbooks ที่กำหนดไว้ล่วงหน้าเพื่อรักษาความน่าเชื่อถือของระบบ เมื่อเมตริกตัดผ่านขอบเขตที่กำหนดไว้ วิศวกรจะเข้าแทรกแซง ในบางกรณี สคริปต์จะดำเนินการแก้ไขที่กำหนดไว้ล่วงหน้า วิธีการนี้ทำงานได้ดีในสภาพแวดล้อมที่พฤติกรรมของระบบยังคงเสถียรและคาดการณ์ได้ตลอดเวลา

อย่างไรก็ตาม ระบบขององค์กรได้เปลี่ยนแปลงไปอย่างมาก ไมโครเซอร์วิสโต้ตอบกันอย่างไดนามิกข้ามแพลตฟอร์มที่กระจายความซับซ้อน การพึ่งพาเปลี่ยนแปลงบ่อย ดังนั้น พฤติกรรมของระบบจึงยากต่อการคาดการณ์ การล้มเหลวบ่อยครั้งปรากฏขึ้นโดยไม่มีรูปแบบที่ทราบก่อนหน้านี้ ดังนั้น การอัตโนมัติที่มีสคริปต์จึงต่อสู้เพื่อตอบสนองอย่างมีประสิทธิภาพ สคริปต์ที่กำหนดไว้ล่วงหน้าจัดการกับสภาพการณ์ที่ทราบเท่านั้น และไม่สามารถปรับตัวเมื่อเหตุการณ์เบี่ยงเบนไปจากสถานการณ์ที่คาดหวัง

การกำหนด Agentic ในบริบทของ Site Reliability Engineering

โดยคำนึงถึงข้อจำกัดเหล่านี้ Agentic SRE นำเสนอมอดेलการดำเนินการที่แตกต่าง แทนที่จะตอบสนองต่อการแจ้งเตือนแบบแยกกัน เอเย่นต์ฉลาดให้เหตุผลเกี่ยวกับบริบทของระบบทั้งหมด เอเย่นต์เหล่านี้ใช้การให้เหตุผลแบบ Chain of Thought กับลอกรายการ เมตริกซ์ และข้อมูลเหตุการณ์ประวัติศาสตร์ ดังนั้น การตัดสินใจในการบำบัดจึงเกิดขึ้นจากการวิเคราะห์มากกว่ากฎที่กำหนดไว้ล่วงหน้า

Agentic SRE เทียบกับ AIOps แบบดั้งเดิม: สิ่งที่แตกต่าง

ทำไม AIOps ที่มีประวัติไม่สามารถแก้ไขปัญหาการตอบสนองต่อเหตุการณ์ได้

AIOps แบบดั้งเดิมหรือ AIOps 1.0 มุ่งเน้นไปที่การรู้จำรูปแบบและการจัดกลุ่มการแจ้งเตือน มันลดเสียงรบกวนและปรับปรุงความสามารถในการมองเห็น แต่ทีมงานของมนุษย์ยังคงรับผิดชอบต่อการบำบัด ระบบเหล่านี้สามารถระบุความล้มเหลวและเน้นย้ำถึงสาเหตุที่เป็นไปได้ แต่ไม่สามารถแก้ไขเหตุการณ์ได้ด้วยตนเอง วิศวกรยังคงต้องตีความคำแนะนำและดำเนินการ ซึ่งรักษาการตอบสนองให้เป็นแบบตอบสนอง

Agentic AIOps: การปิดลูปการดำเนินการ

Agentic AIOps เสริมขีดจำกัดของระบบที่มีอยู่โดยการรวมการวิเคราะห์กับการดำเนินการ เอเย่นต์ฉลาดดำเนินการตามสัญญาณที่ได้รับการยืนยัน แทนที่จะหยุดอยู่ที่คำแนะนำ โดยใช้ Large Action Models เอเย่นต์สามารถดำเนินการบำบัดที่มีโครงสร้างข้ามแอปพลิเคชันและโครงสร้างพื้นฐาน โดยเปลี่ยนการตรวจสอบเป็นการดำเนินการควบคุม

ทำไมโครงสร้างพื้นฐานที่สามารถฟื้นตัวได้ด้วยตนเองจึงได้รับความนิยม

การนำโครงสร้างพื้นฐานที่สามารถฟื้นตัวได้ด้วยตนเองมาใช้กำลังเพิ่มขึ้นเนื่องจากทั้งความก้าวหน้าทางเทคโนโลยีและความต้องการขององค์กร การปรับปรุงฮาร์ดแวร์ทำให้สามารถใช้เอเย่นต์ AI ที่มีความสามารถในการให้เหตุผลได้มากขึ้นในระบบองค์กรขนาดใหญ่ในราคาที่ต่ำลงและมีการตอบสนองที่เร็วขึ้น นอกจากนี้ ชิป AI พิเศษทำให้เอเย่นต์สามารถวิเคราะห์สตรีมข้อมูลที่ซับซ้อนและดำเนินการตามข้อมูลนั้นได้ในเวลาจริง ซึ่งเป็นความสามารถที่ไม่เคยเป็นไปได้ก่อนหน้านี้

เทคโนโลยีที่อยู่เบื้องหลัง Agentic SRE

ระบบ Agentic SRE รวมการตรวจสอบ การให้เหตุผล และการอัตโนมัติที่ควบคุมไว้ในพายพันการทำงานแบบปิดลูป ซึ่งสามารถตรวจจับ วินิจฉัย และบำบัดปัญหาได้ด้วยการแทรกแซงของมนุษย์ขั้นต่ำ ระบบนี้โดยทั่วไปจะพึ่งพาสามชั้นหลัก: ชั้นข้อมูลที่รวมกัน ชั้นการให้เหตุผล และชั้นการดำเนินการ แต่ละชั้นจะทำงานภายในนโยบายและพารามิเตอร์ที่เข้มงวดเพื่อให้แน่ใจถึงการดำเนินการอย่างปลอดภัยและเชื่อถือได้

การตรวจสอบแบบรวมด้วย OpenTelemetry

การฟื้นตัวของระบบตัวเองเริ่มต้นด้วยข้อมูลการตรวจสอบที่สอดคล้องกันและคุณภาพสูง ลอกรายการ เมตริกซ์ เทรซ และเหตุการณ์จากไมโครเซอร์วิส คลัสเตอร์ Kubernetes เครือข่าย และแพลตฟอร์มคลาวด์ถูกเก็บรวบรวมและมาตรฐาน化 OpenTelemetry ให้โครงสร้างในการส่งออกข้อมูลนี้ ซึ่งจะถูกผสมเข้ากับแพลตฟอร์มการตรวจสอบและ AIOps ที่รวมกัน

การให้เหตุผลที่ตระหนักถึงบริบทด้วย RAG และกราฟความพึ่งพา

ชั้นการให้เหตุผลทำให้เอเย่นต์สามารถไปไกลกว่าการค้นหาพื้นฐานได้ การให้เหตุผลแบบ Retrieval-Augmented Generation (RAG) ดึงเหตุการณ์ประวัติศาสตร์ที่เกี่ยวข้อง runbooks ข้อมูลการกำหนดค่า และการวิเคราะห์หลังเหตุการณ์จากฐานความรู้ภายใน เอเย่นต์ใช้การตัดสินใจโดยอาศัยประวัติการดำเนินงานและนโยบายจริง แทนที่จะอาศัยความทรงจำของโมเดลทั่วไป

โมเดลการดำเนินการขนาดใหญ่และการดำเนินการภายใต้นโยบาย

ชั้นการดำเนินการเปลี่ยนการตัดสินใจเป็นการเปลี่ยนแปลงที่ปลอดภัยและสามารถตรวจสอบได้ในระบบการผลิต โมเดลการดำเนินการขนาดใหญ่หรือเอเย่นต์ที่ได้รับการเพิ่มประสิทธิภาพจากเครื่องมือติดต่อ API โครงสร้างพื้นฐาน เช่น Kubernetes SDK ของผู้ให้บริการคลาวด์ ระบบ CI/CD และแพลตฟอร์ม infrastructure-as-code ดังนั้นจึงสามารถดำเนินการเช่นการรีสตาร์ท การกลับไปสู่รุ่นก่อนหน้า การกำหนดเส้นทางการจราจร และการอัปเดตการกำหนดค่าโดยอัตโนมัติ

ความสามารถหลักของโครงสร้างพื้นฐานที่สามารถฟื้นตัวได้ด้วยตนเอง

โครงสร้างพื้นฐานที่สามารถฟื้นตัวได้ด้วยตนเองมอบความสามารถหลักสามประการซึ่งทำงานร่วมกันเพื่อรักษาความน่าเชื่อถือของระบบโดยมีการแทรกแซงของมนุษย์ขั้นต่ำ ประการแรก การตรวจจับที่คาดการณ์ไว้สามารถระบุความล้มเหลวสีเทาได้ก่อนที่จะบานปลายออกเป็นความล้มเหลวที่สมบูรณ์ ประการสอง การวิเคราะห์สาเหตุของการล้มเหลวแบบอัตโนมัติทำให้เอเย่นต์สามารถติดตามความผิดปกติข้ามหลายชั้นของระบบและเชื่อมโยงกับการเปลี่ยนแปลงโค้ด การอัปเดตการกำหนดค่าหรือการปรับเปลี่ยนโครงสร้างพื้นฐานล่าสุด สิ่งนี้ลดความจำเป็นในการสืบสวนของมนุษย์และเร่งการแก้ไขเหตุการณ์

ความกังวลเรื่องความไว้วางใจและความปลอดภัยใน Agentic SRE

การนำเอเย่นต์ที่มีความสามารถในการให้เหตุผลมาใช้ใน Site Reliability Engineering สร้างความท้าทายใหม่ๆ สำหรับองค์กร เมื่อเอเย่นต์ฉลาดรับผิดชอบต่อการตรวจจับ การวินิจฉัย และการบำบัดเหตุการณ์ ความเสี่ยงของข้อผิดพลาดก็เพิ่มขึ้นเช่นกัน ตัวอย่างเช่น เอเย่นต์อาจตีความสัญญาณทีเลเมทรีผิดและดำเนินการซึ่งอาจรบกวนบริการ ดังนั้น องค์กรจึงต้องใช้มาตรการป้องกันที่เข้มงวดเพื่อจัดการความเสี่ยงนี้

สรุป

การนำระบบอัตโนมัติมาใช้สามารถให้ประโยชน์อย่างมาก แต่ก็ต้องมีการจัดการความเสี่ยงอย่างระมัดระวัง ด้วยการผสมผสานเอเย่นต์ที่มีการอนุญาตให้ใช้สิทธิขั้นต่ำเข้ากับขอบเขตการดำเนินการที่ชัดเจน องค์กรสามารถป้องกันการดำเนินการโดยไม่ได้ตั้งใจ นอกจากนี้ การรักษาการกำกับดูแลของมนุษย์สำหรับงานที่สำคัญยังช่วยให้แน่ใจว่าการเปลี่ยนแปลงที่มีผลกระทบสูงจะได้รับการตรวจสอบเสมอ การบันทึกและเส้นทางการตรวจสอบที่โปร่งใสยังเพิ่มความรับผิดชอบโดยให้ความสามารถในการมองเห็นที่ต่อเนื่องตลอดทั้งระบบ ดังนั้น ความไว้วางใจในโครงสร้างพื้นฐานที่สามารถฟื้นตัวได้ด้วยตนเองจึงเติบโตไม่ใช่จากการเอาหน้าที่ของมนุษย์ออกไป แต่จากการออกแบบการควบคุมที่ทำให้การอัตโนมัติสามารถคาดการณ์ได้ ปลอดภัย และสามารถตรวจสอบได้ ความสมดุลที่รอบคอบนี้ช่วยให้องค์กรสามารถพึ่งพาเอเย่นต์ฉลาดได้อย่างมั่นใจ ในขณะเดียวกันก็ปกป้องทั้งการดำเนินงานและผลลัพธ์ทางธุรกิจ

ดร. อัสซาด อับบาส เป็น Professor ที่ COMSATS University Islamabad, Pakistan ซึ่งได้รับ Ph.D. จาก North Dakota State University, USA การวิจัยของเขาเน้นไปที่เทคโนโลยีขั้นสูง รวมถึง cloud, fog, และ edge computing, big data analytics, และ AI ดร. อับบาสได้ทำการมีส่วนร่วมอย่างมากด้วยการเผยแพร่ผลงานในวารสารและประชุมวิชาการที่มีชื่อเสียง เขายังเป็นผู้ก่อตั้ง MyFastingBuddy