LangSmith เปิดตัว Engine ช่วยตรวจจับและปรับปรุงปัญหา Agent อัตโนมัติ

TL;DR

LangChain เปิดตัว LangSmith Engine เอเจนต์ที่ออกแบบมาเพื่อช่วยนักพัฒนาตรวจจับและแก้ไขปัญหาที่เกิดขึ้นซ้ำๆ ใน Agent ของตนเองโดยอัตโนมัติ
Engine วิเคราะห์ trace ของ Agent เพื่อหารูปแบบความล้มเหลว เช่น การใช้เครื่องมือที่ไม่มีประสิทธิภาพ วนลูป หรือพลาดการใช้เครื่องมือที่ควรใช้ แล้วจัดหมวดหมู่เป็น "ปัญหา" ที่นำไปดำเนินการต่อได้
Engine เสนอแนวทางการแก้ไขที่หลากหลาย ทั้งการสร้าง online evaluators ตัวอย่างข้อมูลสำหรับ datasets หรือแม้กระทั่งการเสนอโค้ด/พรอมต์ที่ต้องปรับปรุง
การทำงานของ Engine ต้องอาศัยข้อมูลสำคัญอย่าง Agent Overview ข้อมูล trace ของ Agent และ Issue Board ที่มีอยู่

LangChain ได้เปิดตัวเครื่องมือใหม่ที่สำคัญสำหรับนักพัฒนา คือ LangSmith Engine เอเจนต์สุดล้ำนี้ถูกออกแบบมาเพื่อช่วยให้นักพัฒนาปรับปรุงประสิทธิภาพของ AI Agent ได้ง่ายขึ้น โดยการตรวจจับปัญหาที่เกิดขึ้นซ้ำๆ ใน trace ของ Agent และเสนอแนวทางการแก้ไขให้โดยอัตโนมัติ การเปิดตัว Engine นี้มุ่งหวังที่จะก้าวข้ามข้อจำกัดของการตรวจสอบ trace ทีละรายการด้วยตนเอง และนำเสนอวิธีการที่สามารถขยายผลและมีประสิทธิภาพมากขึ้นสำหรับการพัฒนาและบำรุงรักษา Agent

หัวใจหลักของการทำงานของ LangSmith Engine คือการกรองข้อมูลปริมาณมหาศาลที่สร้างขึ้นจาก trace ของ Agent เพื่อระบุรูปแบบความล้มเหลวที่อาจถูกมองข้ามไป ปัญหาที่เกิดขึ้นซ้ำๆ เหล่านี้อาจมีตั้งแต่การใช้เครื่องมือที่ไม่มีประสิทธิภาพหรือซ้ำซ้อน Agent ติดอยู่ในลูป หรือ Agent ไม่สามารถเลือกใช้เครื่องมือที่เหมาะสมได้ เมื่อระบุรูปแบบเหล่านี้ได้ Engine จะแปลงข้อมูล trace ดิบให้กลายเป็นข้อมูลเชิงลึกที่นำไปดำเนินการต่อได้ โดยนำเสนอเป็น "ปัญหา" ที่ชัดเจน พร้อมคำอธิบายและหลักฐานจาก trace

เมื่อระบุปัญหาได้แล้ว LangSmith Engine ไม่เพียงแค่แจ้งเตือน แต่ยังเสนอแนวทางการแก้ไขอย่างแข็งขัน แนวทางการแก้ไขที่นำเสนอถูกออกแบบมาเพื่อให้เกิด "การปรับปรุงที่ยั่งยืน" สำหรับ Agent ซึ่งอาจรวมถึงการแนะนำให้สร้าง online evaluators ใหม่เพื่อตรวจจับปัญหาที่คล้ายกันในอนาคต การเพิ่มตัวอย่างที่สื่อถึงปัญหาเข้าไปใน dataset สำหรับการทดสอบแบบออฟไลน์ หรือแม้กระทั่งการเสนอแนะการแก้ไขโค้ดหรือพรอมต์เพื่อจัดการกับสาเหตุที่แท้จริงของความล้มเหลว

เพื่อให้ทำงานได้อย่างมีประสิทธิภาพ LangSmith Engine ต้องอาศัยข้อมูลอินพุตหลายส่วน ส่วนประกอบสำคัญคือ Agent Overview ซึ่งทำหน้าที่เป็นเอกสารที่อธิบายว่า Agent ทำอะไร พฤติกรรมที่คาดหวัง และโหมดความล้มเหลวที่ควรระวัง โดย Agent Overview นี้จะถูกอัปเดตอยู่เสมอเมื่อ Engine เรียนรู้ข้อมูลใหม่ๆ นอกจากนี้ Engine ยังรับข้อมูล trace ของ Agent จากโปรเจกต์ LangSmith tracing ที่เกี่ยวข้อง และตรวจสอบ Issue Board ที่มีอยู่ เพื่อหลีกเลี่ยงการทำงานซ้ำซ้อนและต่อยอดจากสิ่งที่ค้นพบก่อนหน้านี้

กระบวนการเริ่มต้นด้วย Engine ดึงข้อมูล Agent Overview และ trace ซึ่งมักจะเริ่มจากการสรุปเส้นทาง (trajectory) ที่กระชับเพื่อประสิทธิภาพ จากนั้นจึงวิเคราะห์ trace เหล่านี้ จัดกลุ่มความล้มเหลวที่เกิดขึ้นซ้ำๆ เป็นปัญหา และสร้างแนวทางการแก้ไขที่นำเสนอ การแก้ไขที่เสนออาจรวมถึงการแนะนำ evaluator ใหม่เพื่อตรวจจับรูปแบบความล้มเหลวเฉพาะในแบบเรียลไทม์ การแนะนำตัวอย่าง dataset ที่ใช้สำหรับการทดสอบ regression หรือการเสนอการเปลี่ยนแปลงโค้ด/พรอมต์โดยตรง เป้าหมายคือการแปลงความล้มเหลวที่เกิดขึ้นจริงให้กลายเป็นสิ่งที่ทีมสามารถนำไปดำเนินการและทดสอบได้

Engine ถูกสร้างขึ้นในลักษณะของ orchestrator ซึ่งใช้ส่วนประกอบเฉพาะทางและอาจเชื่อมต่อกับ sandbox environment สำหรับการวิเคราะห์เชิงลึกและการจัดการไฟล์ Engine ใช้ LangSmith CLI สำหรับการดึงข้อมูลและอัปเดต และสามารถรวมเข้ากับ codebase ของ Agent เพื่อวินิจฉัยปัญหาได้อย่างแม่นยำยิ่งขึ้นและอำนวยความสะดวกในการแก้ไขอัตโนมัติ แนวทางที่ครอบคลุมนี้ช่วยให้มั่นใจได้ว่าปัญหาที่ระบุจะไม่ใช่เพียงแค่การรายงาน แต่ยังได้รับการแก้ไขด้วยแนวทางแก้ไขที่สามารถนำไปปฏิบัติได้จริง สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับกลไกการทำงาน นักพัฒนาสามารถศึกษาเพิ่มเติมได้ที่ How We Built LangSmith Engine, Our Agent for Improving Agents

สรุป

LangSmith Engine ช่วยตรวจจับปัญหา Agent ที่เกิดขึ้นซ้ำๆ โดยอัตโนมัติจากการวิเคราะห์ข้อมูล trace
Engine จัดหมวดหมู่ความล้มเหลวเหล่านี้เป็น "ปัญหา" ที่นำไปดำเนินการต่อได้ พร้อมเสนอแนวทางการแก้ไข เช่น evaluators หรือการแก้ไขโค้ด
การทำงานหลักของ Engine อาศัยข้อมูล Agent Overview, trace และ Issue Board
นักพัฒนาสามารถศึกษาเพิ่มเติมเกี่ยวกับความสามารถของ Engine ได้ที่ LangChain Blog

แหล่งที่มา: How We Built LangSmith Engine, Our Agent for Improving Agents

LangSmith เปิดตัว Engine ช่วยตรวจจับและปรับปรุงปัญหา Agent อัตโนมัติ

TL;DR

สรุป

อ่านต่อ

Cursor ปรับปรุง Design Mode ด้วย Multi-Select และ Voice Input

อยากให้แจ้งเตือน ตอน Newsletter เปิดตัวมั้ย?