ปรับปรุง AI Agent ด้วยการตัดสินใจของมนุษย์ในวงจรพัฒนา

TL;DR

ประเด็นสำคัญจาก LangChain คือ AI Agent ที่ใช้จริงต้องมีวงจรปรับปรุงจากวิจารณญาณมนุษย์อย่างต่อเนื่อง ไม่ใช่จูน prompt ครั้งเดียวแล้วจบ
จุดคุ้มค่าที่สุดคือการใส่ความรู้เชิงปฏิบัติของผู้เชี่ยวชาญเข้าไปใน workflow, tools และบริบทตอนที่ Agent ทำงานจริง
ทีมที่ทดสอบแบบวนรอบเร็วในสภาพแวดล้อมใกล้ production และวัดผลทุกรอบ จะได้ Agent ที่น่าเชื่อถือมากขึ้นชัดเจน

AI Agent กำลังเป็นที่พูดถึงอย่างมากในวงการเทคโนโลยี แต่รู้ไหมว่ากว่าที่ AI Agent ตัวหนึ่งจะทำงานได้อย่างยอดเยี่ยมและน่าเชื่อถือ มันต้องพึ่งพาสิ่งสำคัญอย่างหนึ่ง นั่นก็คือ "วิจารณญาณของมนุษย์" นี่แหละครับ! LangChain เองก็เน้นย้ำเรื่องนี้ และได้อธิบายไว้อย่างละเอียดว่า การรวมการตัดสินใจของผู้เชี่ยวชาญเข้ามาในทุกขั้นตอนของการพัฒนา AI Agent เป็นกุญแจสำคัญที่จะทำให้ระบบเหล่านี้มีประสิทธิภาพและปลอดภัยมากขึ้น

ทำไมต้องมีวิจารณญาณของมนุษย์?

เราอาจคิดว่า AI Agent แค่ใส่ข้อมูลให้เยอะ ๆ ก็พอแล้ว แต่จริง ๆ แล้วมันไม่ใช่แค่นั้นครับ ข้อมูลบางอย่างเป็นความรู้ที่ไม่ได้ถูกบันทึกไว้เป็นลายลักษณ์อักษร (tacit knowledge) ซึ่งเป็นสิ่งที่อยู่ในตัวผู้เชี่ยวชาญแต่ละคน ตัวอย่างเช่น ประสบการณ์, สัญชาตญาณ หรือแนวทางปฏิบัติที่ไม่เป็นทางการที่จำเป็นสำหรับการทำงานที่มีความหมาย หากไม่มีความรู้ประเภทนี้ AI Agent อาจทำงานผิดพลาดหรือขาดประสิทธิภาพไปได้เลย การนำความรู้เหล่านี้เข้าไปอยู่ใน Agent ได้ ต้องอาศัย 'วงจรการปรับปรุง' ที่มีการป้อนข้อมูลจากผู้เชี่ยวชาญอย่างต่อเนื่อง

ตัวอย่างจริง: "Copilot สำหรับเทรดเดอร์"

ลองนึกภาพบริษัทการเงินที่มีเทรดเดอร์ที่ต้องการข้อมูลตลาดที่อัปเดตอยู่ตลอดเวลา ปกติแล้วพวกเขาต้องส่งคำถามไปที่ทีม Data Science เพื่อให้เขียน SQL query ดึงข้อมูลให้ ซึ่งกินเวลาและทรัพยากรมาก การใช้ AI Agent มาช่วยสร้าง SQL query และดึงข้อมูลให้เทรดเดอร์โดยตรง จึงเป็นทางออกที่น่าสนใจมากๆ

แต่เพื่อให้ระบบนี้ทำงานได้อย่างน่าเชื่อถือ AI Agent จะต้องมีความเข้าใจทั้งในบริบทของธุรกิจการเงิน (เช่น แนวทางปฏิบัติการซื้อขายที่ไม่ได้เขียนไว้ ที่บอกว่า "วันนี้ exposed เท่าไร" หรือ "ความผันผวนล่าสุด" แปลว่าอะไร) และความรู้ทางเทคนิคเกี่ยวกับฐานข้อมูล (เช่น ตารางไหนเป็นข้อมูลหลักที่เชื่อถือได้ หรือรูปแบบ query แบบไหนที่มีประสิทธิภาพ) ความรู้เหล่านี้ล้วนมาจากวิจารณญาณของมนุษย์ทั้งนั้นเลย

การปรับปรุง Agent ด้วยคนในแต่ละส่วน

LangChain ชี้ให้เห็นว่า การนำวิจารณญาณของมนุษย์มาช่วยนั้นมีประโยชน์กับองค์ประกอบสำคัญหลายส่วนของ AI Agent ตั้งแต่การออกแบบ Workflow, การออกแบบ Tool ไปจนถึงการกำหนดบริบทให้กับ Agent

1. การออกแบบ Workflow (Workflow Design)

แม้ LLM จะเก่งเรื่องการลำดับการทำงานด้วยตัวเอง แต่ในบางสถานการณ์ โดยเฉพาะที่เกี่ยวข้องกับกฎระเบียบหรือมีความเสี่ยงสูง เรายังต้องการโค้ดที่ควบคุมลำดับการทำงานอย่างเข้มงวด ตัวอย่างเช่นในเคส Copilot สำหรับเทรดเดอร์ของเรา AI Agent อาจสร้างและรัน SQL query ได้เอง แต่เราจะเพิ่มโค้ดที่กำหนดให้ต้องตรวจสอบความถูกต้องของผลลัพธ์ว่าตรงตามข้อกำหนดความเสี่ยงและการปฏิบัติตามกฎของบริษัทก่อนที่จะส่งให้เทรดเดอร์ การสร้างการตรวจสอบอัตโนมัติเหล่านี้จำเป็นต้องได้รับข้อมูลจากผู้เชี่ยวชาญด้านความเสี่ยงและการปฏิบัติตามกฎโดยตรงเลย

2. การออกแบบเครื่องมือ (Tool Design)

การพัฒนาเครื่องมือที่ Agent จะใช้ได้นั้น ต้องอาศัยการตัดสินใจของมนุษย์ในการ implement, กำหนดชื่อ, parameters และคำอธิบาย เพื่อให้ LLM เลือกใช้เครื่องมือได้อย่างถูกต้อง การพิจารณาความยืดหยุ่นและความปลอดภัยก็สำคัญมาก เช่น การใช้ execute_sql แบบทั่วไปที่ยืดหยุ่นสูง แต่อาจมีความเสี่ยง หรือการใช้เครื่องมือ query แบบพารามิเตอร์ที่ปลอดภัยกว่าแต่ยืดหยุ่นน้อยกว่า การตัดสินใจเลือกทางไหนที่เหมาะสมที่สุดก็ต้องมาจากความเข้าใจทางธุรกิจและการประเมินผลอย่างรอบคอบโดยผู้เชี่ยวชาญ

3. การออกแบบบริบทของ Agent (Agent Context)

ในอดีต Agent มักจะได้รับข้อมูลผ่าน single system prompt เท่านั้น แต่ปัจจุบันแนวคิดได้พัฒนาไปไกลกว่านั้นแล้ว ทีมงานจะคัดเลือกเอกสาร, ตัวอย่าง และกฎเกณฑ์เฉพาะทางเตรียมไว้ล่วงหน้า แล้วให้ Agent ดึงข้อมูลที่จำเป็นมาใช้เองในขณะที่รัน ซึ่งช่วยให้ Agent เข้าถึงความรู้ได้มากขึ้นโดยไม่ต้องยัดทุกอย่างลงใน prompt เดียว Anthropic’s Skills ซึ่งเป็นมาตรฐานที่เปิดตัวเมื่อเดือนตุลาคมปีที่แล้ว ก็เป็นตัวอย่างที่โดดเด่นของการให้บริบทที่หลากหลายแก่ Agent การออกแบบบริบทที่มีประสิทธิภาพจึงเป็นส่วนสำคัญที่ต้องการการมีส่วนร่วมของมนุษย์อย่างมาก

วงจรการพัฒนา Agent ที่มีคนร่วม (Agent Improvement Loop)

ที่ LangChain พวกเขาได้ทำงานร่วมกับองค์กรหลายร้อยแห่งในการปรับใช้ AI Agent และพบว่าทีมที่ประสบความสำเร็จที่สุดจะใช้วงจรการทำงานแบบวนซ้ำที่รวดเร็ว (tight iteration loop) คือ สร้าง Agent อย่างรวดเร็ว ปรับใช้ในสภาพแวดล้อมที่เหมือนจริง และเก็บข้อมูลในทุกขั้นตอนเพื่อนำมาปรับปรุงอย่างต่อเนื่อง กระบวนการนี้เรียกว่า "agent improvement loop" เพราะ Agent ที่ประสบความสำเร็จส่วนใหญ่ล้วนผ่านวงจรนี้มาหลายครั้งแล้ว การทำซ้ำอย่างรวดเร็วเป็นสิ่งสำคัญมาก เพราะพฤติกรรมของ Agent มาจากการให้เหตุผลแบบเรียลไทม์ของ LLM ซึ่งเป็นสิ่งที่คาดเดาได้ยากจนกว่าจะรันจริง ๆ ดูข้อมูลเพิ่มเติมเกี่ยวกับวงจรนี้ได้ที่ Human Judgment in the Agent Improvement Loop

จะเห็นได้ว่า การนำวิจารณญาณและความรู้จากมนุษย์ โดยเฉพาะความรู้ที่ไม่ได้บันทึกไว้ในตำรา มาผสมผสานกับการพัฒนา AI Agent นั้นเป็นหัวใจสำคัญที่จะทำให้ Agent ของเราฉลาดขึ้น น่าเชื่อถือขึ้น และสามารถทำงานได้ตรงตามความต้องการของธุรกิจอย่างแท้จริงครับ

อ่านต่อ: Human Judgment in the Agent Improvement Loop เพื่อเจาะลึกรายละเอียดและกรณีศึกษาเพิ่มเติม

สรุป

วิจารณญาณของมนุษย์คือส่วนที่ทำให้ AI Agent ขยับจากต้นแบบไปสู่ระบบที่เชื่อถือได้ในงานจริง
แนวทางของ LangChain ชัดเจนและนำไปใช้ได้เลย: เก็บสัญญาณจากการใช้งานจริง ประเมินผล และปรับปรุงแบบวนรอบด้วยผู้เชี่ยวชาญ
สำหรับทีมที่ทำงานหลายขั้นตอนหรือมีความเสี่ยงสูง การลงทุนกับวงจรปรับปรุงนี้ช่วยลดงานแก้ซ้ำและเพิ่มความมั่นใจในการ deploy ได้มาก