ปรับปรุง Skill-Creator ของ Claude AI: ทดสอบ วัดผล และปรับแต่ง Agent Skills

เฮ้ยทุกคน! มีข่าวดีสำหรับสาย AI และคนที่ใช้ Claude บ่อย ๆ นะ ล่าสุด Anthropic เขาได้อัปเกรดเครื่องมือ Skill-Creator สำหรับ Agent Skills ของ Claude AI ให้เจ๋งขึ้นไปอีกขั้นแล้ว!

การอัปเดตครั้งนี้จะช่วยให้คนสร้าง Skill (ส่วนใหญ่เป็นผู้เชี่ยวชาญในแต่ละด้าน ไม่จำเป็นต้องเป็นวิศวกรโค้ดดิ้งจ๋า) สามารถทดสอบ วัดผล และปรับแต่ง Agent Skills ของตัวเองได้ง่ายขึ้นเยอะเลย ไม่ต้องมานั่งเขียนโค้ดเองแล้วนะ คือสะดวกมาก ๆ!

ทดสอบ Skill ของคุณให้ชัวร์ด้วย 'Evals'

หนึ่งในฟีเจอร์เด่นเลยคือ 'Evals' หรือชุดทดสอบที่ช่วยให้เราตรวจสอบได้ว่า Skill ที่สร้างขึ้นมาทำงานได้ตามที่เราต้องการจริง ๆ ไหม ฟีเจอร์นี้จะช่วยจับผิดความผิดพลาดที่อาจเกิดขึ้นได้เมื่อโมเดลมีการพัฒนา หรือบอกให้รู้ว่า Skill ที่เคยสร้างไว้เพื่อเพิ่มความสามารถ (Capability uplift skill) นั้นอาจไม่จำเป็นอีกต่อไปแล้ว เพราะโมเดลหลักมันเก่งขึ้นเองแล้ว!

วัดผลอย่างเป็นระบบด้วย Benchmark Mode

นอกจากนี้ ยังมี Benchmark Mode ใหม่ที่ช่วยให้คุณสามารถรันการประเมินมาตรฐานโดยใช้ Evals ที่คุณกำหนดเองได้เลย มันจะติดตามผลลัพธ์ต่าง ๆ เช่น อัตราการผ่านของ Evals, เวลาที่ใช้ไป และจำนวน Token ที่ใช้ไป ทำให้เราเห็นภาพรวมประสิทธิภาพของ Skill ได้ชัดเจนขึ้น

ประมวลผลเร็วขึ้นด้วย Multi-Agent Support

สำหรับการทดสอบที่ซับซ้อนและต้องการความเร็ว Skill-creator ก็เพิ่ม Multi-agent support เข้ามา คือมันจะเปิด Agent อิสระหลาย ๆ ตัวเพื่อรัน Evals พร้อมกัน ทำให้ผลลัพธ์ที่ได้เร็วขึ้น และมั่นใจได้ว่าข้อมูลจะไม่ปนเปื้อนกันด้วย เจ๋งไปเลยใช่ไหมล่ะ?

A/B Test Skill ของคุณด้วย Comparator Agents

อยากรู้ว่า Skill สองเวอร์ชันไหนดีกว่ากัน หรือ Skill ที่คุณสร้างดีกว่าโมเดลพื้นฐานแค่ไหน? ตอนนี้มี Comparator Agents ที่ช่วยทำ A/B Testing ได้แล้วนะ มันจะเปรียบเทียบผลลัพธ์โดยที่ไม่มีอคติ ทำให้คุณมั่นใจได้ว่าการเปลี่ยนแปลงที่คุณทำไปนั้นช่วยให้ Skill ดีขึ้นจริง ๆ

ปรับแต่งคำอธิบาย Skill ให้แม่นยำยิ่งขึ้น

ปัญหาที่พบบ่อยคือ Skill ไม่ทำงานเมื่อไหร่ที่ควร หรือทำงานในเวลาที่ไม่ใช่ ตอนนี้ Skill-creator ช่วยปรับแต่งคำอธิบาย Skill ได้แล้วนะ มันจะวิเคราะห์คำอธิบายของคุณเทียบกับตัวอย่าง Prompt และแนะนำการแก้ไข เพื่อลดโอกาสการทำงานผิดพลาด (false positives) หรือการไม่ทำงานเมื่อควร (false negatives) จากการทดสอบภายในพบว่าฟีเจอร์นี้ช่วยให้การเรียกใช้ Skill การสร้างเอกสารสาธารณะดีขึ้นถึง 5 ใน 6 รายการเลยทีเดียว!

พร้อมใช้งานแล้ววันนี้!

ฟีเจอร์ Skill-creator ใหม่ทั้งหมดนี้พร้อมให้ใช้งานแล้วบน Claude.ai และ Cowork รวมถึงเป็นปลั๊กอินสำหรับผู้ใช้ Claude Code และใน Repository ของ Anthropic Blog ด้วยนะ ใครที่ใช้ Claude อยู่ ห้ามพลาดเลย!

อ่านต่อ: เรียนรู้เพิ่มเติมเกี่ยวกับการปรับปรุง Skill-Creator ของ Claude AI ได้ที่บล็อกของ Anthropic