Anthropic อัปเกรด Claude Opus เป็น 4.8 เพิ่มประสิทธิภาพ Benchmark และการทำงานร่วมกัน

TL;DR

Anthropic ได้เปิดตัว Claude Opus 4.8 ซึ่งเป็นการอัปเกรดจาก Claude Opus 4.7
Opus 4.8 แสดงให้เห็นถึง การปรับปรุง Benchmark ที่สำคัญ ในด้านการเขียนโค้ด, งาน Agentic, การให้เหตุผล และการทำงานที่ต้องใช้ความรู้
ฟีเจอร์ใหม่ประกอบด้วย การควบคุมระดับความพยายามของ Claude บน claude.ai และฟีเจอร์ "dynamic workflows" ใน Claude Code
โหมด Fast mode สำหรับ Opus 4.8 ราคาถูกลงถึงสามเท่า และทำงานเร็วกว่าเดิม 2.5 เท่า

Anthropic กำลังเปิดตัวการอัปเกรดครั้งใหญ่ให้กับโมเดล AI เรือธงของบริษัท ด้วยการปล่อย Claude Opus 4.8 เวอร์ชันใหม่นี้ต่อยอดมาจาก Claude Opus 4.7 โดยสัญญาว่าจะมอบประสิทธิภาพที่ดียิ่งขึ้นในงานสำคัญหลากหลาย ตั้งแต่การเขียนโค้ดไปจนถึงการให้เหตุผลที่ซับซ้อน สิ่งที่น่าตื่นเต้นที่สุดสำหรับผู้ใช้งานคือ การอัปเกรดครั้งนี้พร้อมใช้งานแล้วใน ราคาเท่าเดิม กับรุ่นก่อนหน้า มอบพลังที่มากขึ้นโดยไม่มีค่าใช้จ่ายเพิ่มเติม

Opus 4.8 นำเสนอการพัฒนาที่สำคัญหลายประการ โดยมุ่งเป้นการปรับปรุงประสบการณ์ผู้ใช้และประโยชน์ใช้สอยของ AI บนแพลตฟอร์ม claude.ai ผู้ใช้งานสามารถควบคุมระดับ "ความพยายาม" ที่ Claude จะใช้ในแต่ละงานได้อย่างละเอียด ซึ่งช่วยให้การจัดการทรัพยากรและการสร้างผลลัพธ์ตรงตามความต้องการเฉพาะมากขึ้น นอกจากนี้ Claude Code ยังได้รับฟีเจอร์ใหม่ที่ทรงพลังอย่าง "dynamic workflows" ซึ่งออกแบบมาเพื่อจัดการกับปัญหาขนาดใหญ่มากโดยการแบ่งงานออกเป็นส่วนย่อยและจัดการลำดับการดำเนินงานที่ซับซ้อน

การปรับปรุงใน Claude Opus 4.8 ไม่ใช่แค่การเพิ่มประสิทธิภาพเล็กน้อย แต่ยังสะท้อนให้เห็นถึงความก้าวหน้าอย่างมากในการทดสอบ Benchmark ต่างๆ โมเดลเวอร์ชันใหม่นี้โดดเด่นในฐานะโมเดลเดียวที่สามารถทำทุกเคสสำเร็จลุล่วงตั้งแต่ต้นจนจบใน Super-Agent benchmark ซึ่งเหนือกว่าโมเดล Opus รุ่นก่อนๆ และ GPT-5.5 เมื่อพิจารณาที่ราคาเท่ากัน บน CursorBench benchmark, Opus 4.8 สามารถทำได้ดีกว่าโมเดล Opus รุ่นก่อนในทุกระดับความพยายาม แสดงให้เห็นถึงการเรียกใช้เครื่องมือ (tool calling) ที่มีประสิทธิภาพมากขึ้น และความสามารถในการทำงานให้สำเร็จลุล่วง

ในด้านการใช้งานทางกฎหมาย Opus 4.8 ได้สร้างสถิติใหม่ โดยทำคะแนนสูงสุดเท่าที่เคยบันทึกได้ใน Legal Agent Benchmark ซึ่งทะลุ 10% โดยรวมในการทดสอบแบบ all-pass มาตรฐาน ระดับความแม่นยำนี้มีความสำคัญอย่างยิ่งสำหรับงานด้านกฎหมายระดับมืออาชีพ ทำให้ผู้ใช้งานสามารถมอบหมายงานที่ซับซ้อนได้อย่างมั่นใจยิ่งขึ้น โมเดลนี้ยังมีความสามารถโดดเด่นในงานที่เกี่ยวข้องกับการใช้งานคอมพิวเตอร์และเบราว์เซอร์ โดยทำคะแนนได้ถึง 84% ใน Online-Mind2Web ซึ่งเป็นการก้าวกระโดดที่สำคัญเหนือกว่า Opus 4.7 และ GPT-5.5 ตอกย้ำสถานะของโมเดลนี้ในฐานะโมเดล Agent ชั้นนำสำหรับแอปพลิเคชันเหล่านี้

นอกเหนือจากตัวชี้วัดประสิทธิภาพดิบๆ แล้ว Claude Opus 4.8 ยังได้รับการออกแบบมาเพื่อความน่าเชื่อถือที่มากขึ้นและประสบการณ์การทำงานร่วมกันที่ราบรื่นยิ่งขึ้น ผู้ทดสอบช่วงแรกได้เน้นย้ำถึงการตัดสินใจที่ดีขึ้นของโมเดล โดยสามารถตั้งคำถามที่ถูกต้อง ระบุข้อผิดพลาดของตนเอง และคัดค้านแผนการที่ไม่สมเหตุสมผลได้ ทำให้เป็นพันธมิตรที่น่าเชื่อถือยิ่งขึ้นสำหรับการพัฒนาและการสำรวจที่ซับซ้อน โดยเฉพาะอย่างยิ่งภายใน Claude Code คุณสามารถสำรวจความสามารถเหล่านี้เพิ่มเติมได้ใน Claude Opus 4.8 System Card

โมเดลนี้ยังแสดงให้เห็นถึงอัตราส่วน signal-to-noise ที่สูงขึ้นในการวิเคราะห์ สร้างผลลัพธ์ที่ให้ข้อมูลเชิงลึกและเข้มข้นขึ้นอย่างรวดเร็ว จุดเด่นสำคัญคือความสามารถของ Opus 4.8 ในการแจ้งเตือนปัญหาที่อาจเกิดขึ้นกับข้อมูล input และ output โดยอัตโนมัติ ซึ่งเป็นคุณสมบัติที่สำคัญที่ช่วยลดภาระของผู้ใช้ในการตรวจจับข้อผิดพลาดดังกล่าว ความซื่อสัตย์ที่ได้รับการปรับปรุงนี้และการลดการอ้างสิทธิ์ที่ไม่ได้รับการสนับสนุนลง มีส่วนช่วยเพิ่มความน่าเชื่อถือสำหรับ Workflow ระดับมืออาชีพที่มีความสำคัญสูง

สรุป

Claude Opus 4.8 นำเสนอการอัปเกรดประสิทธิภาพที่สำคัญเหนือกว่า Opus 4.7 โดยมีความโดดเด่นใน Benchmark ด้านการเขียนโค้ด, งาน Agentic และการให้เหตุผล
ฟีเจอร์ใหม่ๆ เช่น dynamic workflows และการควบคุมระดับความพยายามของผู้ใช้ที่ได้รับการปรับปรุง ช่วยเพิ่มความสามารถในการใช้งานสำหรับปัญหาขนาดใหญ่และการให้ความช่วยเหลือที่เฉพาะเจาะจง
Fast mode สำหรับ Opus 4.8 ราคาถูกลงถึงสามเท่าและเร็วกว่าเดิม 2.5 เท่า ทำให้ AI ขั้นสูงเข้าถึงได้ง่ายขึ้นและคุ้มค่ามากขึ้น
Opus 4.8 แสดงให้เห็นถึง ความน่าเชื่อถือที่เพิ่มขึ้น, การวิเคราะห์คุณภาพสูงขึ้น และมีแนวโน้มที่จะแจ้งเตือนปัญหาที่อาจเกิดขึ้นมากขึ้น ทำให้เป็น AI ที่ทำงานร่วมกันได้อย่างน่าเชื่อถือ

แหล่งที่มา: Introducing Claude Opus 4.8

Anthropic อัปเกรด Claude Opus เป็น 4.8 เพิ่มประสิทธิภาพ Benchmark และการทำงานร่วมกัน

TL;DR

สรุป

อ่านต่อ

Vividh-ASR Benchmark แก้ปัญหาอคติใน Whisper สำหรับภาษาอินเดีย

อยากให้แจ้งเตือน ตอน Newsletter เปิดตัวมั้ย?