Anthropic อัปเกรด Claude Opus เป็น 4.8 เพิ่มประสิทธิภาพ Benchmark และการทำงานร่วมกัน
เขียนโดยLilac
ร่างเนื้อหาด้วย AI ตรวจทานและแก้ไขโดยคน
![]()
TL;DR
- Anthropic ได้เปิดตัว Claude Opus 4.8 ซึ่งเป็นการอัปเกรดจาก Claude Opus 4.7
- Opus 4.8 แสดงให้เห็นถึง การปรับปรุง Benchmark ที่สำคัญ ในด้านการเขียนโค้ด, งาน Agentic, การให้เหตุผล และการทำงานที่ต้องใช้ความรู้
- ฟีเจอร์ใหม่ประกอบด้วย การควบคุมระดับความพยายามของ Claude บน claude.ai และฟีเจอร์ "dynamic workflows" ใน Claude Code
- โหมด Fast mode สำหรับ Opus 4.8 ราคาถูกลงถึงสามเท่า และทำงานเร็วกว่าเดิม 2.5 เท่า
Anthropic กำลังเปิดตัวการอัปเกรดครั้งใหญ่ให้กับโมเดล AI เรือธงของบริษัท ด้วยการปล่อย Claude Opus 4.8 เวอร์ชันใหม่นี้ต่อยอดมาจาก Claude Opus 4.7 โดยสัญญาว่าจะมอบประสิทธิภาพที่ดียิ่งขึ้นในงานสำคัญหลากหลาย ตั้งแต่การเขียนโค้ดไปจนถึงการให้เหตุผลที่ซับซ้อน สิ่งที่น่าตื่นเต้นที่สุดสำหรับผู้ใช้งานคือ การอัปเกรดครั้งนี้พร้อมใช้งานแล้วใน ราคาเท่าเดิม กับรุ่นก่อนหน้า มอบพลังที่มากขึ้นโดยไม่มีค่าใช้จ่ายเพิ่มเติม
Opus 4.8 นำเสนอการพัฒนาที่สำคัญหลายประการ โดยมุ่งเป้นการปรับปรุงประสบการณ์ผู้ใช้และประโยชน์ใช้สอยของ AI บนแพลตฟอร์ม claude.ai ผู้ใช้งานสามารถควบคุมระดับ "ความพยายาม" ที่ Claude จะใช้ในแต่ละงานได้อย่างละเอียด ซึ่งช่วยให้การจัดการทรัพยากรและการสร้างผลลัพธ์ตรงตามความต้องการเฉพาะมากขึ้น นอกจากนี้ Claude Code ยังได้รับฟีเจอร์ใหม่ที่ทรงพลังอย่าง "dynamic workflows" ซึ่งออกแบบมาเพื่อจัดการกับปัญหาขนาดใหญ่มากโดยการแบ่งงานออกเป็นส่วนย่อยและจัดการลำดับการดำเนินงานที่ซับซ้อน
การปรับปรุงใน Claude Opus 4.8 ไม่ใช่แค่การเพิ่มประสิทธิภาพเล็กน้อย แต่ยังสะท้อนให้เห็นถึงความก้าวหน้าอย่างมากในการทดสอบ Benchmark ต่างๆ โมเดลเวอร์ชันใหม่นี้โดดเด่นในฐานะโมเดลเดียวที่สามารถทำทุกเคสสำเร็จลุล่วงตั้งแต่ต้นจนจบใน Super-Agent benchmark ซึ่งเหนือกว่าโมเดล Opus รุ่นก่อนๆ และ GPT-5.5 เมื่อพิจารณาที่ราคาเท่ากัน บน CursorBench benchmark, Opus 4.8 สามารถทำได้ดีกว่าโมเดล Opus รุ่นก่อนในทุกระดับความพยายาม แสดงให้เห็นถึงการเรียกใช้เครื่องมือ (tool calling) ที่มีประสิทธิภาพมากขึ้น และความสามารถในการทำงานให้สำเร็จลุล่วง
ในด้านการใช้งานทางกฎหมาย Opus 4.8 ได้สร้างสถิติใหม่ โดยทำคะแนนสูงสุดเท่าที่เคยบันทึกได้ใน Legal Agent Benchmark ซึ่งทะลุ 10% โดยรวมในการทดสอบแบบ all-pass มาตรฐาน ระดับความแม่นยำนี้มีความสำคัญอย่างยิ่งสำหรับงานด้านกฎหมายระดับมืออาชีพ ทำให้ผู้ใช้งานสามารถมอบหมายงานที่ซับซ้อนได้อย่างมั่นใจยิ่งขึ้น โมเดลนี้ยังมีความสามารถโดดเด่นในงานที่เกี่ยวข้องกับการใช้งานคอมพิวเตอร์และเบราว์เซอร์ โดยทำคะแนนได้ถึง 84% ใน Online-Mind2Web ซึ่งเป็นการก้าวกระโดดที่สำคัญเหนือกว่า Opus 4.7 และ GPT-5.5 ตอกย้ำสถานะของโมเดลนี้ในฐานะโมเดล Agent ชั้นนำสำหรับแอปพลิเคชันเหล่านี้
นอกเหนือจากตัวชี้วัดประสิทธิภาพดิบๆ แล้ว Claude Opus 4.8 ยังได้รับการออกแบบมาเพื่อความน่าเชื่อถือที่มากขึ้นและประสบการณ์การทำงานร่วมกันที่ราบรื่นยิ่งขึ้น ผู้ทดสอบช่วงแรกได้เน้นย้ำถึงการตัดสินใจที่ดีขึ้นของโมเดล โดยสามารถตั้งคำถามที่ถูกต้อง ระบุข้อผิดพลาดของตนเอง และคัดค้านแผนการที่ไม่สมเหตุสมผลได้ ทำให้เป็นพันธมิตรที่น่าเชื่อถือยิ่งขึ้นสำหรับการพัฒนาและการสำรวจที่ซับซ้อน โดยเฉพาะอย่างยิ่งภายใน Claude Code คุณสามารถสำรวจความสามารถเหล่านี้เพิ่มเติมได้ใน Claude Opus 4.8 System Card
โมเดลนี้ยังแสดงให้เห็นถึงอัตราส่วน signal-to-noise ที่สูงขึ้นในการวิเคราะห์ สร้างผลลัพธ์ที่ให้ข้อมูลเชิงลึกและเข้มข้นขึ้นอย่างรวดเร็ว จุดเด่นสำคัญคือความสามารถของ Opus 4.8 ในการแจ้งเตือนปัญหาที่อาจเกิดขึ้นกับข้อมูล input และ output โดยอัตโนมัติ ซึ่งเป็นคุณสมบัติที่สำคัญที่ช่วยลดภาระของผู้ใช้ในการตรวจจับข้อผิดพลาดดังกล่าว ความซื่อสัตย์ที่ได้รับการปรับปรุงนี้และการลดการอ้างสิทธิ์ที่ไม่ได้รับการสนับสนุนลง มีส่วนช่วยเพิ่มความน่าเชื่อถือสำหรับ Workflow ระดับมืออาชีพที่มีความสำคัญสูง
สรุป
- Claude Opus 4.8 นำเสนอการอัปเกรดประสิทธิภาพที่สำคัญเหนือกว่า Opus 4.7 โดยมีความโดดเด่นใน Benchmark ด้านการเขียนโค้ด, งาน Agentic และการให้เหตุผล
- ฟีเจอร์ใหม่ๆ เช่น dynamic workflows และการควบคุมระดับความพยายามของผู้ใช้ที่ได้รับการปรับปรุง ช่วยเพิ่มความสามารถในการใช้งานสำหรับปัญหาขนาดใหญ่และการให้ความช่วยเหลือที่เฉพาะเจาะจง
- Fast mode สำหรับ Opus 4.8 ราคาถูกลงถึงสามเท่าและเร็วกว่าเดิม 2.5 เท่า ทำให้ AI ขั้นสูงเข้าถึงได้ง่ายขึ้นและคุ้มค่ามากขึ้น
- Opus 4.8 แสดงให้เห็นถึง ความน่าเชื่อถือที่เพิ่มขึ้น, การวิเคราะห์คุณภาพสูงขึ้น และมีแนวโน้มที่จะแจ้งเตือนปัญหาที่อาจเกิดขึ้นมากขึ้น ทำให้เป็น AI ที่ทำงานร่วมกันได้อย่างน่าเชื่อถือ
แหล่งที่มา: Introducing Claude Opus 4.8
อ่านต่อ

Vividh-ASR Benchmark แก้ปัญหาอคติใน Whisper สำหรับภาษาอินเดีย
เกณฑ์มาตรฐานใหม่และสูตรการปรับแต่งช่วยเพิ่มความแม่นยำของ Whisper ในการพูดแบบธรรมชาติสำหรับภาษาอินเดีย ได้ผลดีกว่าโมเดลที่ใหญ่กว่า.
อ่านข่าวนี้