Claude Opus 4.6: ข้อมูลเชิงลึกจากการทดสอบของลูกค้ากลุ่มแรก

ก่อนที่ Anthropic จะปล่อย Claude Opus 4.6 ให้ทุกคนได้ใช้ มีลูกค้ากลุ่มเล็ก ๆ อย่าง Harvey, bolt.new, Shopify และ Lovable ที่ได้สิทธิ early access ลองเอาโมเดลนี้ไปใช้กับงานจริงของตัวเองก่อน ผลที่ได้คือหลายทีมรู้สึกชัดเจนว่าโมเดลตัวนี้ให้เหตุผลเก่งขึ้น ทำงานอิสระมากขึ้น และเริ่มเข้าใกล้คำว่า “เพื่อนร่วมงาน AI” มากกว่าเดิม

ไว้ทำอะไร
Opus 4.6 ถูกวางตัวเป็นโมเดลระดับบนสุดสำหรับงานจริงจังที่ต้องใช้เหตุผลลึก ๆ:

งานกฎหมายและงานองค์กรขนาดใหญ่: ทีม Harvey เอา Opus 4.6 ไปทดสอบกับ BigLaw Bench ซึ่งจำลองงานกฎหมายจริง ๆ และได้คะแนน 90.2% เป็นโมเดล Anthropic ตัวแรกที่ทะลุ 90% แถม 40% ของงานได้คะแนนเต็ม ทนายในทีมบอกว่าคำตอบ “ฉลาดและวิเคราะห์ได้เหมือนกำลังคิดอยู่จริง ๆ”
ดีบักและเขียนโค้ดซับซ้อน: bolt.new ใช้ทั้งระบบ eval อัตโนมัติและการลองด้วยมือ พบว่า Opus 4.6 แก้บั๊ก waterfall graph ที่ติดมาหลายครั้งกับโมเดลเก่าได้ตั้งแต่ครั้งแรก แถมจับได้ว่ามีการยิง HubSpot API พร้อมกัน 8 ครั้ง และมีการใช้ fetch ตรง ๆ ที่เลี่ยงระบบ rate-limit ของโปรเจกต์ ส่วน Shopify ก็ให้โมเดลช่วยพอร์ตไลบรารีขนาดใหญ่จาก TypeScript ไป Ruby สร้าง shim รันกับเทสต์เดิม และย้าย spec มาได้เกือบหมดในรอบเดียว
ช่วยคิดและสร้างโปรดักต์: ที่ Lovable วิศวกรใช้ Opus 4.6 ทำ “vibe check” โดยลองสร้างแอปจริง หนึ่งในเคสคือ logic ซับซ้อนเรื่องแผนที่รถไฟใต้ดินที่เคยไปไม่รอดกับโมเดลรุ่นก่อน ๆ แต่รอบนี้ไปได้ไกลกว่าที่ทีมคาดไว้ชัดเจน

ถ้างานของคุณมีทั้งกฎหมาย โค้ดใหญ่ ๆ หรือโปรดักต์ที่ต้องคิดหลายชั้น Opus 4.6 ถูกออกแบบมาให้ช่วยแบกงานยาก ๆ เหล่านี้แทนคุณ

ทำไมต้องสนใจ
เสียงสะท้อนจากหลายทีมไปในทิศทางเดียวกันคือ “ความสัมพันธ์กับโมเดลกำลังเปลี่ยนไป”:

ให้เหตุผลลึกและไว้ใจได้มากขึ้น: Garrett Serviss จาก bolt.new บอกว่า “การกระโดดขึ้นของความสามารถด้าน reasoning นั้นสัมผัสได้จริง ๆ” โมเดลตามรอยระบบที่ยุ่งเหยิง หา root cause และแก้ปัญหาที่รุ่นก่อนทำพลาดซ้ำ ๆ ได้
เริ่มเหมือนเพื่อนร่วมทีมจริง ๆ: Paulo Arruda จาก Shopify เล่าว่าแค่สั่งให้ย้ายฟีเจอร์หนึ่งไปเมนูอีกที่โดยไม่ได้ลงดีเทลเยอะ Opus 4.6 ไม่แค่ย้าย แต่เติมรายละเอียดที่เขา “พอเห็นแล้วถึงรู้ว่าตัวเองอยากได้” ทำให้รู้สึกเหมือนโมเดลเดา “คำสั่งถัดไป” ได้ ส่วน Ben Lafferty บอกว่า Opus 4.6 คือโมเดลแรกจาก Anthropic ที่รู้สึกเหมือนเป็น “ผู้ร่วมงาน” ในชีวิตประจำวันจริง ๆ
ตามคำสั่งเก่งขึ้นและทำงานเองได้มากขึ้น: หลายทีมใช้เวลาปรับ prompt น้อยลง ไม่ต้องจูนคำสั่งจุกจิกตลอดเวลา ฝั่ง Lovable ยังรู้สึกได้ถึง “ความเป็นอิสระ” ที่เพิ่มขึ้น เมื่อโมเดลใช้ browser และเทสต์เองได้ในระบบของเขา

สรุปคือ Opus 4.6 ไม่ได้เป็นแค่รุ่นอัปเกรด แต่เป็นก้าวสำคัญไปสู่โมเดลที่เรากล้าฝากงานใหญ่ ๆ ระยะยาวได้มากขึ้น

ใช้ได้ที่ไหน
Claude Opus 4.6 เปิดให้ใช้งานผ่านแพลตฟอร์มของ Anthropic สำหรับทีมและองค์กรที่อยากได้โมเดล reasoning ระดับท็อปไปวางเป็นหัวใจของ workflow ลองเอาไปเทสต์กับ benchmark, งานดีบัก และโปรดักต์ไอเดียของทีมตัวเอง แล้วดูว่ามันเปลี่ยนสิ่งที่คุณทำได้แค่ไหน

ลองได้ที่: Behind the model launch: What customers discovered testing Claude Opus 4.6 early — แล้วลองใช้ Claude Opus 4.6 กับงานจริงของทีมคุณบนแพลตฟอร์มของ Anthropic

Claude Opus 4.6: ข้อมูลเชิงลึกจากการทดสอบของลูกค้ากลุ่มแรก

อ่านต่อ

Anthropic อัปเกรด Claude Opus เป็น 4.8 เพิ่มประสิทธิภาพ Benchmark และการทำงานร่วมกัน

อยากให้แจ้งเตือน ตอน Newsletter เปิดตัวมั้ย?