ClaudeTools

แนวทางปฏิบัติใหม่ของ Claude เพิ่มความแม่นยำในการทำงานอัตโนมัติผ่านเบราว์เซอร์

เขียนโดย

ร่างเนื้อหาด้วย AI ตรวจทานและแก้ไขโดยคน

อ่าน ~6 นาที

แนวทางปฏิบัติใหม่ของ Claude เพิ่มความแม่นยำในการทำงานอัตโนมัติผ่านเบราว์เซอร์

TL;DR

  • Anthropic ได้ออกแนวทางปฏิบัติใหม่สำหรับการใช้งาน Claude ในการทำงานอัตโนมัติบนคอมพิวเตอร์และเบราว์เซอร์
  • การปรับขนาดภาพหน้าจอ (screenshot) ก่อนส่งให้โมเดลเป็นหัวใจสำคัญที่ช่วยเพิ่มความแม่นยำในการคลิก
  • Claude 4.6 รองรับขีดจำกัดขนาดภาพที่ 1568 พิกเซล (ขอบยาวสุด) และ 1.15 ล้านพิกเซล (รวม)
  • Claude Opus 4.7 ปรับปรุงให้รองรับความละเอียดสูงขึ้น ด้วยขีดจำกัด 2576 พิกเซล (ขอบยาวสุด) และ 3.75 ล้านพิกเซล (รวม)

Anthropic ได้เผยแพร่แนวทางปฏิบัติที่ดีที่สุดสำหรับการใช้งานโมเดลในตระกูล Claude เพื่อเพิ่มประสิทธิภาพในการทำงานอัตโนมัติผ่านคอมพิวเตอร์และเบราว์เซอร์ โดยเฉพาะอย่างยิ่งสำหรับนักพัฒนาที่ต้องการสร้างระบบ Agentic ที่ซับซ้อนและทำงานข้ามแพลตฟอร์มต่างๆ การปรับปรุงเหล่านี้มีเป้าหมายเพื่อเพิ่มความแม่นยำและความน่าเชื่อถือในการโต้ตอบกับอินเทอร์เฟซผู้ใช้ ทำให้ LLMs สามารถขับเคลื่อนงานจริงได้ดียิ่งขึ้น ไม่ว่าจะเป็นการพัฒนาซอฟต์แวร์หรือการทำงานอัตโนมัติในเวิร์กโฟลว์ที่หลากหลาย

หัวใจสำคัญของแนวทางปฏิบัตินี้อยู่ที่การจัดการขนาดของภาพหน้าจอ (screenshot) ที่ส่งไปยัง API ของ Claude สำหรับการใช้งานบนคอมพิวเตอร์ ความแม่นยำในการคลิกเป็นพื้นฐานที่สำคัญที่สุด หากการคลิกไม่ตรงจุด ระบบอัตโนมัติทั้งหมดก็จะล้มเหลว ไม่ว่าจะเป็นการกรอกแบบฟอร์ม การกดปุ่ม หรือเวิร์กโฟลว์ที่ซับซ้อน การปรับขนาดภาพให้เหมาะสมก่อนส่งไปยัง API จึงเป็นการปรับปรุงที่ส่งผลกระทบมากที่สุดแต่ก็ทำได้ง่ายที่สุด

สำหรับโมเดลในตระกูล Claude 4.6 (รวมถึง Opus 4.6, Sonnet 4.6, และ Haiku 4.5) API สำหรับการใช้งานคอมพิวเตอร์มีข้อจำกัดเรื่องขนาดภาพ โดยขอบภาพที่ยาวที่สุดต้องไม่เกิน 1568 พิกเซล และจำนวนพิกเซลรวมต้องไม่เกิน 1.15 ล้านพิกเซล หากภาพที่ส่งมีขนาดเกินกว่านี้ โมเดลจะทำการปรับขนาดภาพให้เล็กลงโดยอัตโนมัติก่อนทำการประมวลผล ซึ่งอาจส่งผลให้ความแม่นยำลดลง เนื่องจากโมเดลกำลังทำงานกับภาพที่ถูกลดทอนคุณภาพไป

อย่างไรก็ตาม Claude Opus 4.7 ได้รับการพัฒนาให้รองรับความละเอียดที่สูงขึ้นอย่างมีนัยสำคัญ โดยมีขีดจำกัดที่ 2576 พิกเซลสำหรับขอบภาพที่ยาวที่สุด และ 3.75 ล้านพิกเซลสำหรับจำนวนพิกเซลรวม การรองรับความละเอียดที่สูงขึ้นนี้ช่วยให้โมเดลสามารถมองเห็นรายละเอียดของหน้าจอได้ชัดเจนยิ่งขึ้น ซึ่งเป็นประโยชน์อย่างยิ่งสำหรับแอปพลิเคชันที่ต้องการความละเอียดสูง อย่างไรก็ตาม ภาพที่เกินขีดจำกัดเหล่านี้ก็จะถูกปรับขนาดลงเช่นกันก่อนส่งให้โมเดล

ปัญหาหลักที่ทำให้การคลิกไม่แม่นยำ โดยเฉพาะที่ความละเอียดสูง คือความไม่สอดคล้องกันระหว่างพื้นที่พิกัดของหน้าจอที่ผู้ใช้กำหนด (display_width_px / display_height_px) กับขนาดภาพที่โมเดลมองเห็น เมื่อภาพถูกปรับขนาดภายใน API ทำให้การคำนวณตำแหน่งคลิกของโมเดลอาจคลาดเคลื่อนจากภาพต้นฉบับ วิธีแก้ไขที่ตรงไปตรงมาที่สุดคือการ ปรับขนาดภาพหน้าจอให้พอดีกับข้อจำกัดของ API ก่อนส่ง การเปลี่ยนแปลงเพียงจุดนี้สามารถเพิ่มความแม่นยำได้อย่างมาก

Anthropic แนะนำให้เริ่มต้นด้วยความละเอียด 1280x720 พิกเซล ซึ่งเป็นค่าเริ่มต้นที่ใช้งานได้จริงสำหรับกรณีส่วนใหญ่ โดยใช้ประมาณ 80% ของงบประมาณพิกเซลและอยู่ในเกณฑ์ที่ปลอดภัยสำหรับทั้งขอบยาวสุดและพิกเซลรวม นอกจากนี้ยังเป็นความละเอียดมาตรฐานที่โมเดลได้เห็นระหว่างการฝึกฝน สำหรับผู้ที่ใช้ Opus 4.7 อาจพิจารณาเริ่มต้นที่ 1080p เพื่อคุณภาพที่ดีขึ้น โดยยังคงสมดุลระหว่างการใช้โทเค็นและประสิทธิภาพ หากต้องการดึงข้อมูลภาพให้ได้มากที่สุดเท่าที่จะทำได้ แนะนำให้ใช้วิธี "max API fit" ซึ่งคำนวณความละเอียดที่เหมาะสมที่สุดสำหรับแต่ละภาพ โดยพิจารณาจากอัตราส่วนภาพต้นฉบับ เพื่อหลีกเลี่ยงการบิดเบือนของภาพ

สรุป

  • Anthropic เผยแนวทางปฏิบัติที่ดีที่สุดเพื่อเพิ่มความแม่นยำของ Claude ในการทำงานอัตโนมัติผ่านคอมพิวเตอร์และเบราว์เซอร์
  • การปรับขนาดภาพหน้าจอก่อนส่งเป็นปัจจัยสำคัญที่สุดในการเพิ่มความแม่นยำในการคลิก
  • Claude 4.6 รองรับขีดจำกัด 1568px (ขอบยาว) / 1.15MP (รวม) และ Opus 4.7 รองรับ 2576px / 3.75MP

แหล่งที่มา: Best practices for computer and browser use with Claude | Claude

Cursor Canvas เพิ่มโหมด Design Mode สำหรับการแก้ไขที่เร็วขึ้นและรายงานการใช้ Context

Cursor Canvas เพิ่มโหมด Design Mode สำหรับการแก้ไขที่เร็วขึ้นและรายงานการใช้ Context

Canvas ของ Cursor ตอนนี้มีโหมด Design Mode สำหรับการใส่คำอธิบายบน UI elements โดยตรง และรายงานแบบโต้ตอบเพื่อวิเคราะห์การใช้ Context ของ agent ซึ่งช่วยเพิ่มความเร็วในการแก้ไขและความโปร่งใส

อ่านข่าวนี้

อยากให้แจ้งเตือน ตอน Newsletter เปิดตัวมั้ย?

เรากำลังวัดความสนใจก่อนเปิด weekly AI digest จริงๆ ใส่ email ไว้ เราจะ email ไปบอกตอนเปิดตัว — ส่งครั้งเดียว ไม่มี spam

เราใช้ email เฉพาะเพื่อแจ้งเปิดตัว newsletter เท่านั้น ไม่มี spam — อ่าน นโยบายความเป็นส่วนตัว