ClaudeTools

แนวทางปฏิบัติใหม่ของ Claude เพิ่มความแม่นยำในการทำงานอัตโนมัติผ่านเบราว์เซอร์

เขียนโดย

ร่างเนื้อหาด้วย AI ตรวจทานและแก้ไขโดยคน

อ่าน ~6 นาที

แนวทางปฏิบัติใหม่ของ Claude เพิ่มความแม่นยำในการทำงานอัตโนมัติผ่านเบราว์เซอร์

TL;DR

  • Anthropic ได้ออกแนวทางปฏิบัติใหม่สำหรับการใช้งาน Claude ในการทำงานอัตโนมัติบนคอมพิวเตอร์และเบราว์เซอร์
  • การปรับขนาดภาพหน้าจอ (screenshot) ก่อนส่งให้โมเดลเป็นหัวใจสำคัญที่ช่วยเพิ่มความแม่นยำในการคลิก
  • Claude 4.6 รองรับขีดจำกัดขนาดภาพที่ 1568 พิกเซล (ขอบยาวสุด) และ 1.15 ล้านพิกเซล (รวม)
  • Claude Opus 4.7 ปรับปรุงให้รองรับความละเอียดสูงขึ้น ด้วยขีดจำกัด 2576 พิกเซล (ขอบยาวสุด) และ 3.75 ล้านพิกเซล (รวม)

Anthropic ได้เผยแพร่แนวทางปฏิบัติที่ดีที่สุดสำหรับการใช้งานโมเดลในตระกูล Claude เพื่อเพิ่มประสิทธิภาพในการทำงานอัตโนมัติผ่านคอมพิวเตอร์และเบราว์เซอร์ โดยเฉพาะอย่างยิ่งสำหรับนักพัฒนาที่ต้องการสร้างระบบ Agentic ที่ซับซ้อนและทำงานข้ามแพลตฟอร์มต่างๆ การปรับปรุงเหล่านี้มีเป้าหมายเพื่อเพิ่มความแม่นยำและความน่าเชื่อถือในการโต้ตอบกับอินเทอร์เฟซผู้ใช้ ทำให้ LLMs สามารถขับเคลื่อนงานจริงได้ดียิ่งขึ้น ไม่ว่าจะเป็นการพัฒนาซอฟต์แวร์หรือการทำงานอัตโนมัติในเวิร์กโฟลว์ที่หลากหลาย

หัวใจสำคัญของแนวทางปฏิบัตินี้อยู่ที่การจัดการขนาดของภาพหน้าจอ (screenshot) ที่ส่งไปยัง API ของ Claude สำหรับการใช้งานบนคอมพิวเตอร์ ความแม่นยำในการคลิกเป็นพื้นฐานที่สำคัญที่สุด หากการคลิกไม่ตรงจุด ระบบอัตโนมัติทั้งหมดก็จะล้มเหลว ไม่ว่าจะเป็นการกรอกแบบฟอร์ม การกดปุ่ม หรือเวิร์กโฟลว์ที่ซับซ้อน การปรับขนาดภาพให้เหมาะสมก่อนส่งไปยัง API จึงเป็นการปรับปรุงที่ส่งผลกระทบมากที่สุดแต่ก็ทำได้ง่ายที่สุด

สำหรับโมเดลในตระกูล Claude 4.6 (รวมถึง Opus 4.6, Sonnet 4.6, และ Haiku 4.5) API สำหรับการใช้งานคอมพิวเตอร์มีข้อจำกัดเรื่องขนาดภาพ โดยขอบภาพที่ยาวที่สุดต้องไม่เกิน 1568 พิกเซล และจำนวนพิกเซลรวมต้องไม่เกิน 1.15 ล้านพิกเซล หากภาพที่ส่งมีขนาดเกินกว่านี้ โมเดลจะทำการปรับขนาดภาพให้เล็กลงโดยอัตโนมัติก่อนทำการประมวลผล ซึ่งอาจส่งผลให้ความแม่นยำลดลง เนื่องจากโมเดลกำลังทำงานกับภาพที่ถูกลดทอนคุณภาพไป

อย่างไรก็ตาม Claude Opus 4.7 ได้รับการพัฒนาให้รองรับความละเอียดที่สูงขึ้นอย่างมีนัยสำคัญ โดยมีขีดจำกัดที่ 2576 พิกเซลสำหรับขอบภาพที่ยาวที่สุด และ 3.75 ล้านพิกเซลสำหรับจำนวนพิกเซลรวม การรองรับความละเอียดที่สูงขึ้นนี้ช่วยให้โมเดลสามารถมองเห็นรายละเอียดของหน้าจอได้ชัดเจนยิ่งขึ้น ซึ่งเป็นประโยชน์อย่างยิ่งสำหรับแอปพลิเคชันที่ต้องการความละเอียดสูง อย่างไรก็ตาม ภาพที่เกินขีดจำกัดเหล่านี้ก็จะถูกปรับขนาดลงเช่นกันก่อนส่งให้โมเดล

ปัญหาหลักที่ทำให้การคลิกไม่แม่นยำ โดยเฉพาะที่ความละเอียดสูง คือความไม่สอดคล้องกันระหว่างพื้นที่พิกัดของหน้าจอที่ผู้ใช้กำหนด (display_width_px / display_height_px) กับขนาดภาพที่โมเดลมองเห็น เมื่อภาพถูกปรับขนาดภายใน API ทำให้การคำนวณตำแหน่งคลิกของโมเดลอาจคลาดเคลื่อนจากภาพต้นฉบับ วิธีแก้ไขที่ตรงไปตรงมาที่สุดคือการ ปรับขนาดภาพหน้าจอให้พอดีกับข้อจำกัดของ API ก่อนส่ง การเปลี่ยนแปลงเพียงจุดนี้สามารถเพิ่มความแม่นยำได้อย่างมาก

Anthropic แนะนำให้เริ่มต้นด้วยความละเอียด 1280x720 พิกเซล ซึ่งเป็นค่าเริ่มต้นที่ใช้งานได้จริงสำหรับกรณีส่วนใหญ่ โดยใช้ประมาณ 80% ของงบประมาณพิกเซลและอยู่ในเกณฑ์ที่ปลอดภัยสำหรับทั้งขอบยาวสุดและพิกเซลรวม นอกจากนี้ยังเป็นความละเอียดมาตรฐานที่โมเดลได้เห็นระหว่างการฝึกฝน สำหรับผู้ที่ใช้ Opus 4.7 อาจพิจารณาเริ่มต้นที่ 1080p เพื่อคุณภาพที่ดีขึ้น โดยยังคงสมดุลระหว่างการใช้โทเค็นและประสิทธิภาพ หากต้องการดึงข้อมูลภาพให้ได้มากที่สุดเท่าที่จะทำได้ แนะนำให้ใช้วิธี "max API fit" ซึ่งคำนวณความละเอียดที่เหมาะสมที่สุดสำหรับแต่ละภาพ โดยพิจารณาจากอัตราส่วนภาพต้นฉบับ เพื่อหลีกเลี่ยงการบิดเบือนของภาพ

สรุป

  • Anthropic เผยแนวทางปฏิบัติที่ดีที่สุดเพื่อเพิ่มความแม่นยำของ Claude ในการทำงานอัตโนมัติผ่านคอมพิวเตอร์และเบราว์เซอร์
  • การปรับขนาดภาพหน้าจอก่อนส่งเป็นปัจจัยสำคัญที่สุดในการเพิ่มความแม่นยำในการคลิก
  • Claude 4.6 รองรับขีดจำกัด 1568px (ขอบยาว) / 1.15MP (รวม) และ Opus 4.7 รองรับ 2576px / 3.75MP

แหล่งที่มา: Best practices for computer and browser use with Claude | Claude

Cursor เพิ่มสภาพแวดล้อม dev สำหรับ cloud agent เพื่อทำงานแบบครบวงจร

Cursor เพิ่มสภาพแวดล้อม dev สำหรับ cloud agent เพื่อทำงานแบบครบวงจร

การอัปเดตล่าสุดของ Cursor นำเสนอสภาพแวดล้อมการพัฒนาที่ปรับแต่งได้สำหรับ cloud agent ช่วยให้ทำงานได้แบบครบวงจรภายในการตั้งค่าที่ควบคุมได้

อ่านข่าวนี้

อยากให้แจ้งเตือน ตอน Newsletter เปิดตัวมั้ย?

เรากำลังวัดความสนใจก่อนเปิด weekly AI digest จริงๆ ใส่ email ไว้ เราจะ email ไปบอกตอนเปิดตัว — ส่งครั้งเดียว ไม่มี spam

เราใช้ email เฉพาะเพื่อแจ้งเปิดตัว newsletter เท่านั้น ไม่มี spam — อ่าน นโยบายความเป็นส่วนตัว