Gemini Robotics ER 1.6: ยกระดับ Embodied Reasoning ให้หุ่นยนต์ทำงานในโลกจริงได้แม่นยำขึ้น

TL;DR

Google DeepMind เปิดตัว Gemini Robotics-ER 1.6 การอัปเกรดครั้งใหญ่ของโมเดล reasoning-first สำหรับหุ่นยนต์
โมเดลใหม่นี้พัฒนาเรื่อง embodied reasoning ทำให้หุ่นยนต์เข้าใจพื้นที่ วางแผนงาน และยืนยันความสำเร็จของงานได้ดีขึ้น
มีความสามารถใหม่ instrument reading อ่านค่าจากเกจวัดแรงดันและกระจกวัดระดับได้ พัฒนาร่วมกับ Boston Dynamics
เปิดให้นักพัฒนาใช้งานแล้ววันนี้ผ่าน Gemini API และ Google AI Studio พร้อม Colab สำหรับเริ่มต้น

เพื่อให้หุ่นยนต์ทำงานได้จริงในโรงงาน ห้องแล็บ หรือในบ้าน ตัวมันต้องทำได้มากกว่าแค่ทำตามขั้นตอนที่โปรแกรมไว้ — มันต้อง "ให้เหตุผล" เกี่ยวกับโลกทางกายภาพรอบตัวได้ ความสามารถนี้เรียกว่า embodied reasoning ซึ่งเป็นสะพานเชื่อมระหว่างความฉลาดเชิงดิจิทัลกับการกระทำในโลกจริง ล่าสุด Google DeepMind ได้ขยายสะพานนี้ออกไปอีกขั้นด้วย Gemini Robotics-ER 1.6 โมเดลให้เหตุผลระดับสูงที่ออกแบบมาสำหรับหุ่นยนต์โดยเฉพาะ

เมื่อเทียบกับโมเดลรุ่นก่อนอย่าง Gemini Robotics-ER 1.5 และ Gemini 3.0 Flash เวอร์ชันใหม่นี้ทำงานพื้นฐานที่สำคัญได้ดีขึ้นชัดเจน ทั้งการ ชี้ตำแหน่ง (pointing) ของวัตถุในฉากที่ซับซ้อน, การ นับจำนวน (counting) ที่แม่นยำขึ้น และ การตรวจจับความสำเร็จของงาน (success detection) ที่ทำให้หุ่นยนต์ยืนยันได้เองว่างานเสร็จจริงหรือไม่ ทักษะเหล่านี้อาจฟังดูธรรมดา แต่เป็นตัวแบ่งระหว่างหุ่นยนต์ "เดโมโชว์" กับหุ่นยนต์ที่นำไปใช้งานจริงในระบบ

ความสามารถใหม่ที่น่าจับตาที่สุดคือ instrument reading ซึ่งพัฒนาร่วมกับ Boston Dynamics หุ่นยนต์ที่ใช้ ER 1.6 สามารถอ่านค่าจากเกจวัดแรงดัน (pressure gauge) และกระจกวัดระดับ (sight glass) ที่ซับซ้อนได้ — ตรงกับงานตรวจสอบประจำในโรงงานที่เปลืองคนมาก แทนที่จะมาแทนที่ผู้ตรวจสอบ หุ่นยนต์สามารถเดินตรวจรอบและแจ้งเตือนค่าที่ผิดปกติได้ ทำให้คนงานที่มีทักษะเอาเวลาไปทำงานที่ต้องใช้วิจารณญาณจริงๆ

ในเชิงโครงสร้าง Gemini Robotics-ER 1.6 ถูกออกแบบให้เป็น โมเดลให้เหตุผลระดับสูง (high-level reasoning model) ไม่ใช่ตัวควบคุมแบบ monolithic มันสามารถเรียกใช้เครื่องมือภายนอกได้ในตัว ทั้ง Google Search สำหรับหาข้อมูลใหม่, โมเดล Vision-Language-Action (VLA) สำหรับสั่งการเคลื่อนไหวระดับล่าง และฟังก์ชันใดๆ ที่นักพัฒนากำหนดเอง การแยกชั้นแบบนี้ทำให้ทีมงานเสียบโมเดลใหม่เข้ากับสแต็กหุ่นยนต์เดิมที่มีอยู่ได้โดยไม่ต้องเขียนใหม่ทั้งระบบ

สำหรับนักพัฒนา ขั้นตอนเริ่มต้นนั้นง่าย: โมเดลพร้อมใช้งานแล้ววันนี้ผ่าน Gemini API และ Google AI Studio พร้อมกับ Colab ตัวอย่างที่ DeepMind เตรียมไว้ ครอบคลุมการตั้งค่าและตัวอย่างคำสั่งสำหรับงาน embodied reasoning ถ้ารอชั้น reasoning ที่นั่งอยู่บนสแต็กหุ่นยนต์เดิมโดยไม่ต้องรื้อระบบ ER 1.6 ถือเป็นตัวเลือกที่ใช้ได้จริงที่สุดของ Google ในตอนนี้

สรุป

Gemini Robotics-ER 1.6 คือโมเดล reasoning-first ล่าสุดของ Google DeepMind สำหรับงานหุ่นยนต์ในโลกจริง
ปรับปรุงการให้เหตุผลเชิงพื้นที่ การวางแผนงาน และการตรวจจับความสำเร็จเหนือกว่ารุ่น ER 1.5 และ Gemini 3.0 Flash
เพิ่มความสามารถใหม่ instrument reading อ่านเกจวัดแรงดันและกระจกวัดระดับได้ พัฒนาร่วมกับ Boston Dynamics
นักพัฒนาเริ่มใช้งานได้แล้วผ่าน Gemini API และ Google AI Studio พร้อม Colab ตัวอย่าง

แหล่งที่มา: Gemini Robotics ER 1.6 Announcement