Google / DeepMindModel

Decoupled DiLoCo: การฝึก AI แบบกระจายที่ทนทานในระดับสเกล

เขียนโดย

ร่างเนื้อหาด้วย AI ตรวจทานและแก้ไขโดยคน

อ่าน ~5 นาที

Decoupled DiLoCo: การฝึก AI แบบกระจายที่ทนทานในระดับสเกล

TL;DR

  • Google DeepMind เปิดตัว Decoupled DiLoCo สถาปัตยกรรมใหม่สำหรับการฝึกโมเดล AI ขนาดใหญ่แบบกระจาย
  • เทคนิคนี้ช่วยให้การฝึกโมเดลมีความ ทนทานต่อความผิดพลาดของฮาร์ดแวร์ มากขึ้น โดยแยกการฝึกออกเป็น "เกาะ" การประมวลผลที่ทำงานแบบอะซิงโครนัส
  • ลดปัญหาคอขวดด้านการสื่อสาร เมื่อฝึกโมเดลข้ามศูนย์ข้อมูลที่อยู่ห่างไกล ทำให้มีประสิทธิภาพสูงขึ้น

Decoupled DiLoCo เป็นนวัตกรรมล่าสุดจาก Google DeepMind ที่จะเปลี่ยนวิธีการฝึกโมเดลปัญญาประดิษฐ์ขนาดใหญ่ในปัจจุบันไปอย่างสิ้นเชิง แนวทางใหม่นี้ถูกออกแบบมาเพื่อแก้ไขปัญหาความท้าทายหลักในการฝึกโมเดล AI ที่ซับซ้อน ซึ่งมักจะต้องอาศัยระบบที่ใหญ่และเชื่อมต่อกันอย่างแน่นหนา โดยชิปประมวลผลจำนวนมากต้องทำงานประสานกันอย่างใกล้ชิด ซึ่งเป็นวิธีการที่มีประสิทธิภาพ แต่ก็สร้างภาระอย่างมากในการรักษาการซิงโครไนซ์ที่สมบูรณ์แบบ เมื่อเรามองไปถึงยุคต่อไปของ AI ที่ต้องการพลังประมวลผลมหาศาล การรักษาการซิงโครไนซ์นี้ให้ได้ข้ามชิปหลายพันตัวกลายเป็นความท้าทายด้านการจัดการที่สำคัญ

หัวใจหลักของ Decoupled DiLoCo คือการแบ่งกระบวนการฝึกโมเดลขนาดใหญ่ออกเป็น "เกาะ" การประมวลผลที่แยกจากกัน (decoupled "islands" of compute) โดยข้อมูลจะไหลเวียนระหว่างเกาะเหล่านี้แบบอะซิงโครนัส (asynchronous data flowing between them) สถาปัตยกรรมนี้ช่วยให้ปัญหาที่เกิดขึ้นในเกาะใดเกาะหนึ่งไม่ส่งผลกระทบต่อส่วนอื่นๆ ของระบบ ทำให้ส่วนที่เหลือสามารถเรียนรู้ต่อไปได้อย่างมีประสิทธิภาพ นี่คือสิ่งที่ทำให้ Decoupled DiLoCo ทนทานและยืดหยุ่น มากขึ้นสำหรับการฝึกโมเดลขั้นสูงข้ามศูนย์ข้อมูลที่กระจายอยู่ทั่วโลก สิ่งสำคัญคือ เทคนิคนี้ ไม่ประสบปัญหาความล่าช้าในการสื่อสาร ซึ่งเป็นข้อจำกัดที่ทำให้วิธีการแบบกระจายก่อนหน้านี้ เช่น Data-Parallel ไม่สามารถใช้งานได้จริงในระดับสากล

เทคโนโลยีนี้ต่อยอดมาจากความสำเร็จสองประการก่อนหน้านี้ ได้แก่ Pathways ซึ่งเป็นระบบ AI แบบกระจายที่ใช้การไหลของข้อมูลแบบอะซิงโครนัส และ DiLoCo ที่สามารถลดแบนด์วิดท์ที่ต้องใช้ระหว่างศูนย์ข้อมูลที่กระจายตัวได้อย่างมาก ทำให้การฝึกโมเดลภาษาขนาดใหญ่ข้ามสถานที่ห่างไกลเป็นไปได้จริง Decoupled DiLoCo นำแนวคิดทั้งสองมารวมกันเพื่อการฝึกโมเดล AI ที่ยืดหยุ่นและมีประสิทธิภาพมากขึ้นในระดับสเกล โดยอาศัย Pathways เป็นพื้นฐาน ช่วยให้สามารถฝึกแบบอะซิงโครนัสข้าม "เกาะ" การประมวลผลที่แยกจากกัน (ที่เรียกว่า learner units) ดังนั้น หากชิปตัวใดตัวหนึ่งเกิดความล้มเหลว ก็จะไม่ขัดขวางความคืบหน้าของชิปอื่นๆ

สิ่งที่น่าสนใจคือ โครงสร้างพื้นฐานนี้ยังสามารถ ซ่อมแซมตัวเองได้ (self-healing) ในการทดสอบ ทีมวิจัยได้ใช้วิธีการที่เรียกว่า "chaos engineering" เพื่อสร้างความล้มเหลวของฮาร์ดแวร์จำลองขึ้นมาระหว่างการฝึก และพบว่า Decoupled DiLoCo สามารถฝึกต่อไปได้แม้จะสูญเสียหน่วยประมวลผลไปทั้งกลุ่มก็ตาม ความสามารถนี้มีความสำคัญอย่างยิ่งเมื่อเราต้องการฝึกโมเดล AI ที่มีความซับซ้อนและใหญ่ขึ้นเรื่อยๆ ซึ่งต้องการการประมวลผลที่กระจายตัวและมีความยืดหยุ่นสูง นักวิจัยกำลังสำรวจแนวทางที่หลากหลายเพื่อฝึกโมเดลผ่านการประมวลผลที่มากขึ้น สถานที่ที่หลากหลายขึ้น และฮาร์ดแวร์ที่แตกต่างกัน เพื่อรองรับอนาคตของ AI ที่ไร้ขีดจำกัด

สรุป

  • Decoupled DiLoCo เป็นสถาปัตยกรรมใหม่ที่ Google DeepMind พัฒนาขึ้นเพื่อการฝึกโมเดล AI ขนาดใหญ่แบบกระจาย
  • ช่วยเพิ่ม ความทนทานต่อความผิดพลาดของฮาร์ดแวร์ ด้วยการแบ่งการฝึกเป็นส่วนๆ ที่ทำงานแบบอิสระต่อกัน
  • ลดปัญหาการสื่อสาร ทำให้การฝึกข้ามศูนย์ข้อมูลที่ห่างไกลมีประสิทธิภาพและเป็นไปได้จริง

แหล่งที่มา: Decoupled DiLoCo: Resilient, Distributed AI Training at Scale

AI และ GPU ของ NVIDIA ถอดรหัสข้อมูล JWST ค้นพบความลับจักรวาลยุคแรกได้เร็วขึ้น

AI และ GPU ของ NVIDIA ถอดรหัสข้อมูล JWST ค้นพบความลับจักรวาลยุคแรกได้เร็วขึ้น

นักดาราศาสตร์ใช้ GPU ของ NVIDIA และโมเดล AI ชื่อ Morpheus วิเคราะห์ข้อมูลเทราไบต์จากกล้องโทรทรรศน์อวกาศเจมส์ เวบบ์ เร่งการค้นพบทางจักรวาลและเผยกาแล็กซีจานแรกเริ่มที่ไม่คาดคิด

อ่านข่าวนี้

อยากให้แจ้งเตือน ตอน Newsletter เปิดตัวมั้ย?

เรากำลังวัดความสนใจก่อนเปิด weekly AI digest จริงๆ ใส่ email ไว้ เราจะ email ไปบอกตอนเปิดตัว — ส่งครั้งเดียว ไม่มี spam

เราใช้ email เฉพาะเพื่อแจ้งเปิดตัว newsletter เท่านั้น ไม่มี spam — อ่าน นโยบายความเป็นส่วนตัว