TGS เพิ่มประสิทธิภาพการเทรนโมเดล AI แผ่นดินไหวบน AWS ลดเวลาจาก 6 เดือนเหลือเพียง 5 วัน

ข่าวดีสำหรับวงการพลังงานและ AI! TGS ผู้ให้บริการข้อมูลธรณีวิทยาชั้นนำ ได้จับมือกับศูนย์นวัตกรรม Generative AI ของ AWS (AWS Generative AI Innovation Center หรือ GenAIIC) เพื่อยกระดับการฝึกอบรมโมเดลพื้นฐานแผ่นดินไหว (Seismic Foundation Model - SFM) บนโครงสร้างพื้นฐานของ AWS ผลลัพธ์ที่ได้นั้นน่าทึ่งมาก เพราะสามารถลดเวลาการฝึกอบรมโมเดลจากเดิม 6 เดือน ให้เหลือเพียงแค่ 5 วันเท่านั้น!

ทำไมถึงต้องมีนวัตกรรมนี้?

TGS ทำงานกับข้อมูลแผ่นดินไหว 3 มิติขนาดใหญ่และซับซ้อน เพื่อช่วยให้บริษัทพลังงานค้นหาและผลิตได้มีประสิทธิภาพยิ่งขึ้น โมเดล SFM ของพวกเขามีสถาปัตยกรรมแบบ Vision Transformer (ViT) ที่ใช้ Masked AutoEncoder (MAE) ซึ่งต้องอาศัยการประมวลผลที่หนักหน่วงมากๆ การจัดการข้อมูลปริมาณมหาศาล (ระดับเทราไบต์) การฝึกอบรมที่มีประสิทธิภาพ และการขยายขีดความสามารถในการวิเคราะห์ให้ครอบคลุมบริบททางธรณีวิทยาที่ใหญ่ขึ้น เป็นความท้าทายหลักที่ TGS ต้องการจะแก้ไข

โซลูชันจาก AWS GenAIIC

เพื่อรับมือกับความท้าทายเหล่านี้ TGS และ AWS GenAIIC ได้ร่วมกันพัฒนาโซลูชันที่ใช้ Amazon SageMaker HyperPod ซึ่งเป็นบริการที่ช่วยสร้างโครงสร้างพื้นฐานการฝึกอบรม AI แบบกระจาย (distributed training) ที่ยืดหยุ่นและปรับขนาดได้ โดยมีคุณสมบัติการตรวจสอบสุขภาพและจัดการจุดบันทึก (checkpoint) อัตโนมัติ

โครงสร้างพื้นฐานสำหรับการฝึกอบรมนี้มีความทรงพลังอย่างยิ่ง โดยใช้คลัสเตอร์ที่ประกอบด้วย 16 อินสแตนซ์ของ Amazon EC2 P5 แต่ละอินสแตนซ์มาพร้อมกับ:

8 NVIDIA H200 GPUs (แต่ละ GPU มีหน่วยความจำ HBM3e ขนาด 141GB)
192 vCPU
2048 GB RAM
และเครือข่าย EFAv3 ขนาด 3200 Gbps เพื่อการสื่อสารที่มีความหน่วงต่ำเป็นพิเศษ

การจัดการข้อมูลแผ่นดินไหวขนาดใหญ่แบบไม่สะดุด

TGS มีข้อมูลแผ่นดินไหว 3 มิติที่เป็นกรรมสิทธิ์ของตนเองจำนวนมหาศาล ซึ่งจัดเก็บในรูปแบบ MDIO (TGS-developed open-source MDIO format) ซึ่งเป็นฟอร์แมตโอเพนซอร์สที่สร้างขึ้นบน Zarr arrays สำหรับข้อมูลทางวิทยาศาสตร์ขนาดใหญ่ในระบบคลาวด์ แทนที่จะคัดลอกข้อมูลไปยังระบบไฟล์แบบกระจาย TGS เลือกที่จะสตรีมข้อมูลโดยตรงจาก Amazon S3 ไปยังโหนดการฝึกอบรม ซึ่งช่วยลดต้นทุนโครงสร้างพื้นฐานด้านสตอเรจได้กว่า 90% และยังคงสามารถรักษา throughput สูงได้ถึง 64-80 GBps ทั่วทั้งคลัสเตอร์ ทำให้ GPU สามารถทำงานได้อย่างเต็มประสิทธิภาพ

ผลลัพธ์ที่น่าทึ่งและการขยายขีดความสามารถ

การทำงานร่วมกันนี้ประสบความสำเร็จอย่างงดงาม!

ลดเวลาการฝึกอบรม: จาก 6 เดือนเหลือเพียง 5 วัน สำหรับโมเดล SFM ที่ใช้ Vision Transformer
การขยายขนาดแบบเกือบเชิงเส้น (near-linear scaling): ทำให้การฝึกอบรมแบบกระจายมีประสิทธิภาพสูง
ขยายขอบเขตบริบท (context windows) ของโมเดล: สามารถวิเคราะห์ปริมาณข้อมูลแผ่นดินไหวที่ใหญ่กว่าเดิมได้มาก ซึ่งหมายถึงโมเดลสามารถเข้าใจบริบททางธรณีวิทยาได้ลึกซึ้งและกว้างขวางขึ้น

ทำไมถึงสำคัญกับวงการ AI และพลังงาน?

ความสำเร็จนี้มีความสำคัญอย่างยิ่งสำหรับอุตสาหกรรมพลังงานและวงการ AI โดยรวม การลดเวลาการฝึกอบรมลงอย่างมากทำให้ TGS สามารถ:

สร้างสรรค์นวัตกรรมได้รวดเร็วยิ่งขึ้น: พัฒนาและปรับปรุงโมเดลได้บ่อยขึ้น นำเสนอคุณค่าให้กับลูกค้าได้เร็วกว่าเดิม
เพิ่มความแม่นยำ: โมเดลสามารถวิเคราะห์ข้อมูลขนาดใหญ่และซับซ้อนได้ดีขึ้น ช่วยในการระบุโครงสร้างทางธรณีวิทยาที่สำคัญสำหรับการสำรวจพลังงานได้อย่างแม่นยำ
ประหยัดต้นทุนและทรัพยากร: การใช้ทรัพยากรที่ปรับขนาดได้บน AWS และการเพิ่มประสิทธิภาพในการจัดการข้อมูลช่วยลดค่าใช้จ่ายได้อย่างเห็นได้ชัด

นี่เป็นอีกหนึ่งตัวอย่างที่แสดงให้เห็นถึงพลังของ AI และโครงสร้างพื้นฐานคลาวด์ในการแก้ปัญหาที่ซับซ้อน และขับเคลื่อนการเปลี่ยนแปลงในอุตสาหกรรมต่างๆ ให้ก้าวหน้าไปอีกขั้น

อ่านต่อ: เรียนรู้เพิ่มเติมเกี่ยวกับการขยายขนาดโมเดลพื้นฐานแผ่นดินไหวบน AWS เพื่อเจาะลึกรายละเอียดทางเทคนิคของโซลูชันนี้