News
TGS เพิ่มประสิทธิภาพการเทรนโมเดล AI แผ่นดินไหวบน AWS ลดเวลาจาก 6 เดือนเหลือเพียง 5 วัน
![]()
ข่าวดีสำหรับวงการพลังงานและ AI! TGS ผู้ให้บริการข้อมูลธรณีวิทยาชั้นนำ ได้จับมือกับศูนย์นวัตกรรม Generative AI ของ AWS (AWS Generative AI Innovation Center หรือ GenAIIC) เพื่อยกระดับการฝึกอบรมโมเดลพื้นฐานแผ่นดินไหว (Seismic Foundation Model - SFM) บนโครงสร้างพื้นฐานของ AWS ผลลัพธ์ที่ได้นั้นน่าทึ่งมาก เพราะสามารถลดเวลาการฝึกอบรมโมเดลจากเดิม 6 เดือน ให้เหลือเพียงแค่ 5 วันเท่านั้น!
ทำไมถึงต้องมีนวัตกรรมนี้?
TGS ทำงานกับข้อมูลแผ่นดินไหว 3 มิติขนาดใหญ่และซับซ้อน เพื่อช่วยให้บริษัทพลังงานค้นหาและผลิตได้มีประสิทธิภาพยิ่งขึ้น โมเดล SFM ของพวกเขามีสถาปัตยกรรมแบบ Vision Transformer (ViT) ที่ใช้ Masked AutoEncoder (MAE) ซึ่งต้องอาศัยการประมวลผลที่หนักหน่วงมากๆ การจัดการข้อมูลปริมาณมหาศาล (ระดับเทราไบต์) การฝึกอบรมที่มีประสิทธิภาพ และการขยายขีดความสามารถในการวิเคราะห์ให้ครอบคลุมบริบททางธรณีวิทยาที่ใหญ่ขึ้น เป็นความท้าทายหลักที่ TGS ต้องการจะแก้ไข
โซลูชันจาก AWS GenAIIC
เพื่อรับมือกับความท้าทายเหล่านี้ TGS และ AWS GenAIIC ได้ร่วมกันพัฒนาโซลูชันที่ใช้ Amazon SageMaker HyperPod ซึ่งเป็นบริการที่ช่วยสร้างโครงสร้างพื้นฐานการฝึกอบรม AI แบบกระจาย (distributed training) ที่ยืดหยุ่นและปรับขนาดได้ โดยมีคุณสมบัติการตรวจสอบสุขภาพและจัดการจุดบันทึก (checkpoint) อัตโนมัติ
โครงสร้างพื้นฐานสำหรับการฝึกอบรมนี้มีความทรงพลังอย่างยิ่ง โดยใช้คลัสเตอร์ที่ประกอบด้วย 16 อินสแตนซ์ของ Amazon EC2 P5 แต่ละอินสแตนซ์มาพร้อมกับ:
- 8 NVIDIA H200 GPUs (แต่ละ GPU มีหน่วยความจำ HBM3e ขนาด 141GB)
- 192 vCPU
- 2048 GB RAM
- และเครือข่าย EFAv3 ขนาด 3200 Gbps เพื่อการสื่อสารที่มีความหน่วงต่ำเป็นพิเศษ
การจัดการข้อมูลแผ่นดินไหวขนาดใหญ่แบบไม่สะดุด
TGS มีข้อมูลแผ่นดินไหว 3 มิติที่เป็นกรรมสิทธิ์ของตนเองจำนวนมหาศาล ซึ่งจัดเก็บในรูปแบบ MDIO (TGS-developed open-source MDIO format) ซึ่งเป็นฟอร์แมตโอเพนซอร์สที่สร้างขึ้นบน Zarr arrays สำหรับข้อมูลทางวิทยาศาสตร์ขนาดใหญ่ในระบบคลาวด์ แทนที่จะคัดลอกข้อมูลไปยังระบบไฟล์แบบกระจาย TGS เลือกที่จะสตรีมข้อมูลโดยตรงจาก Amazon S3 ไปยังโหนดการฝึกอบรม ซึ่งช่วยลดต้นทุนโครงสร้างพื้นฐานด้านสตอเรจได้กว่า 90% และยังคงสามารถรักษา throughput สูงได้ถึง 64-80 GBps ทั่วทั้งคลัสเตอร์ ทำให้ GPU สามารถทำงานได้อย่างเต็มประสิทธิภาพ
ผลลัพธ์ที่น่าทึ่งและการขยายขีดความสามารถ
การทำงานร่วมกันนี้ประสบความสำเร็จอย่างงดงาม!
- ลดเวลาการฝึกอบรม: จาก 6 เดือนเหลือเพียง 5 วัน สำหรับโมเดล SFM ที่ใช้ Vision Transformer
- การขยายขนาดแบบเกือบเชิงเส้น (near-linear scaling): ทำให้การฝึกอบรมแบบกระจายมีประสิทธิภาพสูง
- ขยายขอบเขตบริบท (context windows) ของโมเดล: สามารถวิเคราะห์ปริมาณข้อมูลแผ่นดินไหวที่ใหญ่กว่าเดิมได้มาก ซึ่งหมายถึงโมเดลสามารถเข้าใจบริบททางธรณีวิทยาได้ลึกซึ้งและกว้างขวางขึ้น
ทำไมถึงสำคัญกับวงการ AI และพลังงาน?
ความสำเร็จนี้มีความสำคัญอย่างยิ่งสำหรับอุตสาหกรรมพลังงานและวงการ AI โดยรวม การลดเวลาการฝึกอบรมลงอย่างมากทำให้ TGS สามารถ:
- สร้างสรรค์นวัตกรรมได้รวดเร็วยิ่งขึ้น: พัฒนาและปรับปรุงโมเดลได้บ่อยขึ้น นำเสนอคุณค่าให้กับลูกค้าได้เร็วกว่าเดิม
- เพิ่มความแม่นยำ: โมเดลสามารถวิเคราะห์ข้อมูลขนาดใหญ่และซับซ้อนได้ดีขึ้น ช่วยในการระบุโครงสร้างทางธรณีวิทยาที่สำคัญสำหรับการสำรวจพลังงานได้อย่างแม่นยำ
- ประหยัดต้นทุนและทรัพยากร: การใช้ทรัพยากรที่ปรับขนาดได้บน AWS และการเพิ่มประสิทธิภาพในการจัดการข้อมูลช่วยลดค่าใช้จ่ายได้อย่างเห็นได้ชัด
นี่เป็นอีกหนึ่งตัวอย่างที่แสดงให้เห็นถึงพลังของ AI และโครงสร้างพื้นฐานคลาวด์ในการแก้ปัญหาที่ซับซ้อน และขับเคลื่อนการเปลี่ยนแปลงในอุตสาหกรรมต่างๆ ให้ก้าวหน้าไปอีกขั้น
อ่านต่อ: เรียนรู้เพิ่มเติมเกี่ยวกับการขยายขนาดโมเดลพื้นฐานแผ่นดินไหวบน AWS เพื่อเจาะลึกรายละเอียดทางเทคนิคของโซลูชันนี้