สร้างระบบค้นหาวิดีโอ Multimodal ขนาดใหญ่ด้วยโมเดล AWS Nova

สวัสดีครับทุกคน! วันนี้เรามาพูดถึงโซลูชันสุดเจ๋งที่จะปฏิวัติการค้นหาวิดีโอในยุคที่ข้อมูลมีมากมายมหาศาลกันครับ หลายคนคงคุ้นเคยกับการค้นหาวิดีโอด้วยคีย์เวิร์ดหรือแท็กที่ถูกใส่ไว้ด้วยมือ ซึ่งมักจะมีข้อจำกัดและไม่สามารถจับความหมายที่แท้จริงของเนื้อหาวิดีโอได้ทั้งหมด

แต่ปัญหาเหล่านี้กำลังจะหมดไป! AWS ได้นำเสนอแนวทางใหม่ที่ช่วยให้เราสร้างระบบค้นหาวิดีโอแบบ Multimodal ที่สามารถค้นหาด้วยภาษาธรรมชาติได้อย่างง่ายดาย โดยใช้พลังของโมเดล Amazon Nova และ Amazon OpenSearch Service บทความนี้จะพาคุณไปดูว่าระบบนี้ทำงานอย่างไร มีประโยชน์อะไรบ้าง และคุ้มค่าแค่ไหนครับ

ระบบค้นหาวิดีโอ Multimodal คืออะไร?

ลองนึกภาพว่าคุณมีคลังวิดีโอขนาดใหญ่หลายแสนชั่วโมง แล้วอยากจะหาวิดีโอที่ "ผู้หญิงกำลังเดินอยู่ในสวนสาธารณะพร้อมสุนัขตัวเล็ก ๆ" คุณไม่จำเป็นต้องนั่งดูหรือใส่แท็กทีละอันอีกต่อไปแล้วครับ

ระบบค้นหาวิดีโอ Multimodal ที่ว่านี้คือการรวมเอาข้อมูลหลายรูปแบบ (Multimodal) ทั้งภาพ เสียง และข้อความ มาวิเคราะห์เพื่อสร้างความเข้าใจในเนื้อหาวิดีโออย่างลึกซึ้ง โดยใช้ AI มาช่วยครับ ตัวอย่างของระบบนี้คือการที่โพสต์ Multimodal Embeddings at Scale AI Data Lake ได้สาธิตให้เห็นว่าสามารถค้นหาวิดีโอด้วยภาษาธรรมชาติจากชุดข้อมูลวิดีโอขนาดใหญ่ได้อย่างไร

ทำไมถึงสำคัญและช่วยธุรกิจได้อย่างไร?

ความสำคัญของระบบนี้อยู่ที่ความสามารถในการเปลี่ยนจาก "การค้นหาด้วยคีย์เวิร์ด" ไปสู่ "การค้นหาเชิงความหมาย" (Semantic Search) ทำให้คุณสามารถ:

ค้นหาด้วยภาษาธรรมชาติ: เพียงแค่พิมพ์สิ่งที่คุณต้องการในภาษาปกติ ระบบก็จะเข้าใจและหาวิดีโอที่เกี่ยวข้องมาให้
ปลดล็อกข้อมูลเชิงลึก: เข้าถึงเนื้อหาวิดีโอในระดับที่ลึกซึ้งกว่าเดิม ไม่ใช่แค่แท็กผิวเผิน
ประหยัดเวลาและค่าใช้จ่าย: ไม่ต้องเสียเวลาในการติดแท็กวิดีโอด้วยมืออีกต่อไป

AWS ได้แสดงให้เห็นถึงศักยภาพของระบบนี้ด้วยการประมวลผลวิดีโอถึง 792,270 คลิป (คิดเป็น 8,480 ชั่วโมง หรือ 30.5 ล้านวินาที) จากชุดข้อมูล Multimedia Commons และ MEVA ซึ่งใช้เวลาเพียง 41 ชั่วโมง เท่านั้นครับ! นี่แสดงให้เห็นถึงความสามารถในการปรับขนาด (Scalability) ที่น่าทึ่งของโซลูชันนี้

เบื้องหลังการทำงาน: ส่วนประกอบและประสิทธิภาพ

ระบบนี้มีสองส่วนหลักๆ คือกระบวนการนำเข้าข้อมูล (Ingestion) และกระบวนการค้นหา (Search) ครับ

การประมวลผลวิดีโอ (Ingestion Pipeline)

เมื่อมีวิดีโอใหม่เข้ามา ระบบจะทำงานดังนี้:

ประมวลผลรวดเร็ว: Pipeline นี้ใช้ Amazon EC2 c7i.48xlarge instances 4 เครื่อง พร้อม worker 600 ตัวทำงานแบบขนาน ทำให้สามารถประมวลผลวิดีโอได้ถึง 19,400 คลิปต่อชั่วโมง
Amazon Nova Multimodal Embeddings: โมเดลนี้จะแบ่งวิดีโอออกเป็นส่วนย่อยๆ ละ 15 วินาที (ซึ่งเหมาะสำหรับการจับการเปลี่ยนแปลงฉาก) และสร้าง Audio-Visual Embeddings ที่มีขนาด 1024 มิติ การใช้ Embeddings ขนาดนี้ช่วย ประหยัดค่าใช้จ่ายในการจัดเก็บถึง 3 เท่า เมื่อเทียบกับขนาด 3072 มิติ โดยที่ความแม่นยำแทบไม่ลดลงเลย
Amazon Nova Pro (หรือ Nova 2 Lite): โมเดลนี้จะเพิ่มแท็กอธิบายเนื้อหาวิดีโอประมาณ 10-15 แท็กต่อวิดีโอ จากชุดคำศัพท์ที่กำหนดไว้ ทำให้การค้นหามีประสิทธิภาพมากขึ้น โดยเฉพาะอย่างยิ่ง Amazon Nova 2 Lite เป็นรุ่นที่แนะนำสำหรับระบบใหม่ๆ เพราะมีความแม่นยำสูงขึ้นและค่าใช้จ่ายในการแท็กที่ต่ำลง

การจัดเก็บและการค้นหา

Embeddings ที่สร้างขึ้นจะถูกจัดเก็บใน OpenSearch k-NN index เพื่อใช้ในการค้นหาเชิงความหมาย (Semantic Search) ส่วนแท็ก Metadata ที่ได้จาก Nova Pro จะถูกเก็บไว้ใน text index แยกต่างหากสำหรับการค้นหาด้วยคีย์เวิร์ด

ระบบนี้รองรับการค้นหาถึง 3 รูปแบบ:

Text-to-video Search: แปลงภาษาธรรมชาติที่คุณพิมพ์เป็น Embeddings เพื่อหาวิดีโอที่เนื้อหามีความคล้ายคลึงกัน
Video-to-video Search: ค้นหาวิดีโอที่มีเนื้อหาคล้ายกับวิดีโอต้นฉบับที่คุณป้อนเข้าไป
Hybrid Search: ผสมผสานระหว่างการค้นหาเชิงความหมาย (70% น้ำหนัก) กับการค้นหาด้วยคีย์เวิร์ด (30% น้ำหนัก) เพื่อให้ได้ผลลัพธ์ที่แม่นยำที่สุด

ค่าใช้จ่ายน่าสนใจ

หลายคนอาจจะสงสัยเรื่องค่าใช้จ่ายใช่ไหมครับ? ทาง AWS ได้ประเมินค่าใช้จ่ายรวมสำหรับปีแรกไว้ดังนี้:

รวมทั้งหมดปีแรก: ประมาณ $27,328 สำหรับ OpenSearch แบบ On-Demand หรือ $23,632 หากใช้ OpenSearch Service Reserved Instances
ค่าใช้จ่ายในการนำเข้าข้อมูล (One-time ingestion): อยู่ที่ $18,088
- Amazon EC2 compute: $421
- Amazon Bedrock Nova Multimodal Embeddings: $17,096 (คิดที่ $0.00056 ต่อวินาทีแบบ Batch Pricing)
- Nova Pro tagging: $571
ค่าใช้จ่าย Amazon OpenSearch Service รายปี: $9,240 (On-Demand) หรือ $5,544 (Reserved)

จากตัวเลขนี้จะเห็นว่าการลงทุนครั้งเดียวเพื่อประมวลผลวิดีโอเกือบ 8 แสนคลิปนั้นเป็นไปได้และคุ้มค่าสำหรับธุรกิจที่ต้องจัดการกับข้อมูลวิดีโอจำนวนมหาศาลครับ

เริ่มต้นใช้งานได้ยังไง?

หากคุณสนใจจะสร้างระบบนี้ ทาง AWS แนะนำสิ่งที่คุณต้องมีเบื้องต้นดังนี้:

บัญชี AWS ที่สามารถเข้าถึง Amazon Bedrock ใน us-east-1 ได้
ติดตั้ง Python 3.9 หรือใหม่กว่า
ติดตั้ง AWS Command Line Interface (AWS CLI) พร้อมตั้งค่าสิทธิ์เรียบร้อย
Amazon OpenSearch Service domain (แนะนำ r6g.large หรือใหญ่กว่า)
Amazon S3 bucket สำหรับจัดเก็บวิดีโอและผลลัพธ์ Embeddings

การสร้างระบบค้นหาวิดีโอที่ทรงพลังนี้ไม่ใช่เรื่องยากอีกต่อไป ด้วยเครื่องมือจาก AWS ที่ช่วยให้คุณสามารถนำ AI มาใช้ในการทำความเข้าใจและจัดการกับข้อมูลวิดีโอได้อย่างมีประสิทธิภาพสูงสุด หากคุณต้องการดูรายละเอียดทางเทคนิคเพิ่มเติมเกี่ยวกับโซลูชันนี้ สามารถอ่านต่อได้ที่บทความต้นฉบับครับ

อ่านต่อ: สร้าง Multimodal Embeddings ขนาดใหญ่ด้วย AI Data Lake สำหรับงาน Media และ Entertainment เพื่อเรียนรู้ขั้นตอนการสร้างและรายละเอียดทางเทคนิคทั้งหมดได้เลย!