ปลดล็อกข้อมูลเชิงลึกจากวิดีโอขนาดใหญ่ด้วย AI มัลติโมดอลบน Amazon Bedrock

โลกยุคปัจจุบันเต็มไปด้วยเนื้อหาวิดีโอมากมาย ไม่ว่าจะเป็นจากกล้องวงจรปิด, การผลิตสื่อ, แพลตฟอร์มโซเชียลมีเดีย หรือการสื่อสารในองค์กร การดึงข้อมูลเชิงลึกที่มีความหมายจากวิดีโอจำนวนมหาศาลเหล่านี้ยังคงเป็นความท้าทายที่สำคัญ องค์กรต่างๆ ต้องการโซลูชันที่ไม่เพียงแค่เข้าใจว่ามีอะไรปรากฏอยู่ในวิดีโอเท่านั้น แต่ยังต้องเข้าใจบริบท เรื่องเล่า และความหมายที่ซ่อนอยู่ของเนื้อหานั้นๆ ด้วย

ในบทความนี้ AWS ได้สำรวจวิธีการใช้ประโยชน์จากโมเดลพื้นฐานแบบมัลติโมดอล (multimodal foundation models) ของ Amazon Bedrock เพื่อให้สามารถทำความเข้าใจวิดีโอในขนาดที่ใหญ่ขึ้นผ่านแนวทางสถาปัตยกรรมสามแบบ โซลูชันที่สมบูรณ์นี้มีให้ใช้งานในรูปแบบของตัวอย่างโอเพนซอร์สของ AWS บน GitHub

โซลูชันนี้คืออะไร?

โซลูชันที่นำเสนอโดย AWS นี้ช่วยให้คุณสามารถดึงข้อมูลเชิงลึกจากวิดีโอจำนวนมากได้อย่างมีประสิทธิภาพ โดยใช้พลังของ AI แบบมัลติโมดอล โมเดลเหล่านี้มีความสามารถในการประมวลผลทั้งข้อมูลภาพและข้อความไปพร้อมกัน ทำให้สามารถเข้าใจฉากต่างๆ สร้างคำอธิบายที่เป็นภาษาธรรมชาติ ตอบคำถามเกี่ยวกับเนื้อหาวิดีโอ และตรวจจับเหตุการณ์ที่ซับซ้อน ซึ่งเป็นเรื่องยากที่จะกำหนดด้วยโปรแกรมแบบเดิมๆ

เจาะลึก: เวิร์กโฟลว์แบบเฟรม

หนึ่งในแนวทางที่น่าสนใจคือเวิร์กโฟลว์แบบเฟรม (frame-based workflow) ซึ่งมีรายละเอียดดังนี้:

การสุ่มตัวอย่างเฟรมภาพ: ระบบจะสุ่มตัวอย่างเฟรมภาพในช่วงเวลาที่กำหนด
การลบเฟรมที่ซ้ำซ้อน: เฟรมที่คล้ายกันหรือซ้ำซ้อนจะถูกลบออกเพื่อลดต้นทุนการประมวลผลและรักษาข้อมูลภาพที่จำเป็น
การประยุกต์ใช้โมเดลพื้นฐานการทำความเข้าใจภาพ: โมเดลเหล่านี้จะถูกนำมาใช้เพื่อดึงข้อมูลภาพในระดับเฟรม
การถอดเสียง: ส่วนเสียงของวิดีโอจะถูกถอดเสียงแยกต่างหากโดยใช้ Amazon Transcribe

เวิร์กโฟลว์นี้เหมาะอย่างยิ่งสำหรับการใช้งานด้านความปลอดภัย/การเฝ้าระวัง, การประกันคุณภาพ และการตรวจสอบการปฏิบัติตามข้อกำหนด โดยมี AWS Step Functions เป็นตัวจัดการขั้นตอนการทำงานทั้งหมด

การลดความซ้ำซ้อนของเฟรมอย่างชาญฉลาด

จุดเด่นสำคัญของเวิร์กโฟลว์แบบเฟรมคือความสามารถในการลดความซ้ำซ้อนของเฟรมอย่างชาญฉลาด ซึ่งช่วยลดต้นทุนการประมวลผลได้อย่างมาก โดยการลบเฟรมที่ซ้ำซ้อนในขณะที่ยังคงรักษาข้อมูลภาพไว้ โซลูชันนี้มีวิธีการเปรียบเทียบความคล้ายคลึงกันสองแบบ:

การเปรียบเทียบแบบ Nova Multimodal Embeddings (MME): วิธีนี้ใช้โมเดล Multimodal Embeddings ของ Amazon Nova เพื่อสร้างเวกเตอร์แทนข้อมูลภาพขนาด 256 มิติสำหรับแต่ละเฟรม จากนั้นจะคำนวณระยะทางโคไซน์ระหว่างเฟรมที่ต่อเนื่องกัน เฟรมที่มีระยะทางต่ำกว่าเกณฑ์เริ่มต้นที่ 0.2 (ค่าที่ต่ำกว่าแสดงถึงความคล้ายคลึงกันที่สูงกว่า) จะถูกลบออก วิธีนี้โดดเด่นในการทำความเข้าใจเชิงความหมายของเนื้อหาภาพ มีความทนทานต่อความแตกต่างเล็กน้อยของแสงและมุมมอง และสามารถจับแนวคิดภาพระดับสูงได้ อย่างไรก็ตาม มีค่าใช้จ่ายเพิ่มเติมสำหรับ API ของ Amazon Bedrock ในการสร้างเวกเตอร์และเพิ่มความหน่วงต่อเฟรมเล็กน้อย
OpenCV ORB (Oriented FAST and Rotated BRIEF): นี่คือแนวทางด้านคอมพิวเตอร์วิทัศน์ที่ใช้การตรวจจับคุณลักษณะเพื่อระบุและจับคู่จุดสำคัญระหว่างเฟรมที่ต่อเนื่องกัน โดยไม่จำเป็นต้องเรียกใช้ API ภายนอก ORB ตรวจจับจุดสำคัญและคำนวณตัวพรรณนาแบบไบนารีสำหรับแต่ละเฟรม โดยคำนวณคะแนนความคล้ายคลึงกันเป็นอัตราส่วนของคุณลักษณะที่ตรงกันต่อจุดสำคัญทั้งหมด ด้วยเกณฑ์เริ่มต้นที่ 0.325 (ค่าที่สูงกว่าแสดงถึงความคล้ายคลึงกันที่สูงกว่า) วิธีนี้ให้การประมวลผลที่รวดเร็วด้วยความหน่วงที่น้อยที่สุดและไม่มีค่าใช้จ่าย API เพิ่มเติม การจับคู่คุณลักษณะที่ไม่ขึ้นกับการหมุนทำให้เหมาะสำหรับการตรวจจับการเคลื่อนไหวของกล้องและการเปลี่ยนฉาก อย่างไรก็ตาม อาจมีความไวต่อการเปลี่ยนแปลงของแสงอย่างมีนัยสำคัญและอาจไม่สามารถจับความคล้ายคลึงกันเชิงความหมายได้อย่างมีประสิทธิภาพเท่ากับวิธีการที่ใช้เวกเตอร์

ประโยชน์และการนำไปใช้งาน

ด้วยโซลูชันนี้ องค์กรต่างๆ สามารถเปลี่ยนวิดีโอจำนวนมหาศาลให้กลายเป็นข้อมูลเชิงลึกที่นำไปใช้ได้จริงได้ง่ายขึ้น ลดเวลาและต้นทุนในการวิเคราะห์วิดีโอด้วยตนเอง เหมาะสำหรับ:

การเฝ้าระวังความปลอดภัย: ตรวจจับเหตุการณ์หรือความผิดปกติโดยอัตโนมัติ
การควบคุมคุณภาพในโรงงาน: ตรวจสอบกระบวนการผลิตเพื่อหาข้อบกพร่อง
การตรวจสอบการปฏิบัติตามกฎระเบียบ: ยืนยันว่ามีการปฏิบัติตามมาตรฐานความปลอดภัยและข้อบังคับต่างๆ

เริ่มต้นใช้งานได้อย่างไร?

คุณสามารถสำรวจและปรับใช้โซลูชันนี้ได้ง่ายๆ โดยดาวน์โหลดตัวอย่างโอเพนซอร์สของ AWS บน GitHub ซึ่งจะช่วยให้คุณเห็นภาพรวมของสถาปัตยกรรมและเริ่มทดลองใช้งานโมเดลพื้นฐานมัลติโมดอลบน Amazon Bedrock ได้ทันที

อ่านต่อ: ปลดล็อกข้อมูลเชิงลึกจากวิดีโอขนาดใหญ่ด้วย AI มัลติโมดอลบน Amazon Bedrock เพื่อดูรายละเอียดทางเทคนิคและแนวทางสถาปัตยกรรมแบบอื่นๆ!

ปลดล็อกข้อมูลเชิงลึกจากวิดีโอขนาดใหญ่ด้วย AI มัลติโมดอลบน Amazon Bedrock

โซลูชันนี้คืออะไร?

เจาะลึก: เวิร์กโฟลว์แบบเฟรม

การลดความซ้ำซ้อนของเฟรมอย่างชาญฉลาด

ประโยชน์และการนำไปใช้งาน

เริ่มต้นใช้งานได้อย่างไร?

อ่านต่อ

Hermes Agent ปลดล็อก AI พัฒนาตัวเองบน NVIDIA RTX และ Qwen 3.6 สำหรับการรันในเครื่อง

อยากให้แจ้งเตือน ตอน Newsletter เปิดตัวมั้ย?