AWSTools

ปลดล็อกข้อมูลเชิงลึกจากวิดีโอขนาดใหญ่ด้วย AI มัลติโมดอลบน Amazon Bedrock

เขียนโดย

ร่างเนื้อหาด้วย AI ตรวจทานและแก้ไขโดยคน

อ่าน ~7 นาที

ปลดล็อกข้อมูลเชิงลึกจากวิดีโอขนาดใหญ่ด้วย AI มัลติโมดอลบน Amazon Bedrock

โลกยุคปัจจุบันเต็มไปด้วยเนื้อหาวิดีโอมากมาย ไม่ว่าจะเป็นจากกล้องวงจรปิด, การผลิตสื่อ, แพลตฟอร์มโซเชียลมีเดีย หรือการสื่อสารในองค์กร การดึงข้อมูลเชิงลึกที่มีความหมายจากวิดีโอจำนวนมหาศาลเหล่านี้ยังคงเป็นความท้าทายที่สำคัญ องค์กรต่างๆ ต้องการโซลูชันที่ไม่เพียงแค่เข้าใจว่ามีอะไรปรากฏอยู่ในวิดีโอเท่านั้น แต่ยังต้องเข้าใจบริบท เรื่องเล่า และความหมายที่ซ่อนอยู่ของเนื้อหานั้นๆ ด้วย

ในบทความนี้ AWS ได้สำรวจวิธีการใช้ประโยชน์จากโมเดลพื้นฐานแบบมัลติโมดอล (multimodal foundation models) ของ Amazon Bedrock เพื่อให้สามารถทำความเข้าใจวิดีโอในขนาดที่ใหญ่ขึ้นผ่านแนวทางสถาปัตยกรรมสามแบบ โซลูชันที่สมบูรณ์นี้มีให้ใช้งานในรูปแบบของตัวอย่างโอเพนซอร์สของ AWS บน GitHub

โซลูชันนี้คืออะไร?

โซลูชันที่นำเสนอโดย AWS นี้ช่วยให้คุณสามารถดึงข้อมูลเชิงลึกจากวิดีโอจำนวนมากได้อย่างมีประสิทธิภาพ โดยใช้พลังของ AI แบบมัลติโมดอล โมเดลเหล่านี้มีความสามารถในการประมวลผลทั้งข้อมูลภาพและข้อความไปพร้อมกัน ทำให้สามารถเข้าใจฉากต่างๆ สร้างคำอธิบายที่เป็นภาษาธรรมชาติ ตอบคำถามเกี่ยวกับเนื้อหาวิดีโอ และตรวจจับเหตุการณ์ที่ซับซ้อน ซึ่งเป็นเรื่องยากที่จะกำหนดด้วยโปรแกรมแบบเดิมๆ

เจาะลึก: เวิร์กโฟลว์แบบเฟรม

หนึ่งในแนวทางที่น่าสนใจคือเวิร์กโฟลว์แบบเฟรม (frame-based workflow) ซึ่งมีรายละเอียดดังนี้:

  1. การสุ่มตัวอย่างเฟรมภาพ: ระบบจะสุ่มตัวอย่างเฟรมภาพในช่วงเวลาที่กำหนด
  2. การลบเฟรมที่ซ้ำซ้อน: เฟรมที่คล้ายกันหรือซ้ำซ้อนจะถูกลบออกเพื่อลดต้นทุนการประมวลผลและรักษาข้อมูลภาพที่จำเป็น
  3. การประยุกต์ใช้โมเดลพื้นฐานการทำความเข้าใจภาพ: โมเดลเหล่านี้จะถูกนำมาใช้เพื่อดึงข้อมูลภาพในระดับเฟรม
  4. การถอดเสียง: ส่วนเสียงของวิดีโอจะถูกถอดเสียงแยกต่างหากโดยใช้ Amazon Transcribe

เวิร์กโฟลว์นี้เหมาะอย่างยิ่งสำหรับการใช้งานด้านความปลอดภัย/การเฝ้าระวัง, การประกันคุณภาพ และการตรวจสอบการปฏิบัติตามข้อกำหนด โดยมี AWS Step Functions เป็นตัวจัดการขั้นตอนการทำงานทั้งหมด

การลดความซ้ำซ้อนของเฟรมอย่างชาญฉลาด

จุดเด่นสำคัญของเวิร์กโฟลว์แบบเฟรมคือความสามารถในการลดความซ้ำซ้อนของเฟรมอย่างชาญฉลาด ซึ่งช่วยลดต้นทุนการประมวลผลได้อย่างมาก โดยการลบเฟรมที่ซ้ำซ้อนในขณะที่ยังคงรักษาข้อมูลภาพไว้ โซลูชันนี้มีวิธีการเปรียบเทียบความคล้ายคลึงกันสองแบบ:

  • การเปรียบเทียบแบบ Nova Multimodal Embeddings (MME): วิธีนี้ใช้โมเดล Multimodal Embeddings ของ Amazon Nova เพื่อสร้างเวกเตอร์แทนข้อมูลภาพขนาด 256 มิติสำหรับแต่ละเฟรม จากนั้นจะคำนวณระยะทางโคไซน์ระหว่างเฟรมที่ต่อเนื่องกัน เฟรมที่มีระยะทางต่ำกว่าเกณฑ์เริ่มต้นที่ 0.2 (ค่าที่ต่ำกว่าแสดงถึงความคล้ายคลึงกันที่สูงกว่า) จะถูกลบออก วิธีนี้โดดเด่นในการทำความเข้าใจเชิงความหมายของเนื้อหาภาพ มีความทนทานต่อความแตกต่างเล็กน้อยของแสงและมุมมอง และสามารถจับแนวคิดภาพระดับสูงได้ อย่างไรก็ตาม มีค่าใช้จ่ายเพิ่มเติมสำหรับ API ของ Amazon Bedrock ในการสร้างเวกเตอร์และเพิ่มความหน่วงต่อเฟรมเล็กน้อย

  • OpenCV ORB (Oriented FAST and Rotated BRIEF): นี่คือแนวทางด้านคอมพิวเตอร์วิทัศน์ที่ใช้การตรวจจับคุณลักษณะเพื่อระบุและจับคู่จุดสำคัญระหว่างเฟรมที่ต่อเนื่องกัน โดยไม่จำเป็นต้องเรียกใช้ API ภายนอก ORB ตรวจจับจุดสำคัญและคำนวณตัวพรรณนาแบบไบนารีสำหรับแต่ละเฟรม โดยคำนวณคะแนนความคล้ายคลึงกันเป็นอัตราส่วนของคุณลักษณะที่ตรงกันต่อจุดสำคัญทั้งหมด ด้วยเกณฑ์เริ่มต้นที่ 0.325 (ค่าที่สูงกว่าแสดงถึงความคล้ายคลึงกันที่สูงกว่า) วิธีนี้ให้การประมวลผลที่รวดเร็วด้วยความหน่วงที่น้อยที่สุดและไม่มีค่าใช้จ่าย API เพิ่มเติม การจับคู่คุณลักษณะที่ไม่ขึ้นกับการหมุนทำให้เหมาะสำหรับการตรวจจับการเคลื่อนไหวของกล้องและการเปลี่ยนฉาก อย่างไรก็ตาม อาจมีความไวต่อการเปลี่ยนแปลงของแสงอย่างมีนัยสำคัญและอาจไม่สามารถจับความคล้ายคลึงกันเชิงความหมายได้อย่างมีประสิทธิภาพเท่ากับวิธีการที่ใช้เวกเตอร์

ประโยชน์และการนำไปใช้งาน

ด้วยโซลูชันนี้ องค์กรต่างๆ สามารถเปลี่ยนวิดีโอจำนวนมหาศาลให้กลายเป็นข้อมูลเชิงลึกที่นำไปใช้ได้จริงได้ง่ายขึ้น ลดเวลาและต้นทุนในการวิเคราะห์วิดีโอด้วยตนเอง เหมาะสำหรับ:

  • การเฝ้าระวังความปลอดภัย: ตรวจจับเหตุการณ์หรือความผิดปกติโดยอัตโนมัติ
  • การควบคุมคุณภาพในโรงงาน: ตรวจสอบกระบวนการผลิตเพื่อหาข้อบกพร่อง
  • การตรวจสอบการปฏิบัติตามกฎระเบียบ: ยืนยันว่ามีการปฏิบัติตามมาตรฐานความปลอดภัยและข้อบังคับต่างๆ

เริ่มต้นใช้งานได้อย่างไร?

คุณสามารถสำรวจและปรับใช้โซลูชันนี้ได้ง่ายๆ โดยดาวน์โหลดตัวอย่างโอเพนซอร์สของ AWS บน GitHub ซึ่งจะช่วยให้คุณเห็นภาพรวมของสถาปัตยกรรมและเริ่มทดลองใช้งานโมเดลพื้นฐานมัลติโมดอลบน Amazon Bedrock ได้ทันที

อ่านต่อ: ปลดล็อกข้อมูลเชิงลึกจากวิดีโอขนาดใหญ่ด้วย AI มัลติโมดอลบน Amazon Bedrock เพื่อดูรายละเอียดทางเทคนิคและแนวทางสถาปัตยกรรมแบบอื่นๆ!

Hermes Agent ปลดล็อก AI พัฒนาตัวเองบน NVIDIA RTX และ Qwen 3.6 สำหรับการรันในเครื่อง

Hermes Agent ปลดล็อก AI พัฒนาตัวเองบน NVIDIA RTX และ Qwen 3.6 สำหรับการรันในเครื่อง

Hermes Agent นำเสนอความสามารถ AI ที่ปรับปรุงตัวเองได้ ซึ่งปรับให้เหมาะกับการใช้งานแบบ Local บน NVIDIA RTX PC และเวิร์กสเตชัน และเสริมประสิทธิภาพด้วย LLM แบบ Open-weight Qwen 3.6 ใหม่

อ่านข่าวนี้

อยากให้แจ้งเตือน ตอน Newsletter เปิดตัวมั้ย?

เรากำลังวัดความสนใจก่อนเปิด weekly AI digest จริงๆ ใส่ email ไว้ เราจะ email ไปบอกตอนเปิดตัว — ส่งครั้งเดียว ไม่มี spam

เราใช้ email เฉพาะเพื่อแจ้งเปิดตัว newsletter เท่านั้น ไม่มี spam — อ่าน นโยบายความเป็นส่วนตัว