สร้างวิดีโอ AI เฉพาะบุคคลด้วย AWS Bedrock, Nova Reel และ RAG

การสร้างวิดีโอคุณภาพสูงที่ปรับแต่งได้ตามต้องการยังคงเป็นความท้าทายใหญ่ในปัจจุบัน เพราะโมเดล AI ที่ใช้สร้างวิดีโอมักจะถูกจำกัดอยู่แค่ความรู้ที่ได้รับการเทรนมาเท่านั้น ข้อจำกัดนี้ส่งผลกระทบในหลายอุตสาหกรรม ไม่ว่าจะเป็นโฆษณา, การผลิตสื่อ, การศึกษา หรือเกม ที่ต้องการความสามารถในการปรับแต่งและควบคุมการสร้างวิดีโอเป็นพิเศษ

เพื่อแก้ปัญหานี้ AWS ได้พัฒนาไปป์ไลน์แบบมัลติโมดอลที่เรียกว่า Video Retrieval Augmented Generation (VRAG) ซึ่งช่วยให้เราสามารถเปลี่ยนข้อความที่มีโครงสร้างให้กลายเป็นวิดีโอเฉพาะบุคคลคุณภาพสูงได้ โดยใช้คลังรูปภาพเป็นข้อมูลอ้างอิง โซลูชันนี้ผสานรวม Amazon Bedrock, Amazon Nova Reel, Amazon OpenSearch Service vector engine และ Amazon Simple Storage Service (Amazon S3) เข้าด้วยกัน ทำให้การดึงรูปภาพ การสร้างวิดีโอด้วย Prompt และการประมวลผลแบบแบตช์ ทำงานร่วมกันได้อย่างราบรื่นในเวิร์กโฟลว์อัตโนมัติเดียว อยากรู้ว่าทำยังไง ตามมาดูกันเลย!

VRAG คืออะไร?

VRAG (Video Retrieval Augmented Generation) เป็นโซลูชันที่ AWS สร้างขึ้นมาเพื่อทำให้การสร้างวิดีโอ AI ที่ปรับแต่งได้ง่ายขึ้นมาก หลักการทำงานก็คือ เราแค่บอก "สิ่งของที่สนใจ" (object of interest) เช่น "ท้องฟ้าสีฟ้า" ระบบก็จะไปดึงรูปภาพที่เกี่ยวข้องจากชุดข้อมูลที่ถูกจัดทำดัชนีไว้มาให้ จากนั้นเราก็กำหนด "คำสั่งการกระทำ" (action prompt) เช่น "กล้องหมุนตามเข็มนาฬิกา" หรือ "กล้องแพนลง" ซึ่งจะถูกนำไปรวมกับรูปภาพที่ได้มา เพื่อสร้างวิดีโอผ่าน Amazon Nova Reel แค่นี้เราก็จะได้วิดีโอที่ไม่เหมือนใครแล้ว!

สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับเทคนิคและวิธีการทำงานเชิงลึก สามารถอ่านได้ที่ AWS Machine Learning Blog: Video Generation with VRAG

หลักการทำงานเบื้องหลัง

ไปป์ไลน์ VRAG นี้ถูกออกแบบมาให้ทำงานอย่างเป็นระบบ เพื่อแปลงข้อความและรูปภาพให้กลายเป็นวิดีโอคุณภาพสูงแบบอัตโนมัติ โดยมีส่วนประกอบหลักๆ ดังนี้:

การดึงและประมวลผลรูปภาพ: ผู้ใช้ระบุ "สิ่งของที่สนใจ" (object of interest) เช่น "ท้องฟ้าสีฟ้า" จากนั้นโซลูชันจะสอบถาม Amazon OpenSearch Service vector engine เพื่อดึงรูปภาพที่เกี่ยวข้องที่สุดจากชุดข้อมูลที่ถูกจัดทำดัชนีไว้ ซึ่งรูปภาพเหล่านั้นจะถูกจัดเก็บอยู่ใน Amazon S3
การสร้างวิดีโอด้วย Prompt: ผู้ใช้กำหนด "คำสั่งการกระทำ" (action prompt) เช่น "กล้องแพนลง" ซึ่งจะถูกรวมกับรูปภาพที่ดึงมาได้ เพื่อสร้างวิดีโอโดยใช้ Amazon Nova Reel
การประมวลผลแบบแบตช์: โซลูชันนี้รองรับการประมวลผลคำขอสร้างวิดีโอหลายรายการพร้อมกัน โดยอ่านเทมเพลตข้อความที่มีโครงสร้างจากไฟล์ prompts.txt ซึ่งมีตัวยึดตำแหน่ง เช่น <object_prompt> และ <action_prompt> ทำให้สามารถสร้างวิดีโอหลายชุดได้ในการรันครั้งเดียว
การตรวจสอบและจัดเก็บ: การสร้างวิดีโอจะทำงานแบบอะซิงโครนัส (asynchronous) ดังนั้นโซลูชันจะคอยตรวจสอบสถานะของงาน เมื่อเสร็จสิ้น วิดีโอที่สร้างเสร็จแล้วจะถูกจัดเก็บโดยอัตโนมัติใน S3 bucket

ทำไม VRAG ถึงสำคัญ?

โซลูชัน VRAG นี้ช่วยให้การสร้างวิดีโอ AI ง่ายขึ้นมากและเหมาะกับหลายอุตสาหกรรม เพราะมันช่วยตอบโจทย์การสร้างคอนเทนต์ที่เฉพาะเจาะจงและปรับแต่งได้ดีกว่าโมเดลทั่วไปที่ไม่สามารถอ้างอิงข้อมูลภายนอกได้

ตัวอย่าง Use Case ที่น่าสนใจ:

วิดีโอเพื่อการศึกษา: สามารถสร้างวิดีโอสอนการใช้งานหรือวิดีโออธิบายเนื้อหาได้อย่างอัตโนมัติ เพียงแค่ดึงรูปภาพที่เกี่ยวข้องจากฐานความรู้
วิดีโอการตลาด: สร้างวิดีโอโฆษณาที่ตรงกลุ่มเป้าหมายได้ง่ายๆ โดยดึงรูปภาพที่สอดคล้องกับข้อมูลประชากรเฉพาะกลุ่ม หรือฟีเจอร์ของผลิตภัณฑ์
คอนเทนต์ส่วนบุคคล: ปรับแต่งวิดีโอให้เข้ากับผู้ใช้แต่ละคน โดยดึงรูปภาพตามความสนใจเฉพาะของผู้ใช้งานนั้นๆ

ด้วยความสามารถในการประมวลผลแบบแบตช์และเวิร์กโฟลว์อัตโนมัติ ทำให้ VRAG เป็นรากฐานที่ปรับขนาดได้และนำกลับมาใช้ใหม่ได้สำหรับการสร้างสื่อโดยใช้ AI ช่วย

เริ่มต้นใช้งานและข้อควรทราบ

ก่อนที่จะเริ่มใช้งานโซลูชันนี้ มีข้อกำหนดเบื้องต้นที่คุณต้องมีคือ เข้าถึงบัญชี AWS ที่ถูกต้อง และมีความคุ้นเคยกับการใช้งาน Amazon SageMaker notebook instances

การติดตั้งใช้งานสามารถทำได้ผ่าน AWS CloudFormation template ซึ่งปัจจุบันโซลูชันนี้ถูกจัดสรรในภูมิภาค US East (N. Virginia) AWS Region หากต้องการดูรายชื่อภูมิภาคที่รองรับ Amazon Nova Reel สามารถตรวจสอบได้ในเอกสารของ Amazon Bedrock

AWS ได้จัดเตรียมชุด Jupyter Notebooks (_00 ถึง _06) พร้อมคำแนะนำทีละขั้นตอน เพื่อช่วยให้คุณเข้าใจและสร้างโซลูชัน VRAG ได้ด้วยตัวเอง

อ่านต่อ: อยากเจาะลึกรายละเอียดทางเทคนิคและลองสร้างวิดีโอ AI สุดเจ๋งด้วยตัวเองใช่ไหม? ไปดูบทความฉบับเต็มได้เลยที่ AWS Machine Learning Blog: Video Generation with VRAG

สร้างวิดีโอ AI เฉพาะบุคคลด้วย AWS Bedrock, Nova Reel และ RAG

VRAG คืออะไร?

หลักการทำงานเบื้องหลัง

ทำไม VRAG ถึงสำคัญ?

เริ่มต้นใช้งานและข้อควรทราบ

อ่านต่อ

Cursor ปรับปรุง Design Mode ด้วย Multi-Select และ Voice Input

อยากให้แจ้งเตือน ตอน Newsletter เปิดตัวมั้ย?