Sentence Transformers v5.4 เพิ่มความสามารถฝังและจัดอันดับหลายโมดอล
Tools
![]()
เฮ้ยทุกคน! มีข่าวดีสำหรับสาย AI ที่ต้องทำงานกับข้อมูลหลายรูปแบบ ล่าสุดไลบรารี Sentence Transformers Python ได้อัปเดตเวอร์ชัน 5.4 แล้วนะ ซึ่งมาพร้อมกับความสามารถใหม่เจ๋งๆ ในการฝัง (embedding) และจัดอันดับ (reranking) โมเดลแบบหลายโมดอล (multimodal) ที่จะช่วยให้เราทำงานได้ง่ายขึ้นเยอะเลย
Multimodal Models คืออะไร?
เดิมที Sentence Transformers จะเน้นไปที่การประมวลผลข้อความ แต่ตอนนี้มันก้าวไปอีกขั้นแล้ว! ด้วยความสามารถใหม่นี้ เราสามารถใช้ API เดียวกันในการเข้ารหัสและเปรียบเทียบข้อมูลได้หลากหลายรูปแบบ ไม่ว่าจะเป็นข้อความ รูปภาพ เสียง หรือแม้แต่วิดีโอ
หลักๆ แล้ว Multimodal Models แบ่งเป็นสองแบบ:
- Multimodal Embedding Models: โมเดลเหล่านี้จะเปลี่ยนข้อมูลจากโมดอลที่ต่างกัน เช่น ข้อความกับรูปภาพ ให้อยู่ในพื้นที่เวกเตอร์เดียวกัน (shared embedding space) ทำให้เราสามารถเปรียบเทียบความคล้ายคลึงกันระหว่างข้อความกับรูปภาพได้ เหมือนกับการหาว่าข้อความนี้ตรงกับรูปภาพไหนที่สุดนั่นเอง
- Multimodal Reranker Models: ส่วนโมเดลจัดอันดับนี้จะให้คะแนนความเกี่ยวข้องของคู่ข้อมูลที่มีโมดอลผสมกัน เช่น การจัดอันดับรูปภาพที่เกี่ยวข้องกับข้อความค้นหาของเรา
ทำไมถึงสำคัญและช่วยงานเรายังไง?
การอัปเดตครั้งนี้เปิดประตูสู่การใช้งานใหม่ๆ ที่น่าตื่นเต้นเพียบ! ยกตัวอย่างเช่น:
- การค้นหาเอกสารด้วยภาพ (Visual Document Retrieval): ลองนึกภาพว่าคุณมีเอกสาร PDF ที่มีทั้งข้อความและรูปภาพ คุณสามารถใช้รูปภาพในการค้นหาเอกสารที่เกี่ยวข้องได้เลย
- การค้นหาข้ามโมดอล (Cross-Modal Search): ค้นหารูปภาพด้วยข้อความ หรือค้นหาวิดีโอด้วยเสียง อะไรแบบนี้ก็ทำได้ง่ายๆ แล้ว
- Multimodal RAG Pipelines: สำหรับคนที่ทำ Retrieval Augmented Generation (RAG) นี่คือโอกาสดีที่จะสร้างไปป์ไลน์ที่สามารถดึงข้อมูลจากแหล่งต่างๆ ที่มีทั้งข้อความและรูปภาพมาตอบคำถามได้แบบครบวงจร
บอกเลยว่าฟีเจอร์ใหม่นี้ช่วยลดความยุ่งยากในการจัดการโมเดลหลายๆ ตัวสำหรับข้อมูลต่างรูปแบบ ทำให้ workflow ของเราคล่องตัวขึ้นเยอะเลย และสามารถลองดูรายละเอียดเพิ่มเติมได้ที่ บล็อกโพสต์ Multimodal Sentence Transformers บน Hugging Face
เริ่มต้นใช้งานยังไง?
การติดตั้งก็ไม่ยากเลย แต่ต้องเพิ่ม extras สำหรับโมดอลที่เราต้องการใช้งานนะ เช่น ถ้าจะใช้กับรูปภาพ ก็ติดตั้งแบบนี้:
pip install -U "sentence-transformers[image]"
สำหรับโมเดล VLM-based อย่าง Qwen/Qwen3-VL-Embedding-2B การทำงานบน GPU จะดีที่สุด โดยเฉพาะรุ่น 2B ต้องการ VRAM ประมาณ 8 GB ส่วนรุ่น 8B อาจต้องใช้ VRAM ถึง 20 GB เลยทีเดียว ถ้าใช้ CPU โมเดลเหล่านี้จะทำงานช้ามากๆ
การโหลดโมเดลก็ง่ายเหมือนเดิม:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Qwen/Qwen3-VL-Embedding-2B", revision="refs/pr/23")
จากนั้น เราก็สามารถใช้เมธอด model.encode() เพื่อเข้ารหัสข้อมูลได้เลย โดยรองรับทั้งรูปภาพที่เป็น URL, ไฟล์รูปภาพในเครื่อง หรือแม้แต่วัตถุ PIL Image สำหรับโมเดล Qwen/Qwen3-VL-Embedding-2B ตัวฝังรูปภาพที่ได้จะมีมิติ 2048
ลองใช้โมเดลอย่าง BAAI BGE-VL-MLLM-S1 เพื่อทดลองความสามารถเหล่านี้ได้เลยนะ!
สรุป
Sentence Transformers v5.4 ทำให้การทำงานกับข้อมูลหลากหลายโมดอลกลายเป็นเรื่องง่ายและสะดวกสบายมากๆ ด้วย API ที่คุ้นเคย ทำให้เราสามารถสร้างแอปพลิเคชัน AI ที่มีความสามารถมากขึ้นได้อย่างไม่ยากเย็น ใครที่ทำงานด้านการค้นหา การจัดประเภท หรือ RAG ห้ามพลาดอัปเดตนี้เลย!
อ่านต่อ: อยากรู้ข้อมูลเพิ่มเติมและตัวอย่างโค้ดแบบละเอียดใช่ไหม? ไปดูได้เลยที่ บล็อกโพสต์ Multimodal Sentence Transformers แล้วคุณจะทึ่งกับความสามารถใหม่ๆ เหล่านี้!