Sentence Transformers v5.4 เพิ่มความสามารถฝังและจัดอันดับหลายโมดอล
เขียนโดยCoquette
ร่างเนื้อหาด้วย AI ตรวจทานและแก้ไขโดยคน
![]()
เฮ้ยทุกคน! มีข่าวดีสำหรับสาย AI ที่ต้องทำงานกับข้อมูลหลายรูปแบบ ล่าสุดไลบรารี Sentence Transformers Python ได้อัปเดตเวอร์ชัน 5.4 แล้วนะ ซึ่งมาพร้อมกับความสามารถใหม่เจ๋งๆ ในการฝัง (embedding) และจัดอันดับ (reranking) โมเดลแบบหลายโมดอล (multimodal) ที่จะช่วยให้เราทำงานได้ง่ายขึ้นเยอะเลย
Multimodal Models คืออะไร?
เดิมที Sentence Transformers จะเน้นไปที่การประมวลผลข้อความ แต่ตอนนี้มันก้าวไปอีกขั้นแล้ว! ด้วยความสามารถใหม่นี้ เราสามารถใช้ API เดียวกันในการเข้ารหัสและเปรียบเทียบข้อมูลได้หลากหลายรูปแบบ ไม่ว่าจะเป็นข้อความ รูปภาพ เสียง หรือแม้แต่วิดีโอ
หลักๆ แล้ว Multimodal Models แบ่งเป็นสองแบบ:
- Multimodal Embedding Models: โมเดลเหล่านี้จะเปลี่ยนข้อมูลจากโมดอลที่ต่างกัน เช่น ข้อความกับรูปภาพ ให้อยู่ในพื้นที่เวกเตอร์เดียวกัน (shared embedding space) ทำให้เราสามารถเปรียบเทียบความคล้ายคลึงกันระหว่างข้อความกับรูปภาพได้ เหมือนกับการหาว่าข้อความนี้ตรงกับรูปภาพไหนที่สุดนั่นเอง
- Multimodal Reranker Models: ส่วนโมเดลจัดอันดับนี้จะให้คะแนนความเกี่ยวข้องของคู่ข้อมูลที่มีโมดอลผสมกัน เช่น การจัดอันดับรูปภาพที่เกี่ยวข้องกับข้อความค้นหาของเรา
ทำไมถึงสำคัญและช่วยงานเรายังไง?
การอัปเดตครั้งนี้เปิดประตูสู่การใช้งานใหม่ๆ ที่น่าตื่นเต้นเพียบ! ยกตัวอย่างเช่น:
- การค้นหาเอกสารด้วยภาพ (Visual Document Retrieval): ลองนึกภาพว่าคุณมีเอกสาร PDF ที่มีทั้งข้อความและรูปภาพ คุณสามารถใช้รูปภาพในการค้นหาเอกสารที่เกี่ยวข้องได้เลย
- การค้นหาข้ามโมดอล (Cross-Modal Search): ค้นหารูปภาพด้วยข้อความ หรือค้นหาวิดีโอด้วยเสียง อะไรแบบนี้ก็ทำได้ง่ายๆ แล้ว
- Multimodal RAG Pipelines: สำหรับคนที่ทำ Retrieval Augmented Generation (RAG) นี่คือโอกาสดีที่จะสร้างไปป์ไลน์ที่สามารถดึงข้อมูลจากแหล่งต่างๆ ที่มีทั้งข้อความและรูปภาพมาตอบคำถามได้แบบครบวงจร
บอกเลยว่าฟีเจอร์ใหม่นี้ช่วยลดความยุ่งยากในการจัดการโมเดลหลายๆ ตัวสำหรับข้อมูลต่างรูปแบบ ทำให้ workflow ของเราคล่องตัวขึ้นเยอะเลย และสามารถลองดูรายละเอียดเพิ่มเติมได้ที่ บล็อกโพสต์ Multimodal Sentence Transformers บน Hugging Face
เริ่มต้นใช้งานยังไง?
การติดตั้งก็ไม่ยากเลย แต่ต้องเพิ่ม extras สำหรับโมดอลที่เราต้องการใช้งานนะ เช่น ถ้าจะใช้กับรูปภาพ ก็ติดตั้งแบบนี้:
pip install -U "sentence-transformers[image]"
สำหรับโมเดล VLM-based อย่าง Qwen/Qwen3-VL-Embedding-2B การทำงานบน GPU จะดีที่สุด โดยเฉพาะรุ่น 2B ต้องการ VRAM ประมาณ 8 GB ส่วนรุ่น 8B อาจต้องใช้ VRAM ถึง 20 GB เลยทีเดียว ถ้าใช้ CPU โมเดลเหล่านี้จะทำงานช้ามากๆ
การโหลดโมเดลก็ง่ายเหมือนเดิม:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Qwen/Qwen3-VL-Embedding-2B", revision="refs/pr/23")
จากนั้น เราก็สามารถใช้เมธอด model.encode() เพื่อเข้ารหัสข้อมูลได้เลย โดยรองรับทั้งรูปภาพที่เป็น URL, ไฟล์รูปภาพในเครื่อง หรือแม้แต่วัตถุ PIL Image สำหรับโมเดล Qwen/Qwen3-VL-Embedding-2B ตัวฝังรูปภาพที่ได้จะมีมิติ 2048
ลองใช้โมเดลอย่าง BAAI BGE-VL-MLLM-S1 เพื่อทดลองความสามารถเหล่านี้ได้เลยนะ!
สรุป
Sentence Transformers v5.4 ทำให้การทำงานกับข้อมูลหลากหลายโมดอลกลายเป็นเรื่องง่ายและสะดวกสบายมากๆ ด้วย API ที่คุ้นเคย ทำให้เราสามารถสร้างแอปพลิเคชัน AI ที่มีความสามารถมากขึ้นได้อย่างไม่ยากเย็น ใครที่ทำงานด้านการค้นหา การจัดประเภท หรือ RAG ห้ามพลาดอัปเดตนี้เลย!
อ่านต่อ: อยากรู้ข้อมูลเพิ่มเติมและตัวอย่างโค้ดแบบละเอียดใช่ไหม? ไปดูได้เลยที่ บล็อกโพสต์ Multimodal Sentence Transformers แล้วคุณจะทึ่งกับความสามารถใหม่ๆ เหล่านี้!
อ่านต่อ

Hermes Agent ปลดล็อก AI พัฒนาตัวเองบน NVIDIA RTX และ Qwen 3.6 สำหรับการรันในเครื่อง
Hermes Agent นำเสนอความสามารถ AI ที่ปรับปรุงตัวเองได้ ซึ่งปรับให้เหมาะกับการใช้งานแบบ Local บน NVIDIA RTX PC และเวิร์กสเตชัน และเสริมประสิทธิภาพด้วย LLM แบบ Open-weight Qwen 3.6 ใหม่
อ่านข่าวนี้