Model
Mistral AI เปิดตัวโมเดลแปลงเสียงเป็นข้อความ Voxtral Transcribe 2
![]()
Mistral AI เพิ่งจะสร้างความฮือฮาอีกครั้งด้วยการเปิดตัว Voxtral Transcribe 2 ครับเพื่อนๆ! นี่คือชุดโมเดลแปลงเสียงเป็นข้อความ (Speech-to-Text) เจเนอเรชันใหม่ล่าสุด ที่มาพร้อมคุณภาพการถอดเสียงระดับเทพ ทั้งยังมีความสามารถในการแยกเสียงผู้พูด (speaker diarization) และการถอดเสียงแบบเรียลไทม์ด้วยความหน่วงต่ำสุดๆ บอกเลยว่าน่าสนใจมากๆ เลยนะสำหรับคนที่ทำงานกับเสียง! อยากรู้รายละเอียดเพิ่มเติม ลองดูข่าวประกาศฉบับเต็มได้ที่ Mistral AI News
Voxtral Transcribe 2 นี้มาพร้อมกัน 2 โมเดลหลักๆ คือ Voxtral Mini Transcribe V2 สำหรับการประมวลผลเสียงแบบเป็นชุด (batch processing) และ Voxtral Realtime ที่ออกแบบมาเพื่อการใช้งานแบบสดๆ เช่น ตัวช่วยเสียงหรือระบบสนทนา และที่พิเศษสุดๆ คือ Voxtral Realtime ยังเป็นโมเดลแบบ Open-weights ภายใต้ลิขสิทธิ์ Apache 2.0 อีกด้วย!
นอกจากนี้ Mistral AI ยังเปิดตัว Audio Playground ใหม่ใน Mistral Studio ที่ให้เราลองทดสอบ Voxtral Transcribe 2 ได้ทันที พร้อมความสามารถในการแยกเสียงผู้พูดและประทับเวลา (timestamps) ด้วยนะ ลองเล่นได้ที่ Mistral Studio
โมเดลนี้เอาไว้ทำอะไร
มาดูกันว่าแต่ละโมเดลทำอะไรได้บ้าง:
Voxtral Mini Transcribe V2: โมเดลนี้เหมาะสำหรับงานที่ต้องการความแม่นยำสูงในการถอดเสียงแบบเป็นชุด ไม่ว่าจะเป็นการประชุม สัมภาษณ์ หรือไฟล์เสียงยาวๆ จุดเด่นของ Voxtral Mini Transcribe V2 คือ:
- ถอดเสียงได้ระดับสุดยอด พร้อมความสามารถในการ แยกเสียงผู้พูด ทำให้รู้ว่าใครพูดอะไรตอนไหน
- มี Context biasing หรือการให้บริบทล่วงหน้าได้สูงสุด 100 คำ/วลี เพื่อช่วยให้โมเดลสะกดชื่อเฉพาะ ศัพท์เทคนิค หรือคำเฉพาะทางได้ถูกต้อง
- ประทับเวลาแบบคำต่อคำ (word-level timestamps) ช่วยให้ค้นหาในเสียง หรือสร้างซับไตเติ้ลได้ง่ายขึ้น
- รองรับถึง 13 ภาษา ได้แก่ อังกฤษ จีน ฮินดี สเปน อาหรับ ฝรั่งเศส โปรตุเกส รัสเซีย เยอรมัน ญี่ปุ่น เกาหลี อิตาลี และดัตช์
- มีความแม่นยำสูงมาก ด้วยอัตราความผิดพลาดของคำ (Word Error Rate - WER) เพียงประมาณ 4% บนชุดข้อมูล FLEURS ซึ่งดีกว่าคู่แข่งอย่าง GPT-4o mini Transcribe และ Gemini 2.5 Flash ซะอีก!
- ประมวลผลเสียงได้ เร็วกว่า ElevenLabs’ Scribe v2 ประมาณ 3 เท่าในคุณภาพที่เทียบเท่ากัน
- ราคาเป็นมิตรสุดๆ เพียง $0.003 ต่อนาทีเท่านั้นเอง! ดูรายละเอียดเพิ่มเติมเกี่ยวกับ Voxtral Mini Transcribe V2 ได้ที่ เอกสาร Voxtral Mini Transcribe V2
Voxtral Realtime: สำหรับงานที่ต้องการความเร็วแบบเรียลไทม์ โมเดลนี้ตอบโจทย์สุดๆ ครับ! Voxtral Realtime ถูกสร้างมาเพื่อการถอดเสียงแบบสดๆ โดยเฉพาะ ด้วยสถาปัตยกรรมแบบสตรีมมิ่งใหม่ ทำให้สามารถถอดเสียงได้ทันทีที่ได้รับเสียงเข้ามา ลดความหน่วง (latency) ได้ต่ำกว่า 200 มิลลิวินาที ทำให้เหมาะสำหรับ:
- ตัวช่วยเสียง หรือแอปพลิเคชันที่ต้องตอบโต้แบบทันที
- รองรับ 13 ภาษาเดียวกับ Voxtral Mini Transcribe V2
- มีขนาดพารามิเตอร์เพียง 4B ทำให้สามารถนำไปปรับใช้บนอุปกรณ์ Edge ได้อย่างมีประสิทธิภาพ ช่วยเรื่องความเป็นส่วนตัวและความปลอดภัย
- ที่สำคัญคือ เป็นโมเดลแบบ Open-weights (Apache 2.0 license) ใครอยากเอาไปปรับใช้ก็สามารถดาวน์โหลด weights ได้ที่ Hugging Face Hub เลย อ่านเอกสารเพิ่มเติมเกี่ยวกับ Voxtral Realtime ได้ที่ เอกสาร Voxtral Realtime
ทำไมถึงสำคัญ
Voxtral Transcribe 2 ไม่ได้แค่เร็วและแม่นยำขึ้นเท่านั้นครับ แต่ยังมาพร้อมฟีเจอร์ที่ช่วยให้การทำงานกับเสียงง่ายขึ้นมากๆ:
- ประสิทธิภาพสูงแต่ราคาย่อมเยา: ให้ความแม่นยำระดับแนวหน้าในราคาที่ถูกกว่าคู่แข่งมาก ทำให้คุ้มค่าสุดๆ สำหรับการประมวลผลข้อมูลเสียงจำนวนมาก
- ถอดเสียงแบบเรียลไทม์ได้จริง: ด้วยความหน่วงที่ต่ำมาก ทำให้สร้างประสบการณ์การใช้งานที่ไม่สะดุด เช่น การสร้าง AI Agent ที่ตอบโต้ได้อย่างเป็นธรรมชาติ
- แยกเสียงผู้พูดและประทับเวลา: ช่วยให้การวิเคราะห์บทสนทนาหลายฝ่ายทำได้ง่ายขึ้นมาก ทั้งการถอดเทปประชุม หรือการวิเคราะห์การโทรศัพท์
- ปรับแต่งได้ตามใจ: ฟีเจอร์ Context biasing ช่วยให้โมเดลเข้าใจศัพท์เฉพาะทางของธุรกิจต่างๆ ได้ดียิ่งขึ้น
- Open-weights: โมเดล Voxtral Realtime ที่เป็น Open-weights เปิดโอกาสให้นักพัฒนาสามารถปรับใช้และปรับแต่งโมเดลได้ตามความต้องการ โดยเฉพาะในแอปพลิเคชันที่ต้องการความเป็นส่วนตัวสูง
ใช้ที่ไหน / เริ่มต้นยังไง
อยากลองใช้ดูไหม? ง่ายนิดเดียวครับ:
- ลองเล่นใน Audio Playground: คุณสามารถทดสอบ Voxtral Transcribe 2 ได้ทันทีใน Mistral Studio อัปโหลดไฟล์เสียงได้สูงสุด 10 ไฟล์ ลองเปิด/ปิดการแยกเสียงผู้พูด เพิ่มคำสำหรับ Context biasing ได้เลย รองรับไฟล์ .mp3, .wav, .m4a, .flac, .ogg ขนาดสูงสุด 1GB ต่อไฟล์
- สำหรับนักพัฒนา:
- Voxtral Mini Transcribe V2 ใช้งานได้แล้วผ่าน API ในราคา $0.003 ต่อนาที
- Voxtral Realtime ใช้งานได้ผ่าน API ในราคา $0.006 ต่อนาที และสามารถดาวน์โหลด Open-weights ได้จาก Hugging Face Hub ครับ
โมเดลเหล่านี้สามารถนำไปใช้กับงานหลากหลายประเภท เช่น:
- สรุปการประชุมอัจฉริยะ: ถอดเสียงการประชุมหลายภาษาพร้อมระบุว่าใครพูดอะไรเมื่อไหร่
- ตัวช่วยเสียงและผู้ช่วยเสมือน: สร้าง AI ตัวช่วยที่ตอบโต้ได้อย่างรวดเร็วและเป็นธรรมชาติ
- ระบบอัตโนมัติใน Call Center: ถอดเสียงการโทรแบบเรียลไทม์เพื่อวิเคราะห์อารมณ์ลูกค้า หรือแนะนำการตอบกลับ
- สื่อและการแพร่ภาพ: สร้างคำบรรยายแบบเรียลไทม์สำหรับรายการสด
อ่านต่อ: ลองใช้ Voxtral Transcribe 2 ใน Mistral Studio เพื่อปลดล็อกศักยภาพของการแปลงเสียงเป็นข้อความแบบใหม่!