Mistral AI เปิดตัวโมเดลแปลงเสียงเป็นข้อความ Voxtral Transcribe 2

Mistral AI เพิ่งจะสร้างความฮือฮาอีกครั้งด้วยการเปิดตัว Voxtral Transcribe 2 ครับเพื่อนๆ! นี่คือชุดโมเดลแปลงเสียงเป็นข้อความ (Speech-to-Text) เจเนอเรชันใหม่ล่าสุด ที่มาพร้อมคุณภาพการถอดเสียงระดับเทพ ทั้งยังมีความสามารถในการแยกเสียงผู้พูด (speaker diarization) และการถอดเสียงแบบเรียลไทม์ด้วยความหน่วงต่ำสุดๆ บอกเลยว่าน่าสนใจมากๆ เลยนะสำหรับคนที่ทำงานกับเสียง! อยากรู้รายละเอียดเพิ่มเติม ลองดูข่าวประกาศฉบับเต็มได้ที่ Mistral AI News

Voxtral Transcribe 2 นี้มาพร้อมกัน 2 โมเดลหลักๆ คือ Voxtral Mini Transcribe V2 สำหรับการประมวลผลเสียงแบบเป็นชุด (batch processing) และ Voxtral Realtime ที่ออกแบบมาเพื่อการใช้งานแบบสดๆ เช่น ตัวช่วยเสียงหรือระบบสนทนา และที่พิเศษสุดๆ คือ Voxtral Realtime ยังเป็นโมเดลแบบ Open-weights ภายใต้ลิขสิทธิ์ Apache 2.0 อีกด้วย!

นอกจากนี้ Mistral AI ยังเปิดตัว Audio Playground ใหม่ใน Mistral Studio ที่ให้เราลองทดสอบ Voxtral Transcribe 2 ได้ทันที พร้อมความสามารถในการแยกเสียงผู้พูดและประทับเวลา (timestamps) ด้วยนะ ลองเล่นได้ที่ Mistral Studio

โมเดลนี้เอาไว้ทำอะไร

มาดูกันว่าแต่ละโมเดลทำอะไรได้บ้าง:

Voxtral Mini Transcribe V2: โมเดลนี้เหมาะสำหรับงานที่ต้องการความแม่นยำสูงในการถอดเสียงแบบเป็นชุด ไม่ว่าจะเป็นการประชุม สัมภาษณ์ หรือไฟล์เสียงยาวๆ จุดเด่นของ Voxtral Mini Transcribe V2 คือ:

ถอดเสียงได้ระดับสุดยอด พร้อมความสามารถในการ แยกเสียงผู้พูด ทำให้รู้ว่าใครพูดอะไรตอนไหน
มี Context biasing หรือการให้บริบทล่วงหน้าได้สูงสุด 100 คำ/วลี เพื่อช่วยให้โมเดลสะกดชื่อเฉพาะ ศัพท์เทคนิค หรือคำเฉพาะทางได้ถูกต้อง
ประทับเวลาแบบคำต่อคำ (word-level timestamps) ช่วยให้ค้นหาในเสียง หรือสร้างซับไตเติ้ลได้ง่ายขึ้น
รองรับถึง 13 ภาษา ได้แก่ อังกฤษ จีน ฮินดี สเปน อาหรับ ฝรั่งเศส โปรตุเกส รัสเซีย เยอรมัน ญี่ปุ่น เกาหลี อิตาลี และดัตช์
มีความแม่นยำสูงมาก ด้วยอัตราความผิดพลาดของคำ (Word Error Rate - WER) เพียงประมาณ 4% บนชุดข้อมูล FLEURS ซึ่งดีกว่าคู่แข่งอย่าง GPT-4o mini Transcribe และ Gemini 2.5 Flash ซะอีก!
ประมวลผลเสียงได้ เร็วกว่า ElevenLabs’ Scribe v2 ประมาณ 3 เท่าในคุณภาพที่เทียบเท่ากัน
ราคาเป็นมิตรสุดๆ เพียง $0.003 ต่อนาทีเท่านั้นเอง! ดูรายละเอียดเพิ่มเติมเกี่ยวกับ Voxtral Mini Transcribe V2 ได้ที่ เอกสาร Voxtral Mini Transcribe V2

Voxtral Realtime: สำหรับงานที่ต้องการความเร็วแบบเรียลไทม์ โมเดลนี้ตอบโจทย์สุดๆ ครับ! Voxtral Realtime ถูกสร้างมาเพื่อการถอดเสียงแบบสดๆ โดยเฉพาะ ด้วยสถาปัตยกรรมแบบสตรีมมิ่งใหม่ ทำให้สามารถถอดเสียงได้ทันทีที่ได้รับเสียงเข้ามา ลดความหน่วง (latency) ได้ต่ำกว่า 200 มิลลิวินาที ทำให้เหมาะสำหรับ:

ตัวช่วยเสียง หรือแอปพลิเคชันที่ต้องตอบโต้แบบทันที
รองรับ 13 ภาษาเดียวกับ Voxtral Mini Transcribe V2
มีขนาดพารามิเตอร์เพียง 4B ทำให้สามารถนำไปปรับใช้บนอุปกรณ์ Edge ได้อย่างมีประสิทธิภาพ ช่วยเรื่องความเป็นส่วนตัวและความปลอดภัย
ที่สำคัญคือ เป็นโมเดลแบบ Open-weights (Apache 2.0 license) ใครอยากเอาไปปรับใช้ก็สามารถดาวน์โหลด weights ได้ที่ Hugging Face Hub เลย อ่านเอกสารเพิ่มเติมเกี่ยวกับ Voxtral Realtime ได้ที่ เอกสาร Voxtral Realtime

ทำไมถึงสำคัญ

Voxtral Transcribe 2 ไม่ได้แค่เร็วและแม่นยำขึ้นเท่านั้นครับ แต่ยังมาพร้อมฟีเจอร์ที่ช่วยให้การทำงานกับเสียงง่ายขึ้นมากๆ:

ประสิทธิภาพสูงแต่ราคาย่อมเยา: ให้ความแม่นยำระดับแนวหน้าในราคาที่ถูกกว่าคู่แข่งมาก ทำให้คุ้มค่าสุดๆ สำหรับการประมวลผลข้อมูลเสียงจำนวนมาก
ถอดเสียงแบบเรียลไทม์ได้จริง: ด้วยความหน่วงที่ต่ำมาก ทำให้สร้างประสบการณ์การใช้งานที่ไม่สะดุด เช่น การสร้าง AI Agent ที่ตอบโต้ได้อย่างเป็นธรรมชาติ
แยกเสียงผู้พูดและประทับเวลา: ช่วยให้การวิเคราะห์บทสนทนาหลายฝ่ายทำได้ง่ายขึ้นมาก ทั้งการถอดเทปประชุม หรือการวิเคราะห์การโทรศัพท์
ปรับแต่งได้ตามใจ: ฟีเจอร์ Context biasing ช่วยให้โมเดลเข้าใจศัพท์เฉพาะทางของธุรกิจต่างๆ ได้ดียิ่งขึ้น
Open-weights: โมเดล Voxtral Realtime ที่เป็น Open-weights เปิดโอกาสให้นักพัฒนาสามารถปรับใช้และปรับแต่งโมเดลได้ตามความต้องการ โดยเฉพาะในแอปพลิเคชันที่ต้องการความเป็นส่วนตัวสูง

ใช้ที่ไหน / เริ่มต้นยังไง

อยากลองใช้ดูไหม? ง่ายนิดเดียวครับ:

ลองเล่นใน Audio Playground: คุณสามารถทดสอบ Voxtral Transcribe 2 ได้ทันทีใน Mistral Studio อัปโหลดไฟล์เสียงได้สูงสุด 10 ไฟล์ ลองเปิด/ปิดการแยกเสียงผู้พูด เพิ่มคำสำหรับ Context biasing ได้เลย รองรับไฟล์ .mp3, .wav, .m4a, .flac, .ogg ขนาดสูงสุด 1GB ต่อไฟล์
สำหรับนักพัฒนา:
- Voxtral Mini Transcribe V2 ใช้งานได้แล้วผ่าน API ในราคา $0.003 ต่อนาที
- Voxtral Realtime ใช้งานได้ผ่าน API ในราคา $0.006 ต่อนาที และสามารถดาวน์โหลด Open-weights ได้จาก Hugging Face Hub ครับ

โมเดลเหล่านี้สามารถนำไปใช้กับงานหลากหลายประเภท เช่น:

สรุปการประชุมอัจฉริยะ: ถอดเสียงการประชุมหลายภาษาพร้อมระบุว่าใครพูดอะไรเมื่อไหร่
ตัวช่วยเสียงและผู้ช่วยเสมือน: สร้าง AI ตัวช่วยที่ตอบโต้ได้อย่างรวดเร็วและเป็นธรรมชาติ
ระบบอัตโนมัติใน Call Center: ถอดเสียงการโทรแบบเรียลไทม์เพื่อวิเคราะห์อารมณ์ลูกค้า หรือแนะนำการตอบกลับ
สื่อและการแพร่ภาพ: สร้างคำบรรยายแบบเรียลไทม์สำหรับรายการสด

อ่านต่อ: ลองใช้ Voxtral Transcribe 2 ใน Mistral Studio เพื่อปลดล็อกศักยภาพของการแปลงเสียงเป็นข้อความแบบใหม่!

Mistral AI เปิดตัวโมเดลแปลงเสียงเป็นข้อความ Voxtral Transcribe 2

โมเดลนี้เอาไว้ทำอะไร

ทำไมถึงสำคัญ

ใช้ที่ไหน / เริ่มต้นยังไง

อ่านต่อ

Anthropic อัปเกรด Claude Opus เป็น 4.8 เพิ่มประสิทธิภาพ Benchmark และการทำงานร่วมกัน

อยากให้แจ้งเตือน ตอน Newsletter เปิดตัวมั้ย?