Mistral AIModel

Mistral AI เปิดตัวโมเดลแปลงเสียงเป็นข้อความ Voxtral Transcribe 2

เขียนโดย

ร่างเนื้อหาด้วย AI ตรวจทานและแก้ไขโดยคน

อ่าน ~7 นาที

Mistral AI เปิดตัวโมเดลแปลงเสียงเป็นข้อความ Voxtral Transcribe 2

Mistral AI เพิ่งจะสร้างความฮือฮาอีกครั้งด้วยการเปิดตัว Voxtral Transcribe 2 ครับเพื่อนๆ! นี่คือชุดโมเดลแปลงเสียงเป็นข้อความ (Speech-to-Text) เจเนอเรชันใหม่ล่าสุด ที่มาพร้อมคุณภาพการถอดเสียงระดับเทพ ทั้งยังมีความสามารถในการแยกเสียงผู้พูด (speaker diarization) และการถอดเสียงแบบเรียลไทม์ด้วยความหน่วงต่ำสุดๆ บอกเลยว่าน่าสนใจมากๆ เลยนะสำหรับคนที่ทำงานกับเสียง! อยากรู้รายละเอียดเพิ่มเติม ลองดูข่าวประกาศฉบับเต็มได้ที่ Mistral AI News

Voxtral Transcribe 2 นี้มาพร้อมกัน 2 โมเดลหลักๆ คือ Voxtral Mini Transcribe V2 สำหรับการประมวลผลเสียงแบบเป็นชุด (batch processing) และ Voxtral Realtime ที่ออกแบบมาเพื่อการใช้งานแบบสดๆ เช่น ตัวช่วยเสียงหรือระบบสนทนา และที่พิเศษสุดๆ คือ Voxtral Realtime ยังเป็นโมเดลแบบ Open-weights ภายใต้ลิขสิทธิ์ Apache 2.0 อีกด้วย!

นอกจากนี้ Mistral AI ยังเปิดตัว Audio Playground ใหม่ใน Mistral Studio ที่ให้เราลองทดสอบ Voxtral Transcribe 2 ได้ทันที พร้อมความสามารถในการแยกเสียงผู้พูดและประทับเวลา (timestamps) ด้วยนะ ลองเล่นได้ที่ Mistral Studio

โมเดลนี้เอาไว้ทำอะไร

มาดูกันว่าแต่ละโมเดลทำอะไรได้บ้าง:

Voxtral Mini Transcribe V2: โมเดลนี้เหมาะสำหรับงานที่ต้องการความแม่นยำสูงในการถอดเสียงแบบเป็นชุด ไม่ว่าจะเป็นการประชุม สัมภาษณ์ หรือไฟล์เสียงยาวๆ จุดเด่นของ Voxtral Mini Transcribe V2 คือ:

  • ถอดเสียงได้ระดับสุดยอด พร้อมความสามารถในการ แยกเสียงผู้พูด ทำให้รู้ว่าใครพูดอะไรตอนไหน
  • มี Context biasing หรือการให้บริบทล่วงหน้าได้สูงสุด 100 คำ/วลี เพื่อช่วยให้โมเดลสะกดชื่อเฉพาะ ศัพท์เทคนิค หรือคำเฉพาะทางได้ถูกต้อง
  • ประทับเวลาแบบคำต่อคำ (word-level timestamps) ช่วยให้ค้นหาในเสียง หรือสร้างซับไตเติ้ลได้ง่ายขึ้น
  • รองรับถึง 13 ภาษา ได้แก่ อังกฤษ จีน ฮินดี สเปน อาหรับ ฝรั่งเศส โปรตุเกส รัสเซีย เยอรมัน ญี่ปุ่น เกาหลี อิตาลี และดัตช์
  • มีความแม่นยำสูงมาก ด้วยอัตราความผิดพลาดของคำ (Word Error Rate - WER) เพียงประมาณ 4% บนชุดข้อมูล FLEURS ซึ่งดีกว่าคู่แข่งอย่าง GPT-4o mini Transcribe และ Gemini 2.5 Flash ซะอีก!
  • ประมวลผลเสียงได้ เร็วกว่า ElevenLabs’ Scribe v2 ประมาณ 3 เท่าในคุณภาพที่เทียบเท่ากัน
  • ราคาเป็นมิตรสุดๆ เพียง $0.003 ต่อนาทีเท่านั้นเอง! ดูรายละเอียดเพิ่มเติมเกี่ยวกับ Voxtral Mini Transcribe V2 ได้ที่ เอกสาร Voxtral Mini Transcribe V2

Voxtral Realtime: สำหรับงานที่ต้องการความเร็วแบบเรียลไทม์ โมเดลนี้ตอบโจทย์สุดๆ ครับ! Voxtral Realtime ถูกสร้างมาเพื่อการถอดเสียงแบบสดๆ โดยเฉพาะ ด้วยสถาปัตยกรรมแบบสตรีมมิ่งใหม่ ทำให้สามารถถอดเสียงได้ทันทีที่ได้รับเสียงเข้ามา ลดความหน่วง (latency) ได้ต่ำกว่า 200 มิลลิวินาที ทำให้เหมาะสำหรับ:

  • ตัวช่วยเสียง หรือแอปพลิเคชันที่ต้องตอบโต้แบบทันที
  • รองรับ 13 ภาษาเดียวกับ Voxtral Mini Transcribe V2
  • มีขนาดพารามิเตอร์เพียง 4B ทำให้สามารถนำไปปรับใช้บนอุปกรณ์ Edge ได้อย่างมีประสิทธิภาพ ช่วยเรื่องความเป็นส่วนตัวและความปลอดภัย
  • ที่สำคัญคือ เป็นโมเดลแบบ Open-weights (Apache 2.0 license) ใครอยากเอาไปปรับใช้ก็สามารถดาวน์โหลด weights ได้ที่ Hugging Face Hub เลย อ่านเอกสารเพิ่มเติมเกี่ยวกับ Voxtral Realtime ได้ที่ เอกสาร Voxtral Realtime

ทำไมถึงสำคัญ

Voxtral Transcribe 2 ไม่ได้แค่เร็วและแม่นยำขึ้นเท่านั้นครับ แต่ยังมาพร้อมฟีเจอร์ที่ช่วยให้การทำงานกับเสียงง่ายขึ้นมากๆ:

  • ประสิทธิภาพสูงแต่ราคาย่อมเยา: ให้ความแม่นยำระดับแนวหน้าในราคาที่ถูกกว่าคู่แข่งมาก ทำให้คุ้มค่าสุดๆ สำหรับการประมวลผลข้อมูลเสียงจำนวนมาก
  • ถอดเสียงแบบเรียลไทม์ได้จริง: ด้วยความหน่วงที่ต่ำมาก ทำให้สร้างประสบการณ์การใช้งานที่ไม่สะดุด เช่น การสร้าง AI Agent ที่ตอบโต้ได้อย่างเป็นธรรมชาติ
  • แยกเสียงผู้พูดและประทับเวลา: ช่วยให้การวิเคราะห์บทสนทนาหลายฝ่ายทำได้ง่ายขึ้นมาก ทั้งการถอดเทปประชุม หรือการวิเคราะห์การโทรศัพท์
  • ปรับแต่งได้ตามใจ: ฟีเจอร์ Context biasing ช่วยให้โมเดลเข้าใจศัพท์เฉพาะทางของธุรกิจต่างๆ ได้ดียิ่งขึ้น
  • Open-weights: โมเดล Voxtral Realtime ที่เป็น Open-weights เปิดโอกาสให้นักพัฒนาสามารถปรับใช้และปรับแต่งโมเดลได้ตามความต้องการ โดยเฉพาะในแอปพลิเคชันที่ต้องการความเป็นส่วนตัวสูง

ใช้ที่ไหน / เริ่มต้นยังไง

อยากลองใช้ดูไหม? ง่ายนิดเดียวครับ:

  • ลองเล่นใน Audio Playground: คุณสามารถทดสอบ Voxtral Transcribe 2 ได้ทันทีใน Mistral Studio อัปโหลดไฟล์เสียงได้สูงสุด 10 ไฟล์ ลองเปิด/ปิดการแยกเสียงผู้พูด เพิ่มคำสำหรับ Context biasing ได้เลย รองรับไฟล์ .mp3, .wav, .m4a, .flac, .ogg ขนาดสูงสุด 1GB ต่อไฟล์
  • สำหรับนักพัฒนา:
    • Voxtral Mini Transcribe V2 ใช้งานได้แล้วผ่าน API ในราคา $0.003 ต่อนาที
    • Voxtral Realtime ใช้งานได้ผ่าน API ในราคา $0.006 ต่อนาที และสามารถดาวน์โหลด Open-weights ได้จาก Hugging Face Hub ครับ

โมเดลเหล่านี้สามารถนำไปใช้กับงานหลากหลายประเภท เช่น:

  • สรุปการประชุมอัจฉริยะ: ถอดเสียงการประชุมหลายภาษาพร้อมระบุว่าใครพูดอะไรเมื่อไหร่
  • ตัวช่วยเสียงและผู้ช่วยเสมือน: สร้าง AI ตัวช่วยที่ตอบโต้ได้อย่างรวดเร็วและเป็นธรรมชาติ
  • ระบบอัตโนมัติใน Call Center: ถอดเสียงการโทรแบบเรียลไทม์เพื่อวิเคราะห์อารมณ์ลูกค้า หรือแนะนำการตอบกลับ
  • สื่อและการแพร่ภาพ: สร้างคำบรรยายแบบเรียลไทม์สำหรับรายการสด

อ่านต่อ: ลองใช้ Voxtral Transcribe 2 ใน Mistral Studio เพื่อปลดล็อกศักยภาพของการแปลงเสียงเป็นข้อความแบบใหม่!

Anthropic อัปเกรด Claude Opus เป็น 4.8 เพิ่มประสิทธิภาพ Benchmark และการทำงานร่วมกัน

Anthropic อัปเกรด Claude Opus เป็น 4.8 เพิ่มประสิทธิภาพ Benchmark และการทำงานร่วมกัน

Anthropic เปิดตัว Claude Opus 4.8 เวอร์ชันใหม่ที่ปรับปรุงประสิทธิภาพ Benchmark, ความน่าเชื่อถือของงาน Agentic และความเร็วในการประมวลผล โดยมีราคาเท่าเดิม

อ่านข่าวนี้

อยากให้แจ้งเตือน ตอน Newsletter เปิดตัวมั้ย?

เรากำลังวัดความสนใจก่อนเปิด weekly AI digest จริงๆ ใส่ email ไว้ เราจะ email ไปบอกตอนเปิดตัว — ส่งครั้งเดียว ไม่มี spam

เราใช้ email เฉพาะเพื่อแจ้งเปิดตัว newsletter เท่านั้น ไม่มี spam — อ่าน นโยบายความเป็นส่วนตัว