Cohere-transcribe: โมเดลรู้จำเสียง 14 ภาษา ล่าสุด ติดอันดับสูงสุด

TL;DR

Cohere เปิดตัว cohere-transcribe-03-2026 โมเดลรู้จำเสียง (ASR) ขนาด 2 พันล้านพารามิเตอร์
รองรับ 14 ภาษา โดยมี ความแม่นยำสูง ติดอันดับ #1 บน Hugging Face Open ASR Leaderboard สำหรับภาษาอังกฤษ
ออกแบบมาเพื่อ ประสิทธิภาพในการใช้งานจริง ด้วยความเร็วประมวลผลสูงกว่าคู่แข่ง 3 เท่า
เปิดให้ใช้งานแบบ Open Source ภายใต้ลิขสิทธิ์ Apache 2.0

Cohere ได้ประกาศเปิดตัวโมเดลรู้จำเสียงรุ่นใหม่ล่าสุดนามว่า cohere-transcribe-03-2026 ซึ่งเป็นโมเดลขนาด 2 พันล้านพารามิเตอร์ที่ถูกฝึกฝนมาเพื่อการรู้จำเสียงพูดโดยเฉพาะ โมเดลนี้เปิดให้ใช้งานแบบ Open Source บน Hugging Face ภายใต้ลิขสิทธิ์ Apache 2.0 การเปิดตัวครั้งนี้ถือเป็นโมเดลด้านเสียงตัวแรกจาก Cohere และเป็นก้าวสำคัญในการพัฒนาเทคโนโลยี ASR ให้เข้าถึงได้ง่ายและมีประสิทธิภาพสูงยิ่งขึ้น

สิ่งที่ทำให้ cohere-transcribe-03-2026 โดดเด่นคือความสามารถในการรองรับได้ถึง 14 ภาษา โดยเฉพาะอย่างยิ่งในภาษาอังกฤษ โมเดลนี้สามารถทำคะแนนได้ เป็นอันดับ 1 บน Hugging Face Open ASR Leaderboard ซึ่งเป็นการวัดผลที่เหนือกว่าทั้งโมเดลที่เป็นกรรมสิทธิ์ของบริษัทอื่นและโมเดล Open Source ที่มีอยู่ในปัจจุบัน สำหรับอีก 13 ภาษาที่รองรับ โมเดลนี้ก็แสดงให้เห็นถึงประสิทธิภาพที่ทัดเทียมหรือดีกว่าโมเดล Open Source อื่นๆ ที่มีอยู่

นอกจากความแม่นยำที่น่าประทับใจแล้ว cohere-transcribe-03-2026 ยังถูกออกแบบมาเพื่อ ประสิทธิภาพในการใช้งานจริง (production inference) โดยเฉพาะ การทำงานร่วมกับ vLLM ทำให้โมเดลสามารถให้บริการได้อย่างรวดเร็วและมี throughput สูงกว่าคู่แข่งที่มีขนาดใกล้เคียงกันถึง 3 เท่า ซึ่งหมายความว่าสามารถประมวลผลไฟล์เสียงได้เร็วกว่าเวลาจริงอย่างมีนัยสำคัญ ทำให้เหมาะสำหรับการนำไปใช้งานในแอปพลิเคชันที่ต้องการความเร็วและการตอบสนองที่ทันท่วงที

สถาปัตยกรรมของ cohere-transcribe-03-2026 เป็นแบบ Encoder-Decoder X-attention transformer โดยใช้ Fast-Conformer encoder ซึ่งเป็นสถาปัตยกรรมที่ออกแบบมาเพื่อประสิทธิภาพในการประมวลผลเสียงโดยเฉพาะ จุดเด่นคือการทุ่มเทพารามิเตอร์กว่า 90% ให้กับส่วน Encoder และมี Decoder ที่มีขนาดเล็ก ซึ่งช่วยลดภาระการคำนวณในส่วนของการประมวลผลแบบ Autoregressive ทำให้ได้โมเดลที่มีประสิทธิภาพสูงในการอนุมาน (inference)

การฝึกฝนโมเดลนี้ใช้ข้อมูลจำนวนมหาศาลถึง 0.5 ล้านชั่วโมงของคู่คำถอดเสียงและไฟล์เสียงที่ผ่านการคัดกรองมาอย่างดี นอกจากนี้ยังมีการใช้ข้อมูลสังเคราะห์ (synthetic data) เพื่อเพิ่มประสิทธิภาพและแก้ไขข้อผิดพลาดที่ตรวจพบจากการวิเคราะห์ โดยมีการใช้เทคนิคการทำความสะอาดข้อมูล (cleaning pipeline) และการตรวจสอบการปนเปื้อนของข้อมูล (audio decontamination checks) เพื่อให้มั่นใจว่าข้อมูลที่ใช้ฝึกฝนมีความถูกต้องและไม่มีการเหลื่อมล้ำระหว่างชุดข้อมูลฝึกและชุดข้อมูลทดสอบ

สรุป

Cohere ได้เปิดตัว cohere-transcribe-03-2026 โมเดลรู้จำเสียง Open Source ที่มีประสิทธิภาพสูง
โมเดลนี้มีความโดดเด่นทั้งในด้าน ความแม่นยำ (อันดับ 1 ภาษาอังกฤษบน Hugging Face Leaderboard) และ ความเร็วในการประมวลผล
รองรับ 14 ภาษา และออกแบบมาเพื่อ การใช้งานในระดับ Production โดยเฉพาะ
ผู้ที่สนใจสามารถเข้าถึงและทดลองใช้งานโมเดลนี้ได้บน Hugging Face

แหล่งที่มา: Introducing Cohere-transcribe: state-of-the-art speech recognition

Cohere-transcribe: โมเดลรู้จำเสียง 14 ภาษา ล่าสุด ติดอันดับสูงสุด

TL;DR

สรุป

อ่านต่อ

NVIDIA Earth-2 Global Data Assimilation เร่งการพยากรณ์สภาพอากาศบน GPU เดียว

อยากให้แจ้งเตือน ตอน Newsletter เปิดตัวมั้ย?