Hugging FaceModel

Cohere-transcribe: โมเดลรู้จำเสียง 14 ภาษา ล่าสุด ติดอันดับสูงสุด

เขียนโดย

ร่างเนื้อหาด้วย AI ตรวจทานและแก้ไขโดยคน

อ่าน ~4 นาที

Cohere-transcribe: โมเดลรู้จำเสียง 14 ภาษา ล่าสุด ติดอันดับสูงสุด

TL;DR

  • Cohere เปิดตัว cohere-transcribe-03-2026 โมเดลรู้จำเสียง (ASR) ขนาด 2 พันล้านพารามิเตอร์
  • รองรับ 14 ภาษา โดยมี ความแม่นยำสูง ติดอันดับ #1 บน Hugging Face Open ASR Leaderboard สำหรับภาษาอังกฤษ
  • ออกแบบมาเพื่อ ประสิทธิภาพในการใช้งานจริง ด้วยความเร็วประมวลผลสูงกว่าคู่แข่ง 3 เท่า
  • เปิดให้ใช้งานแบบ Open Source ภายใต้ลิขสิทธิ์ Apache 2.0

Cohere ได้ประกาศเปิดตัวโมเดลรู้จำเสียงรุ่นใหม่ล่าสุดนามว่า cohere-transcribe-03-2026 ซึ่งเป็นโมเดลขนาด 2 พันล้านพารามิเตอร์ที่ถูกฝึกฝนมาเพื่อการรู้จำเสียงพูดโดยเฉพาะ โมเดลนี้เปิดให้ใช้งานแบบ Open Source บน Hugging Face ภายใต้ลิขสิทธิ์ Apache 2.0 การเปิดตัวครั้งนี้ถือเป็นโมเดลด้านเสียงตัวแรกจาก Cohere และเป็นก้าวสำคัญในการพัฒนาเทคโนโลยี ASR ให้เข้าถึงได้ง่ายและมีประสิทธิภาพสูงยิ่งขึ้น

สิ่งที่ทำให้ cohere-transcribe-03-2026 โดดเด่นคือความสามารถในการรองรับได้ถึง 14 ภาษา โดยเฉพาะอย่างยิ่งในภาษาอังกฤษ โมเดลนี้สามารถทำคะแนนได้ เป็นอันดับ 1 บน Hugging Face Open ASR Leaderboard ซึ่งเป็นการวัดผลที่เหนือกว่าทั้งโมเดลที่เป็นกรรมสิทธิ์ของบริษัทอื่นและโมเดล Open Source ที่มีอยู่ในปัจจุบัน สำหรับอีก 13 ภาษาที่รองรับ โมเดลนี้ก็แสดงให้เห็นถึงประสิทธิภาพที่ทัดเทียมหรือดีกว่าโมเดล Open Source อื่นๆ ที่มีอยู่

นอกจากความแม่นยำที่น่าประทับใจแล้ว cohere-transcribe-03-2026 ยังถูกออกแบบมาเพื่อ ประสิทธิภาพในการใช้งานจริง (production inference) โดยเฉพาะ การทำงานร่วมกับ vLLM ทำให้โมเดลสามารถให้บริการได้อย่างรวดเร็วและมี throughput สูงกว่าคู่แข่งที่มีขนาดใกล้เคียงกันถึง 3 เท่า ซึ่งหมายความว่าสามารถประมวลผลไฟล์เสียงได้เร็วกว่าเวลาจริงอย่างมีนัยสำคัญ ทำให้เหมาะสำหรับการนำไปใช้งานในแอปพลิเคชันที่ต้องการความเร็วและการตอบสนองที่ทันท่วงที

สถาปัตยกรรมของ cohere-transcribe-03-2026 เป็นแบบ Encoder-Decoder X-attention transformer โดยใช้ Fast-Conformer encoder ซึ่งเป็นสถาปัตยกรรมที่ออกแบบมาเพื่อประสิทธิภาพในการประมวลผลเสียงโดยเฉพาะ จุดเด่นคือการทุ่มเทพารามิเตอร์กว่า 90% ให้กับส่วน Encoder และมี Decoder ที่มีขนาดเล็ก ซึ่งช่วยลดภาระการคำนวณในส่วนของการประมวลผลแบบ Autoregressive ทำให้ได้โมเดลที่มีประสิทธิภาพสูงในการอนุมาน (inference)

การฝึกฝนโมเดลนี้ใช้ข้อมูลจำนวนมหาศาลถึง 0.5 ล้านชั่วโมงของคู่คำถอดเสียงและไฟล์เสียงที่ผ่านการคัดกรองมาอย่างดี นอกจากนี้ยังมีการใช้ข้อมูลสังเคราะห์ (synthetic data) เพื่อเพิ่มประสิทธิภาพและแก้ไขข้อผิดพลาดที่ตรวจพบจากการวิเคราะห์ โดยมีการใช้เทคนิคการทำความสะอาดข้อมูล (cleaning pipeline) และการตรวจสอบการปนเปื้อนของข้อมูล (audio decontamination checks) เพื่อให้มั่นใจว่าข้อมูลที่ใช้ฝึกฝนมีความถูกต้องและไม่มีการเหลื่อมล้ำระหว่างชุดข้อมูลฝึกและชุดข้อมูลทดสอบ

สรุป

  • Cohere ได้เปิดตัว cohere-transcribe-03-2026 โมเดลรู้จำเสียง Open Source ที่มีประสิทธิภาพสูง
  • โมเดลนี้มีความโดดเด่นทั้งในด้าน ความแม่นยำ (อันดับ 1 ภาษาอังกฤษบน Hugging Face Leaderboard) และ ความเร็วในการประมวลผล
  • รองรับ 14 ภาษา และออกแบบมาเพื่อ การใช้งานในระดับ Production โดยเฉพาะ
  • ผู้ที่สนใจสามารถเข้าถึงและทดลองใช้งานโมเดลนี้ได้บน Hugging Face

แหล่งที่มา: Introducing Cohere-transcribe: state-of-the-art speech recognition

Anthropic อัปเกรด Claude Opus เป็น 4.8 เพิ่มประสิทธิภาพ Benchmark และการทำงานร่วมกัน

Anthropic อัปเกรด Claude Opus เป็น 4.8 เพิ่มประสิทธิภาพ Benchmark และการทำงานร่วมกัน

Anthropic เปิดตัว Claude Opus 4.8 เวอร์ชันใหม่ที่ปรับปรุงประสิทธิภาพ Benchmark, ความน่าเชื่อถือของงาน Agentic และความเร็วในการประมวลผล โดยมีราคาเท่าเดิม

อ่านข่าวนี้

อยากให้แจ้งเตือน ตอน Newsletter เปิดตัวมั้ย?

เรากำลังวัดความสนใจก่อนเปิด weekly AI digest จริงๆ ใส่ email ไว้ เราจะ email ไปบอกตอนเปิดตัว — ส่งครั้งเดียว ไม่มี spam

เราใช้ email เฉพาะเพื่อแจ้งเปิดตัว newsletter เท่านั้น ไม่มี spam — อ่าน นโยบายความเป็นส่วนตัว