NVIDIA Nemotron 3 Nano Omni: เอเจนต์ AI อัจฉริยะหลายรูปแบบ ประสิทธิภาพสูงขึ้น 9 เท่า

TL;DR

NVIDIA เปิดตัว Nemotron 3 Nano Omni โมเดล AI แบบโอเพนซอร์สที่รวมความสามารถด้านภาพ เสียง และภาษาไว้ในระบบเดียว
โมเดลนี้ให้ ประสิทธิภาพสูงขึ้น 9 เท่า เมื่อเทียบกับโมเดล omni-modal แบบโอเพนซอร์สอื่นๆ โดยยังคงความสามารถในการโต้ตอบที่เท่าเดิม
Nemotron 3 Nano Omni ทำงานได้ดีเยี่ยมในหลากหลายงาน เช่น การทำความเข้าใจเอกสาร การวิเคราะห์วิดีโอและเสียง โดยมีค่าใช้จ่ายที่ต่ำลง
โมเดลนี้พร้อมใช้งานแล้วผ่าน Hugging Face, OpenRouter และแพลตฟอร์มพันธมิตรอื่นๆ

ในยุคที่ AI agents ต้องทำงานหลากหลายซับซ้อน การที่ต้องพึ่งพาโมเดลแยกส่วนสำหรับแต่ละความสามารถ ทั้งการมองเห็น การฟัง และการเข้าใจภาษา ทำให้เกิดความล่าช้าในการส่งต่อข้อมูลและสูญเสียบริบท NVIDIA จึงได้เปิดตัว Nemotron 3 Nano Omni ซึ่งเป็นโมเดล AI แบบโอเพนซอร์สที่รวมทุกความสามารถเหล่านี้ไว้ในระบบเดียว ช่วยให้ AI agents สามารถตอบสนองได้อย่างรวดเร็วและชาญฉลาดมากขึ้น ด้วยการประมวลผลข้ามรูปแบบทั้งภาพ เสียง วิดีโอ และข้อความ โมเดลนี้ถือเป็นโมเดลที่ดีที่สุดในกลุ่มเดียวกัน ช่วยให้องค์กรและนักพัฒนาสามารถสร้าง AI agents ที่มีประสิทธิภาพและแม่นยำสูงขึ้น พร้อมความยืดหยุ่นในการนำไปใช้งานอย่างเต็มที่

Nemotron 3 Nano Omni ได้สร้างมาตรฐานใหม่ด้านประสิทธิภาพสำหรับโมเดล omni-modal แบบโอเพนซอร์ส โดยมีความแม่นยำและต้นทุนที่แข่งขันได้ สามารถทำคะแนนสูงสุดใน 6 ลีดเดอร์บอร์ด สำหรับงานที่ซับซ้อน เช่น การทำความเข้าใจเอกสาร การวิเคราะห์วิดีโอ และการทำความเข้าใจเสียง สถาปัตยกรรมของโมเดลเป็นแบบ 30B-A3B hybrid Mixture-of-Experts (MoE) ที่มีการประมวลผลแบบ Conv3D, EVS และมี Context window กว้างถึง 256K ทำให้สามารถประมวลผลข้อมูลหลากหลายรูปแบบ รวมถึงข้อความ รูปภาพ เสียง วิดีโอ เอกสาร กราฟ และอินเทอร์เฟซแบบกราฟิก โดยจะแสดงผลลัพธ์เป็นข้อความ โมเดลนี้พร้อมให้ใช้งานแล้วตั้งแต่วันที่ 28 เมษายน 2026 ผ่านช่องทางต่างๆ เช่น Hugging Face, OpenRouter และ build.nvidia.com รวมถึงแพลตฟอร์มพันธมิตรมากกว่า 25 แห่ง

องค์กรชั้นนำหลายแห่งเริ่มนำ Nemotron 3 Nano Omni ไปใช้งานแล้ว เช่น Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir และ Pyler โดยมีบริษัทอย่าง Dell Technologies, Docusign, Infosys, K-Dense, Lila, Oracle และ Zefr กำลังอยู่ระหว่างการประเมิน H Company ยกตัวอย่างการใช้งานเอเจนต์ที่สามารถตีความบันทึกหน้าจอแบบ Full HD (1920x1080 พิกเซล) ได้อย่างรวดเร็ว ซึ่งเป็นการพัฒนาครั้งสำคัญในการนำทางและโต้ตอบกับสภาพแวดล้อมดิจิทัลแบบเรียลไทม์ Applied Scientific Intelligence (ASI) ก็กำลังใช้โมเดลนี้ในการสร้างเอเจนต์สำหรับงานวิจัยทางวิทยาศาสตร์ที่ซับซ้อน ในขณะที่ Eka Care ใช้เพื่อยกระดับการดูแลสุขภาพในระดับใหญ่สำหรับผู้ป่วยในอินเดีย [info.eka.care/services/how-ekacare-is-building-agentic-multimodal-healthcare-for-india-scale-patient-care-with-nvidia-nemotron-3-nano-omni]

การรวมโมเดลประมวลผลภาพและเสียงเข้าไว้ด้วยกันในสถาปัตยกรรม 30B-A3B hybrid mixture-of-experts ของ Nemotron 3 Nano Omni ช่วยลดความจำเป็นในการใช้โมเดลแยกส่วน ส่งผลให้การประมวลผล (inference) มีประสิทธิภาพมากขึ้นในระดับสเกลใหญ่ ด้วยความแม่นยำในการรับรู้ข้อมูลข้ามรูปแบบ (multimodal perception) ที่แข็งแกร่ง ทำให้ระบบ AI สามารถเพิ่มปริมาณงาน (throughput) ได้ถึง 9 เท่า เมื่อเทียบกับโมเดล omni-modal แบบโอเพนซอร์สอื่น ๆ ที่มีความสามารถในการโต้ตอบเท่ากัน ส่งผลให้ต้นทุนลดลงและสามารถขยายระบบได้ดีขึ้น โดยไม่ส่งผลกระทบต่อความรวดเร็วในการตอบสนองหรือคุณภาพของผลลัพธ์ Nemotron 3 Nano Omni สามารถทำงานร่วมกับโมเดล Nemotron 3 อื่นๆ เช่น Nemotron 3 Super สำหรับงานที่ต้องการความเร็วสูง หรือ Nemotron 3 Ultra สำหรับการวางแผนที่ซับซ้อน รวมถึงโมเดลที่เป็นกรรมสิทธิ์จากผู้ให้บริการรายอื่น เพื่อขับเคลื่อนการทำงานย่อยๆ ของเอเจนต์ในหลากหลายรูปแบบ

Nemotron 3 Nano Omni ถูกปล่อยออกมาพร้อมกับน้ำหนักโมเดล (weights), ชุดข้อมูล (datasets) และเทคนิคการฝึก (training techniques) แบบเปิด ทำให้องค์กรต่างๆ มีความโปร่งใสและสามารถควบคุมวิธีการปรับแต่งและนำโมเดลไปใช้งานได้อย่างเต็มที่ นักพัฒนาสามารถใช้เครื่องมืออย่าง NVIDIA NeMo เพื่อปรับแต่ง ประเมินผล และเพิ่มประสิทธิภาพสำหรับกรณีการใช้งานเฉพาะทางได้ เนื่องจากโมเดลตระกูล Nemotron เป็นแบบโอเพนซอร์ส องค์กรจึงสามารถติดตั้งโมเดลในสภาพแวดล้อมที่ตรงตามข้อกำหนดด้านกฎระเบียบ การคุ้มครองข้อมูล หรือการเก็บข้อมูลภายในประเทศได้ ตระกูลโมเดล Nemotron 3 ซึ่งรวมถึง Nano, Super และ Ultra มียอดดาวน์โหลดมากกว่า 50 ล้านครั้งในปีที่ผ่านมา โดย Omni ได้เพิ่มความสามารถของตระกูลนี้เข้าไปสู่โดเมนหลายรูปแบบและเอเจนต์ Nemotron 3 Nano Omni สามารถใช้งานได้ตั้งแต่ระบบภายในเครื่อง เช่น ฮาร์ดแวร์ NVIDIA Jetson, NVIDIA DGX Spark และ DGX Station ไปจนถึงสภาพแวดล้อมดาต้าเซ็นเตอร์และคลาวด์

สรุป

NVIDIA Nemotron 3 Nano Omni เป็นโมเดล AI แบบโอเพนซอร์สที่ล้ำสมัย ผสานความสามารถด้านภาพ เสียง และภาษาเข้าไว้ด้วยกัน
มอบ ประสิทธิภาพสูงขึ้น 9 เท่า และ ต้นทุนต่ำลง ทำให้ AI agents มีความสามารถและความคุ้มค่าในการใช้งานที่สูงขึ้น
เหมาะสำหรับองค์กรและนักพัฒนาที่ต้องการสร้าง AI agents ที่มีความแม่นยำในการประมวลผลเอกสาร วิดีโอ เสียง และการโต้ตอบกับอินเทอร์เฟซต่างๆ
สามารถดาวน์โหลดและใช้งานได้แล้วผ่าน Hugging Face และแพลตฟอร์มพันธมิตร (NVIDIA Developer Blog)

แหล่งที่มา: NVIDIA Launches Nemotron 3 Nano Omni Model, Unifying Vision, Audio and Language for up to 9x More Efficient AI Agents

NVIDIA Nemotron 3 Nano Omni: เอเจนต์ AI อัจฉริยะหลายรูปแบบ ประสิทธิภาพสูงขึ้น 9 เท่า

TL;DR

สรุป

อ่านต่อ

Anthropic อัปเกรด Claude Opus เป็น 4.8 เพิ่มประสิทธิภาพ Benchmark และการทำงานร่วมกัน

อยากให้แจ้งเตือน ตอน Newsletter เปิดตัวมั้ย?