大家好,我是 ng.cc,今天来聊聊刚刚发布的重磅开源模型——NVIDIA Nemotron 3 Super2026 年 3 月 11 日,NVIDIA 正式推出 Nemotron 3 Super(全称 NVIDIA-Nemotron-3-Super-120B-A12B),这是一款专为 Agentic AI(代理式 AI) 打造的开放权重模型。它总参数 120B,但激活参数仅 12B,采用革命性的 Hybrid Mamba-Transformer + Latent MoE + Multi-Token Prediction (MTP) 混合架构,搭配原生 1M token 上下文窗口,一举解决多代理系统中两大痛点:“思考税”(thinking tax)“上下文爆炸”(context explosion)为什么说它“超级”?传统大模型在处理复杂多步任务(如软件开发代理、代码库全量分析、网络安全 triage)时,经常陷入两个死循环:* 每一步都调用大模型 → 思考成本暴增(thinking tax)

  • 对话历史 + 工具输出 + 文档累积 → token 数爆炸式增长

Nemotron 3 Super 直接用架构创新解决:* Hybrid 骨干:Mamba-2 层负责线性时间序列处理(内存/算力效率提升 4 倍),Transformer Attention 层负责精确关联回忆,MoE 层负责参数扩展。

  • Latent MoE:全新低秩隐空间路由技术!相同成本下可激活 4 倍专家,让模型在 Python 逻辑 vs SQL 逻辑上实现更细粒度专业化。
  • Multi-Token Prediction (MTP):一次前向传播预测多个未来 token,不仅提升 Chain-of-Thought 推理质量,还原生支持 speculative decoding,推理速度最高提升 3 倍。
  • 原生 NVFP4 预训练:在 NVIDIA Blackwell 平台上直接用 4-bit 浮点训练,推理速度比 Hopper 上的 FP8 快 4 倍,精度零损失。

实测结果惊人:* 吞吐量比上一代 Nemotron Super 高 5 倍,精度提升 2 倍

  • 在 AIME 2025、Terminal Bench、SWE-Bench Verified 等基准上同尺寸领先
  • PinchBench 得分 85.6%,成为开源 Agent 性能最强模型
  • 支持 1M token 原生上下文,让代理能记住整个代码库或上千页报告而不会“失忆”

实际应用场景有多强?1. 软件开发代理:一次性加载整个代码仓库,端到端生成 + 调试代码(CodeRabbit、Factory、Greptile 已经在用)

  1. 网络安全 triage:处理海量日志 + 历史攻击记录,自主决策
  2. 企业工作流自动化:IT 工单、文献调研、金融报告分析(Perplexity、Palantir、Siemens 等已集成)
  3. 多代理协作:Super 负责复杂规划,搭配 Nemotron 3 Nano 处理轻量步骤,形成高效分工

更酷的是,它支持 reasoning trace 可配置:开启 enable_thinking=True 就会先输出思考过程再给最终答案,完美适配 Agent 场景!**完全开放!开发者福音* 权重 & 数据集**:Hugging Face 直接下载(BF16 / FP8 / NVFP4 多种量化版)

  • https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16
  • NVIDIA NIM:一键部署微服务
  • 支持平台:Perplexity、OpenRouter、Cloudflare Workers AI、Google Cloud Vertex AI、Together AI、Fireworks、DeepInfra 等数十家
  • 训练工具全开源:NeMo Gym、NeMo RL、NeMo Curator 全套食谱 + 25 万亿 token 预训练数据集 + 4000 万样本后训练数据

最低硬件需求:单机 64GB 统一内存即可本地运行(Unsloth 已支持 GGUF 量化),商用许可超级友好(NVIDIA Nemotron Open Model License)。

链接:* Hugging Face 主页:https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B