面壁智能 MiniCPM-o 4.5:9B 参数,消费级显卡跑全双工全模态

面壁智能发布 MiniCPM-o 4.5,基于 Omni-Flow 框架实现端到端全双工全模态,9B 参数最低 12GB 显存即可本机运行,HuggingFace 下载量超 25 万次。

MiniCPM 有个绰号叫「小钢炮」——参数不多,但打得出去。这次,面壁智能把这个形容压进了一个全新方向:全双工。
4 月 28 日,面壁智能发布 MiniCPM-o 4.5 技术报告,核心是一套叫 Omni-Flow 的流式全模态框架1。官方将其定位为「业界首个端到端全双工全模态大模型」,可以同时接收并输出视频流、音频流和文本,交互不再是「你说我答」,而是随时可以打断、接续,像真实对话那样。

核心功能

MiniCPM-o 4.5 最值得注意的地方有两个:全双工端到端
全双工,指的是模型可以在「说话」的同时持续「听」和「看」,而不是说完才能接收新输入——传统语音模型的交互方式是半双工的,类似对讲机,一方说完另一方再说;MiniCPM-o 4.5 要做到的是电话通话式的同步感知与输出1
端到端,意味着整个感知-理解-输出的链路不经过拼接或切分,由同一个模型一气处理,减少了中间步骤带来的延迟和信息损耗1
两个特性叠加,AI 交互从「问答循环」变成了「持续感知」。
正在加载统计卡片…

发布背景

面壁智能是清华大学知识工程研究室(KEG)孵化的团队,长期聚焦于「以更小的参数做更多的事」。MiniCPM 系列从 2B、4B 走到现在的 9B,方向始终是把模型压进消费级硬件,而非追求参数规模1
MiniCPM-o 4.5 在 2026 年 2 月首发后持续迭代,此次技术报告是对 Omni-Flow 框架的系统性公开。按量子位报道,自发布以来,该模型在 HuggingFace 的下载量已突破 25 万次1
从行业背景看,全双工多模态是当前大模型交互形态的主要发展方向之一。GPT-4o 的「实时语音」模式掀起关注,但大多数实现仍依赖模块拼接,端到端全双工的难度更高。MiniCPM-o 4.5 选在消费级 GPU(RTX 5070,12GB 显存)上跑通,将技术门槛压到了个人开发者可触及的范围1
MiniCPM-o 4.5 框架示意图
MiniCPM-o 4.5 框架示意图

关键洞察

「最低 12GB 显存 RTX 5070 即可流畅运行全双工模式」
这句话的信息量不在于型号,而在于定价区间——RTX 5070 是 2025 年底上市的中端显卡,比旗舰系列便宜一大截。面壁智能的言下之意是:全双工全模态不再是「云端专属能力」,个人开发者和研究者可以在本机复现1
另一个值得注意的信号是「业界首个端到端全双工全模态」这一定语本身。首个,意味着这条路刚刚被蹚出来,验证可行性的工作才是这次技术报告的真正贡献——规模和性能的提升是后续的事。

结语

MiniCPM-o 4.5 的故事很「面壁」:不追参数大,只追能落地。全双工全模态这个目标很大,但它选择用消费级硬件上的 9B 模型先把路走通。对于关注端侧 AI 与多模态交互的开发者,这份技术报告值得仔细看一遍。
项目主页及模型权重可在 HuggingFace MiniCPM-o 获取(如有更新以官方最新地址为准)。

围绕这条内容继续补充观点或上下文。

  • 登录后可发表评论。