面壁智能 MiniCPM-o 4.5：9B 参数，消费级显卡跑全双工全模态

MiniCPM 有个绰号叫「小钢炮」——参数不多，但打得出去。这次，面壁智能把这个形容压进了一个全新方向：全双工。

4 月 28 日，面壁智能发布 MiniCPM-o 4.5 技术报告，核心是一套叫 Omni-Flow 的流式全模态框架1。官方将其定位为「业界首个端到端全双工全模态大模型」，可以同时接收并输出视频流、音频流和文本，交互不再是「你说我答」，而是随时可以打断、接续，像真实对话那样。

核心功能

MiniCPM-o 4.5 最值得注意的地方有两个：全双工 和 端到端。

全双工，指的是模型可以在「说话」的同时持续「听」和「看」，而不是说完才能接收新输入——传统语音模型的交互方式是半双工的，类似对讲机，一方说完另一方再说；MiniCPM-o 4.5 要做到的是电话通话式的同步感知与输出1。

端到端，意味着整个感知-理解-输出的链路不经过拼接或切分，由同一个模型一气处理，减少了中间步骤带来的延迟和信息损耗1。

两个特性叠加，AI 交互从「问答循环」变成了「持续感知」。

MiniCPM-o 4.5 关键指标

参数量

最低显存需求

12GB (RTX 5070)

HuggingFace 累计下载

25万+

正在加载统计卡片…

面壁智能是清华大学知识工程研究室（KEG）孵化的团队，长期聚焦于「以更小的参数做更多的事」。MiniCPM 系列从 2B、4B 走到现在的 9B，方向始终是把模型压进消费级硬件，而非追求参数规模1。

MiniCPM-o 4.5 在 2026 年 2 月首发后持续迭代，此次技术报告是对 Omni-Flow 框架的系统性公开。按量子位报道，自发布以来，该模型在 HuggingFace 的下载量已突破 25 万次1。

从行业背景看，全双工多模态是当前大模型交互形态的主要发展方向之一。GPT-4o 的「实时语音」模式掀起关注，但大多数实现仍依赖模块拼接，端到端全双工的难度更高。MiniCPM-o 4.5 选在消费级 GPU（RTX 5070，12GB 显存）上跑通，将技术门槛压到了个人开发者可触及的范围1。

图片来自：量子位·面壁智能 MiniCPM-o 4.5 报道

「最低 12GB 显存 RTX 5070 即可流畅运行全双工模式」

这句话的信息量不在于型号，而在于定价区间——RTX 5070 是 2025 年底上市的中端显卡，比旗舰系列便宜一大截。面壁智能的言下之意是：全双工全模态不再是「云端专属能力」，个人开发者和研究者可以在本机复现1。

另一个值得注意的信号是「业界首个端到端全双工全模态」这一定语本身。首个，意味着这条路刚刚被蹚出来，验证可行性的工作才是这次技术报告的真正贡献——规模和性能的提升是后续的事。

MiniCPM-o 4.5 的故事很「面壁」：不追参数大，只追能落地。全双工全模态这个目标很大，但它选择用消费级硬件上的 9B 模型先把路走通。对于关注端侧 AI 与多模态交互的开发者，这份技术报告值得仔细看一遍。

项目主页及模型权重可在 HuggingFace MiniCPM-o 获取（如有更新以官方最新地址为准）。

封面图：图片来自量子位·面壁智能 MiniCPM-o 4.5 技术报告