【AI大模型前沿】MiniCPM4.1：面壁智能重磅开源，128K长文本推理秒级响应，端侧性能狂飙7倍

MiniCPM4.1 是一个专为端侧设备量身打造的高效大型语言模型，具有 8B 参数规模。它在保持与同尺寸开源模型相当性能的同时，通过一系列创新技术实现了显著的效率提升。该模型在长文本处理、推理速度和模型压缩等方面均取得了突破性进展，使其成为端侧应用场景中的理想选择。

xiaobing259

864人浏览 · 2025-10-09 08:00:00

xiaobing259 · 2025-10-09 08:00:00 发布

系列篇章💥

No.	文章
1	【AI大模型前沿】深度剖析瑞智病理大模型 RuiPath：如何革新癌症病理诊断技术
2	【AI大模型前沿】清华大学 CLAMP-3：多模态技术引领音乐检索新潮流
3	【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破
4	【AI大模型前沿】阿里 QwQ-32B：320 亿参数推理大模型，性能比肩 DeepSeek-R1，免费开源
5	【AI大模型前沿】TRELLIS：微软、清华、中科大联合推出的高质量3D生成模型
6	【AI大模型前沿】Migician：清华、北大、华科联手打造的多图像定位大模型，一键解决安防监控与自动驾驶难题
7	【AI大模型前沿】DeepSeek-V3-0324：AI 模型的全面升级与技术突破
8	【AI大模型前沿】BioMedGPT-R1：清华联合水木分子打造的多模态生物医药大模型，开启智能研发新纪元
9	【AI大模型前沿】DiffRhythm：西北工业大学打造的10秒铸就完整歌曲的AI歌曲生成模型
10	【AI大模型前沿】R1-Omni：阿里开源全模态情感识别与强化学习的创新结合
11	【AI大模型前沿】Qwen2.5-Omni：阿里巴巴的多模态大模型，实现看、听、说、写一体化
12	【AI大模型前沿】SmolDocling：256M参数的轻量级多模态文档处理利器，10分钟搞定百页PDF
13	【AI大模型前沿】Stable Virtual Camera：Stability AI 推出的2D图像转3D视频模型，一键生成沉浸式视频
14	【AI大模型前沿】阿里 Qwen3 震撼开源，模型新王诞生，开启全球大模型新纪元
15	【AI大模型前沿】InternVL：OpenGVLab开源多模态大模型，解锁视觉问答与多语言翻译的全能应用图鉴
16	【AI大模型前沿】Fin-R1：上海财经大学联合财跃星辰推出的金融推理大模型，凭7B参数拿下评测第二，离行业第一仅差3分
17	【AI大模型前沿】Med-R1：基于强化学习的医疗视觉语言模型，突破跨模态医学推理的普适性
18	【AI大模型前沿】Baichuan-M1-14B：百川智能推出专为医疗优化的开源大语言模型
19	【AI大模型前沿】一键生成宫崎骏动画风，EasyControl Ghibli 让照片秒变吉卜力艺术品
20	【AI大模型前沿】TxGemma：谷歌推出的高效药物研发大模型，临床试验预测准确率超90%
21	【AI大模型前沿】F5R-TTS：腾讯推出TTS领域的新王者，又快又准又自然，零样本语音克隆新高度
22	【AI大模型前沿】MiniMind-V：低成本打造超小多模态视觉语言模型（仅需1.3元人民币和1小时）
23	【AI大模型前沿】MoCha：端到端对话角色视频生成模型、电影级对话角色合成黑科技、重新定义动画创作
24	【AI大模型前沿】HuatuoGPT-o1-7B：中英文双语医学推理，打破语言障碍的AI大模型
25	【AI大模型前沿】MedReason：大规模医学推理数据集、借用知识图谱将大模型打造成“医术”专家
26	【AI大模型前沿】SkyReels-V2：昆仑万维开源的无限时长电影生成模型，开启视频生成新纪元
27	【AI大模型前沿】Dia：Nari Labs开源16亿参数TTS模型，只需文本输入，生成媲美真人对话的语音
28	【AI大模型前沿】阿里巴巴开源LHM：单图生成可动画3D人体模型，开启3D建模新纪元
29	【AI大模型前沿】TinyLLaVA-Video-R1：北航开源视频推理模型、小尺寸大智慧、参数少一半，性能翻一番
30	【AI大模型前沿】TTRL：测试时强化学习，开启无标签数据推理新篇章
31	【AI大模型前沿】Aero-1-Audio：Qwen2.5架构加持，轻量级音频模型天花板、吊打Whisper
32	【AI大模型前沿】DianJin-R1：阿里云通义点金联合苏大推出的金融推理增强大模型
33	【AI大模型前沿】VITA-Audio：腾讯开源的高效语音交互多模态大语言模型
34	【AI大模型前沿】Multiverse：全球首个AI多人游戏世界模型，低成本高效率新突破
35	【AI大模型前沿】Seed1.5-VL：多模态理解的效率革新者，以小博大，性能惊艳
36	【AI大模型前沿】ViLAMP：蚂蚁集团和人民大学联手打造的长视频理解利器，单卡处理3小时视频
37	【AI大模型前沿】Muyan-TTS：开源零样本语音合成模型、0.33秒极速生成播客级语音、小白也能玩转AI配音
38	【AI大模型前沿】Dolphin：字节跳动开源文档解析大模型，轻量级、高效、多格式，开启文档处理新时代
39	【AI大模型前沿】ChatTS：字节跳动联合清华大学开源、多模态时序大模型助力时序数据对话与推理
40	【AI大模型前沿】Index-AniSora：B站开源的动漫视频生成模型，助力高效创作
41	【AI大模型前沿】RelightVid：上海 AI Lab联合复旦等高校推出的视频重照明模型
42	【AI大模型前沿】BAGEL：字节跳动开源、多模态大模型的创新突破与实践指南
43	【AI大模型前沿】Matrix-Game：昆仑万维开源大模型，一键生成你的专属虚拟世界
44	【AI大模型前沿】Pixel Reasoner：滑铁卢联合港科大等高校推出的视觉语言模型，助力视觉推理新突破
45	【AI大模型前沿】CoGenAV：多模态语音表征新范式、通义联合深技大打造、噪声环境WER降低70%+
46	【AI大模型前沿】Ming-Lite-Omni：蚂蚁集团开源的统一多模态大模型的创新实践
47	【AI大模型前沿】DeepEyes：小红书与西安交大联合打造的多模态深度思考模型
48	【AI大模型前沿】OmniAudio：阿里通义实验室的空间音频生成模型，开启沉浸式体验新时代
49	【AI大模型前沿】MiniCPM 4.0：面壁智能开源的极致高效端侧大模型（小版本、低消耗、220倍极致提速）
50	【AI大模型前沿】SmolVLA：Hugging Face开源的轻量级视觉-语言-行动机器人模型
51	【AI大模型前沿】Time-R1：伊利诺伊大学香槟分校开源的时间推理语言模型、实现过去→未来全链路推演
52	【AI大模型前沿】MonkeyOCR：基于结构-识别-关系三元组范式的文档解析模型
53	【AI大模型前沿】GLM-4.5：智谱打造的开源SOTA模型，推理、代码与智能体能力融合先锋
54	【AI大模型前沿】百度飞桨PaddleOCR 3.0开源发布，支持多语言、手写体识别，赋能智能文档处理
55	【AI大模型前沿】Stream-Omni：多模态交互的“黄金三角”——视觉、语音、文本的完美融合
56	【AI大模型前沿】Vui：Fluxions-AI开源的轻量级语音对话模型，开启自然语音交互新时代
57	【AI大模型前沿】腾讯AI Lab开源的SongGeneration：音乐生成大模型的技术探索与实践
58	【AI大模型前沿】Osmosis-Structure-0.6B：小型语言模型在结构化信息提取中的突破
59	【AI大模型前沿】Kwai Keye-VL：颠覆认知！国产多模态大模型突然发布，视频理解能力堪比人类
60	【AI大模型前沿】Nanonets-OCR-s：从学术论文到法律合同，智能识别公式、签名、表格与图像
61	【AI大模型前沿】OmniAvatar：浙大联合阿里打造的音频驱动全身视频生成模型
62	【AI大模型前沿】DAMO GRAPE：阿里达摩院与浙江肿瘤医院联合打造的早期胃癌识别AI模型
63	【AI大模型前沿】阿里开源Lingshu：一个模型搞定12种医学影像诊断
64	【AI大模型前沿】原石科技MetaStone-S1：突破性反思型生成式大模型的技术解析与实践指南
65	【AI大模型前沿】清华实验室开源MOSS-TTSD：口语对话语音生成的突破
66	【AI大模型前沿】昆仑万维开源Skywork-R1V3：38B多模态推理模型，高考数学142分刷新开源SOTA
67	【AI大模型前沿】Voxtral：Mistral AI开源的高性价比语音转录与理解模型
68	【AI大模型前沿】Goedel-Prover-V2：普林斯顿联合清华开源的定理证明模型，AI数学研究新里程碑
69	【AI大模型前沿】Seed-X：字节跳动开源的7B参数多语言翻译模型，挑战超大型模型性能
70	【AI大模型前沿】OpenReasoning-Nemotron：英伟达开源的推理利器，助力数学、科学与代码任务
71	【AI大模型前沿】阿里通义千问 Qwen3-Coder：开启智能代码生成与代理式编程新时代
72	【AI大模型前沿】Qwen3-SmVL：基于阿里通义千问3和SmolVLM拼接打造1 GB显存可跑的中文超小多模态大模型
73	【AI大模型前沿】通义万相Wan2.2：阿里270亿参数巨兽开源，消费级显卡就能跑，免费平替Sora上线
74	【AI大模型前沿】Higgs Audio V2杀疯：Boson AI开源语音大模型（克隆声音、同步BGM、低延迟对话一键搞定）
75	【AI大模型前沿】腾讯混元3D世界生成模型HunyuanWorld-1.0：开启沉浸式3D内容创作新纪元
76	【AI大模型前沿】Intern-S1：上海AI Lab打造的科学多模态大模型，助力科研智能化
77	【AI大模型前沿】腾讯混元Dense模型：从智能座舱到客服机器人，用0.5B参数打穿全场景
78	【AI大模型前沿】Qwen-Image：免费开源、写段文案→直接出图→还能继续精修，全程不用PS
79	【AI大模型前沿】小米开源MiDashengLM：语音、音乐、环境声一网打尽、智能座舱直接起飞
80	【AI大模型前沿】InternVL3.5：上海 AI Lab 开源多模态大模型、荣登多模态开源榜首
81	【AI大模型前沿】Qwen3-Max-Preview：阿里通义千问的万亿参数大模型，开启AI新纪元
82	【AI大模型前沿】dots.vlm1：小红书hi lab开源的高性能多模态大模型、免费可商用，图表推理直接封神
83	【AI大模型前沿】GLM-4.5V：智谱最新一代视觉推理模型，开源即巅峰，42项SOTA碾压全场，多模态一键秒杀
84	【AI大模型前沿】Jan-v1：基于阿里云Qwen3-4B-Thinking的高性能本地运行AI模型
85	【AI大模型前沿】KittenTTS：KittenML开源的轻量级文本转语音模型，离线部署与高效性能的完美结合
86	【AI大模型前沿】Baichuan-M2：百川智能开源医疗增强大模型，助力医疗智能化转型
87	【AI大模型前沿】MiroThinker：基于Qwen3构建的开源Agent模型系列，助力复杂任务解决
88	【AI大模型前沿】DINOv3：Meta开源的自监督视觉模型，卫星/医疗/自拍全通杀，性能吊打CLIP全家桶
89	【AI大模型前沿】VibeVoice：微软开源7B模型，跨语言、多说话人、长文本一次到位
90	【AI大模型前沿】Waver 1.0：字节跳动推出的AI视频生成模型，支持文本/图像到高清视频的创作
91	【AI大模型前沿】MobileCLIP2：苹果开发端侧大模型，让手机秒变AI神器、拍照就能写文案、搜图片零误差
92	【AI大模型前沿】MiniCPM-V 4.5：OpenBMB推出的高性能端侧多模态大模型
93	【AI大模型前沿】Step-Audio 2 mini：阶跃星辰开源的端到端语音大模型，听得清楚、想得明白、说得自然
94	【AI大模型前沿】HunyuanWorld-Voyager：腾讯开源的超长漫游世界模型，开启3D场景生成新纪元
95	【AI大模型前沿】EmbeddingGemma：谷歌开源的移动端优先文本嵌入模型，200MB 内存搞定 100 种语言 RAG，性能翻倍
96	【AI大模型前沿】Apertus：瑞士首个开源大模型，多语言支持，合规训练，高效性能
97	【AI大模型前沿】OneCAT：美团联合上交大推出的纯解码器多模态模型
98	【AI大模型前沿】MiniCPM4.1：面壁智能重磅开源，128K长文本推理秒级响应，端侧性能狂飙7倍

前言

随着人工智能技术的飞速发展，大语言模型在各个领域展现出了巨大的潜力。然而，如何将这些强大的模型高效地部署到端侧设备上，一直是行业面临的挑战。面壁智能团队推出的 MiniCPM4.1 系列模型，凭借其在模型架构、学习算法、训练数据和推理系统等方面的全方位优化，成功实现了端侧大模型的极致效率与卓越性能。本文将深入剖析 MiniCPM4.1 的技术细节，探讨其在不同场景下的应用潜力，并提供快速部署与使用的实践指南。
在这里插入图片描述

一、项目概述

MiniCPM4.1 是一个专为端侧设备量身打造的高效大型语言模型，具有 8B 参数规模。它在保持与同尺寸开源模型相当性能的同时，通过一系列创新技术实现了显著的效率提升。该模型在长文本处理、推理速度和模型压缩等方面均取得了突破性进展，使其成为端侧应用场景中的理想选择。

二、技术揭秘

（一）稀疏注意力机制

InfLLM v2 稀疏注意力机制是 MiniCPM4.1 的核心技术之一。它通过动态选择相关上下文块，将传统 Transformer 模型中 O(n²) 的计算复杂度降低到接近线性。这一机制不仅减少了计算量，还显著降低了内存访问开销。

（二）高效训练算法

MiniCPM4.1 引入了 ModelTunnel v2，用于高效地搜索最佳预训练策略，避免了大量试错成本。此外，分块式推演（Chunk-wise Rollout）技术实现了负载均衡的强化学习，有效解决了长链思维（CoT）推理中的负载不均衡问题。

（三）极致模型量化

BitCPM4 是 MiniCPM4.1 的三元量化版本，将模型参数位宽压缩至 3 值，实现了模型位宽 90% 的极致瘦身。这种量化技术在保持模型性能的同时，大幅减少了模型存储和计算需求。

（四）高效推理框架

CPM.cu 是一个轻量级的 CUDA 推理框架，集成了稀疏注意力、模型量化和投机采样等技术，显著提高了预填充和解码速度。此外，ArkInfer 跨平台部署系统支持多后端环境的一键部署，提供了灵活的跨平台适配能力。

三、核心功能

（一）高效稀疏架构

采用 InfLLM v2 稀疏注意力机制，每个词元仅需计算与少于 5% 词元的相关性，显著降低了长文本处理的计算复杂度和内存开销。这一架构创新使得 MiniCPM4.1 在处理 128K 长文本时，相比传统模型大幅减少了缓存存储空间。

（二）双频换挡机制

根据任务类型自动切换注意力模式，长文本任务启用稀疏注意力以降低计算复杂度，短文本任务切换至稠密注意力以确保精度与速度。这种智能切换机制在保证输出质量的同时，最大化了计算效率。

（三）卓越综合性能

在多个评测基准上，MiniCPM4.1 取得了同尺寸模型第一的成绩，综合能力达到同级最优水平。无论是在知识问答、推理分析还是编程辅助等方面，MiniCPM4.1 均表现出色，展现了其强大的通用性。

（四）端侧友好

MiniCPM4.1 在 LiveCodeBench、AIME 等端侧性能测试中，推理速度比同尺寸开源模型快 3 倍以上。在 128K 长文本场景下，仅需 25% 的缓存存储空间，极大地减轻了端侧设备的计算压力。

（五）多种部署格式

MiniCPM4.1 提供了 GPTQ、AutoAWQ 等多种部署格式，方便开发者根据不同的端侧设备需求进行高效部署。

四、基准评测

（一）效率评测

在 Jetson AGX Orin 和 RTX 4090 两款典型端侧芯片上，MiniCPM4.1 在长文本处理任务中展现出大幅领先同尺寸模型的处理速度。随着文本长度的增加，MiniCPM4.1 的性能优势愈发显著。在 Jetson AGX Orin 平台上，相较于 Qwen3-8B，MiniCPM4.1 实现了约 7 倍的生成速度提升。
在这里插入图片描述

（二）综合评测

MiniCPM4.1 推出端侧 8B、0.5B 两种参数规模版本，均在同级别模型中实现了最佳性能表现。在多个综合评测基准上，MiniCPM4.1 的平均分超过了同尺寸的其他开源模型，证明了其在知识、推理、编程等多方面的强大能力。
在这里插入图片描述

（三）长文本评测

MiniCPM4.1 基于 32K 长文本进行预训练，并通过 YaRN 技术实现长度扩展。在 128K 长文本的大海捞针任务中，MiniCPM4.1 展现出卓越的性能表现，准确率达到了 100%。
在这里插入图片描述

五、应用场景

（一）端侧设备应用

MiniCPM4.1 专为端侧设备设计，适用于智能手机、平板电脑、智能音箱等设备。它能在设备本地高效运行，保护用户隐私，减少对云端计算的依赖。

（二）长文本处理

稀疏注意力机制和长文本优化使 MiniCPM4.1 能高效处理长文本任务，如长篇文档生成、故事创作、技术文档编写等。

（三）知识问答与教育

凭借强大的知识理解和推理能力，MiniCPM4.1 可用于知识问答系统、智能辅导工具等教育领域应用，帮助用户快速获取准确信息，辅助学习和研究。

（四）编程辅助

在代码生成、代码补全、编程问题解答等方面表现出色，可作为开发人员的编程助手，提高编程效率和质量。

（五）内容创作

能协助用户进行创意写作、文案撰写、新闻报道等各类内容创作任务，提供灵感和写作支持。

六、快速使用

为了帮助开发者快速上手 MiniCPM4.1，以下是基于 CPM.cu 推理框架的部署实践：

（一）环境准备

确保已安装 Python 3.8 及以上版本，并安装以下依赖：

pip install torch transformers

（二）安装 CPM.cu

通过以下命令安装 CPM.cu：

git clone https://github.com/OpenBMB/cpm.cu.git --recursive
cd cpm.cu
python3 setup.py install

（三）CPM.cu推理

通过以下命令使用 EAGLE3 进行投机推理。

python3 -m cpmcu.cli \
    --model-path $BASE_MODEL_PATH \
    --draft-model-path $EAGLE3_DRAFT_MODEL_PATH \
    --prompt-text "Tell me about Tsinghua University" \
    --use-eagle3 true

（四）transformers 推理示例

从 Hugging Face 下载 MiniCPM4.1 模型，并加载推理模型：

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
torch.manual_seed(0)

path = 'openbmb/MiniCPM4.1-8B'
device = "cuda"
tokenizer = AutoTokenizer.from_pretrained(path)
model = AutoModelForCausalLM.from_pretrained(path, torch_dtype=torch.bfloat16, device_map=device, trust_remote_code=True)

# User can directly use the chat interface
# responds, history = model.chat(tokenizer, "Write an article about Artificial Intelligence.", temperature=0.7, top_p=0.7)
# print(responds)

# User can also use the generate interface
messages = [
    {"role": "user", "content": "Write an article about Artificial Intelligence."},
]
prompt_text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
model_inputs = tokenizer([prompt_text], return_tensors="pt").to(device)

model_outputs = model.generate(
    **model_inputs,
    max_new_tokens=32768,
    top_p=0.95,
    temperature=0.6
)
output_token_ids = [
    model_outputs[i][len(model_inputs[i]):] for i in range(len(model_inputs['input_ids']))
]

responses = tokenizer.batch_decode(output_token_ids, skip_special_tokens=True)[0]
print(responses)

（五）混合思考

MiniCPM4.1 支持混合思考模式，可以用于深度思考和非思考模式。用户可以通过设置 enable_thinking=True 来启用混合思考模式，设置 enable_thinking=False 来启用非思考模式。同样，用户可以直接在查询末尾添加 /no_think 来启用非思考模式。如果未添加任何特殊标记或在查询末尾添加 /think，模型将启用思考模式。

# Enable reasoning mode
prompt_text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True
)
# Enable non-reasoning mode
prompt_text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False
)

七、结语

MiniCPM4.1 作为面壁智能团队在端侧大模型领域的最新成果，凭借其极致的效率优化和强大的性能表现，为端侧应用场景提供了全新的解决方案。无论是长文本处理、知识问答还是编程辅助，MiniCPM4.1 均展现出卓越的性能。通过本文的详细介绍，相信读者对 MiniCPM4.1 有了全面的了解。更多详细信息，请参考以下项目地址：

项目地址

GitHub 仓库：https://github.com/openbmb/minicpm
Hugging Face 模型库：https://huggingface.co/openbmb/MiniCPM4.1-8B

在这里插入图片描述

😎 作者介绍：资深程序老猿，从业10年+、互联网系统架构师，目前专注于AIGC的探索（CSDN博客之星|AIGC领域优质创作者）
📖专属社群：欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码，回复‘入群’ 即刻上车，获取邀请链接。
💘领取三大专属福利：1️⃣免费赠送AI+编程📚500本，2️⃣AI技术教程副业资料1套，3️⃣DeepSeek资料教程1套🔥（限前500人）
如果文章内容对您有所触动，别忘了点赞、⭐关注，收藏！加入我们，一起携手同行AI的探索之旅，开启智能时代的大门！