MiniCPM-V 4.5超强端侧多模态模型上线，性能速度兼具，端侧运行无压力；MedChatZH含超1K中医典籍，助力中医问诊

MedChatZH 数据来源于超过 1k 本中医典籍与医家笔记，以及从互联网与多家中国医院汇集的超过 700 万条中文医疗指令并结合 BELLE-3.5M 通用指令，经过筛选清理得到医药类指令 763,629 条、通用指令 1,305,194 条，共同组成用于对话微调的 med-mix-2M 数据集，与中医典籍语料配合，分别服务于继续预训练与指令微调两个阶段。MiniCPM-V 4.5 端侧部署友

OpenBayes

463人浏览 · 2025-09-11 17:14:47

OpenBayes · 2025-09-11 17:14:47 发布

公共资源速递

This Weekly Snapshots ！

5 个公共数据集：

* MCD 多模态代码生成数据集

* WideSearch 信息搜集基准数据集

* MedChatZH 中文医疗对话指令数据集

* We-Math2.0-Standard 视觉数学推理基准数据集

* Nemotron-Pretraining-Dataset-sample 样本数据集

2 个公共教程：

* BioEmu：生成式深度学习系统

* MiniCPM-V 4.5：最强端侧多模态模型

访问网立即使用：http://openbayes.com

公共数据集

1. MCD 多模态代码生成数据集

Multimodal Coding Dataset（MCD）数据集包含总计约 59.8 万条/对高质量样本，以指令跟随格式组织，覆盖多种输入模态（文本、图像、代码）与输出模态（代码、答案、解释），适用于多模态代码理解与生成任务。

* 在线使用：

https://go.openbayes.com/RbDbL

2. WideSearch 信息搜集基准数据集

WideSearch 包含研究团队从真实用户查询中精心挑选并手工清洗出 200 个高质量问题（100 个英文问题、100 个中文问题），这些问题来自 15 个以上的不同领域。

* 在线使用：

https://go.openbayes.com/b5XUm

数据集构建与自动评测流程图

3. MedChatZH 中文医疗对话指令数据集

* 在线使用：

https://go.openbayes.com/1GB4L

4. We-Math2.0-Standard 视觉数学推理基准数据集

We-Math2.0-Standard 数据集围绕 1,819 条精定义的知识原理（Knowledge Principles）建立统一标签空间，对每道题进行显式原理标注与严格策展，从而在整体上实现广泛且均衡的覆盖，特别补强以往代表性不足的数学子领域与题型。

* 在线使用：

https://go.openbayes.com/8JOHO

数据集概览

5. Nemotron-Pretraining-Dataset-sample 样本数据集

Nemotron-Pretraining-Dataset-sample 数据集包含从完整的 SFT 与预训练语料的不同组成部分中选取的 10 个代表性子集，内容涵盖高质量问答数据、专注于数学领域的提取内容、代码元数据及 SFT 风格指令数据，适用于检阅和快速实验。

* 在线使用：

https://go.openbayes.com/hKn4M

公共教程

1. BioEmu：生成式深度学习系统

BioEmu 可以高效模拟蛋白质的动态结构和平衡态构象，能在单个 GPU 上每小时生成数千种蛋白质结构样本，效率远超传统的分子动力学（MD）模拟。通过结合大量蛋白质结构数据、超过 200 毫秒的 MD 模拟数据以及实验蛋白质稳定性数据，BioEmu 能以约 1 kcal/mol 的相对自由能误差准确预测蛋白质的平衡态构象。

* 在线运行：

https://go.openbayes.com/IC6zR

2. MiniCPM-V 4.5：最强端侧多模态模型

MiniCPM-V 4.5 拥有 8B 参数。模型在图片、视频、OCR 等多个领域表现卓越，尤其在高刷视频理解方面取得突破，能处理高刷新率视频并精准识别内容。模型支持混合推理模式，可平衡性能与响应速度。MiniCPM-V 4.5 端侧部署友好，显存占用低，推理速度快，适合在车机、机器人等设备上应用，为端侧 AI 发展树立新标杆。

* 在线运行：

https://go.openbayes.com/XDzRq