公共资源速递

This Weekly Snapshots !

5 个公共数据集:

* MCD 多模态代码生成数据集

* WideSearch 信息搜集基准数据集

* MedChatZH 中文医疗对话指令数据集

* We-Math2.0-Standard 视觉数学推理基准数据集

* Nemotron-Pretraining-Dataset-sample 样本数据集

2 个公共教程:

* BioEmu:生成式深度学习系统

* MiniCPM-V 4.5:最强端侧多模态模型

访问网立即使用:http://openbayes.com

公共数据集

1. MCD 多模态代码生成数据集

Multimodal Coding Dataset(MCD)数据集包含总计约 59.8 万条/对高质量样本,以指令跟随格式组织,覆盖多种输入模态(文本、图像、代码)与输出模态(代码、答案、解释),适用于多模态代码理解与生成任务。

* 在线使用:

https://go.openbayes.com/RbDbL

2. WideSearch 信息搜集基准数据集

WideSearch 包含研究团队从真实用户查询中精心挑选并手工清洗出 200 个高质量问题(100 个英文问题、100 个中文问题),这些问题来自 15 个以上的不同领域。

* 在线使用:

https://go.openbayes.com/b5XUm

数据集构建与自动评测流程图

3. MedChatZH 中文医疗对话指令数据集

MedChatZH 数据来源于超过 1k 本中医典籍与医家笔记,以及从互联网与多家中国医院汇集的超过 700 万条中文医疗指令并结合 BELLE-3.5M 通用指令,经过筛选清理得到医药类指令 763,629 条、通用指令 1,305,194 条,共同组成用于对话微调的 med-mix-2M 数据集,与中医典籍语料配合,分别服务于继续预训练与指令微调两个阶段。

* 在线使用:

https://go.openbayes.com/1GB4L

4. We-Math2.0-Standard 视觉数学推理基准数据集

We-Math2.0-Standard 数据集围绕 1,819 条精定义的知识原理(Knowledge Principles)建立统一标签空间,对每道题进行显式原理标注与严格策展,从而在整体上实现广泛且均衡的覆盖,特别补强以往代表性不足的数学子领域与题型。

* 在线使用:

https://go.openbayes.com/8JOHO

数据集概览

5. Nemotron-Pretraining-Dataset-sample 样本数据集

Nemotron-Pretraining-Dataset-sample 数据集包含从完整的 SFT 与预训练语料的不同组成部分中选取的 10 个代表性子集,内容涵盖高质量问答数据、专注于数学领域的提取内容、代码元数据及 SFT 风格指令数据,适用于检阅和快速实验。

* 在线使用:

https://go.openbayes.com/hKn4M

公共教程

1. BioEmu:生成式深度学习系统

BioEmu 可以高效模拟蛋白质的动态结构和平衡态构象,能在单个 GPU 上每小时生成数千种蛋白质结构样本,效率远超传统的分子动力学(MD)模拟。通过结合大量蛋白质结构数据、超过 200 毫秒的 MD 模拟数据以及实验蛋白质稳定性数据,BioEmu 能以约 1 kcal/mol 的相对自由能误差准确预测蛋白质的平衡态构象。

* 在线运行:

https://go.openbayes.com/IC6zR

2. MiniCPM-V 4.5:最强端侧多模态模型

MiniCPM-V 4.5 拥有 8B 参数。模型在图片、视频、OCR 等多个领域表现卓越,尤其在高刷视频理解方面取得突破,能处理高刷新率视频并精准识别内容。模型支持混合推理模式,可平衡性能与响应速度。MiniCPM-V 4.5 端侧部署友好,显存占用低,推理速度快,适合在车机、机器人等设备上应用,为端侧 AI 发展树立新标杆。

* 在线运行:

https://go.openbayes.com/XDzRq

新用户福利

* 注册福利:点击下方邀请链接注册,即可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费算力时长,永久有效!

小贝总专属邀请链接(直接复制到浏览器打开):

https://go.openbayes.com/9S6Dr

Logo

一座年轻的奋斗人之城,一个温馨的开发者之家。在这里,代码改变人生,开发创造未来!

更多推荐