
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
导言:从科学文献 PDF 文档中提取作者、年份、摘要等元数据,构建高效索引与分析,并以此激活海量文档价值,能够直接帮助研究者、图书馆、企业及数据库平台等实现更高效的文献管理、资源数字化、AI知识库构建与数据聚合分析等。然而,面对排版复杂、元素多样的科学文献,如何客观地评估模型的元数据提取能力?为此,上海人工智能实验室 OpenDataLab 团队推出了科学文献元数据提取评测集,该基准旨在建立客观、
导言:各位的铁粉们,你们的“生产力神兵”又进化了!还在为DeepResearch获取网页信息、网页知识库构建、复杂网页内容提取、网页文章复制乱码等场景感到头疼吗?在 AI 数据处理领域,以和为代表的行业先行者已经为我们展示了“网页转 LLM 友好格式”的巨大潜力,这次我们直接把深度优化的“网页解析”功能装进了网页端与桌面端,凭借在公式、表格识别上的深厚积淀,让整个互联网都成为你的 AI-Ready
(文章发布于2025年12月23日)导言:为破解长期以来学界与业界的困局,上海人工智能实验室(上海AI实验室)OpenDataLab团队在今年8月开源了首个全面、公正的后训练数据价值评测平台——。该项目致力于将数据选择从“盲目试错”的炼丹术,转变为一门可复现、可分析、可累积的严谨科学。在初版系统发布后的数月间,项目通过团队内部及小范围社区用户的深度使用,完成了高强度的技术验证与功能打磨。伴随着评测

今天,给大家介绍一个经典的图像分类数据集——CIFAR-10,其广泛用于机器学习领域的计算机视觉算法基准测试
摘要:上海AI实验室OpenDataLab团队提出新一代网页提取工具MinerU-HTML,通过两阶段语义感知方法解决传统HTML提取的局限性。该工具首先用0.6B参数模型标注正文节点,再精细处理代码、公式等结构化元素,最终输出Markdown格式。基于此构建的AICC语料库(7.3万亿tokens)在多项测试中超越RefinedWeb等现有语料,尤其在通用知识和阅读理解任务上表现突出。实验证明高

使用单个数据集训练的目标检测模型已经不能满足需求,如何集成训练多个数据集成为了一大热门研究方向
7月4日,2024 WAIC科学前沿全体会议在上海世博中心红厅隆重举行。上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式发布新一代大语言模型书⽣·浦语2.5(InternLM2.5),同时全链条工具体系迎来重磅升级,对于,不仅能将混合了图片、表格、公式等在内的复杂多模态 PDF 文档精准转化为清晰、易于分析的 Markdown 格式,还能从包含广告等各种干扰信息的网页中快速解析、抽取正式

yolo5应用的trick繁多,此本文将针对yolo5的数据增强方面进行详细解读
近日,大模型文档语料生产引擎双方联合升级的功能在 ModelWhale 平台全新升级发布会上正式亮相!此次合作将 MinerU 强大的文档解析能力深度集成至 ModelWhale 智能工具中,为科研工作提供坚实数据支持。

在大语言模型(LLMs)推动自然语言处理领域发展的背景下,通用大模型在特定语言和专业领域的应用面临挑战。低秩自适应(LoRA)技术作为一种高效、灵活的微调方法,正引领行业变革。OpenDataLab与和鲸社区联合举办的“大模型小语种方向Lora微调workshop”深入探讨了LoRA技术的原理和应用,特别是在小语种领域的独特价值。本次workshop使用OpenDataLab的“万卷・丝路2.0”








