logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

用“万卷·丝路”数据集打造阿拉伯语版DeepSeek(附免费算力与教程)

在大语言模型(LLMs)推动自然语言处理领域发展的背景下,通用大模型在特定语言和专业领域的应用面临挑战。低秩自适应(LoRA)技术作为一种高效、灵活的微调方法,正引领行业变革。OpenDataLab与和鲸社区联合举办的“大模型小语种方向Lora微调workshop”深入探讨了LoRA技术的原理和应用,特别是在小语种领域的独特价值。本次workshop使用OpenDataLab的“万卷・丝路2.0”

文章图片
#人工智能#开源#自然语言处理
上海AI实验室发布MinerU2:通专融合路线如何补齐AI-Ready数据的最后一公里

随着模型技术发展,互联网数据趋同性导致通用大模型同质化,细分专业化成为深入行业落地的必然路径,这些数据常存在于私域,且以文档形式最为普遍。,支撑高质量AI-Ready的语料构建管线,将可解析场景延伸至科学数据领域,补齐AI-Ready数据的最后一公里,缩窄AGI促进科学发现的鸿沟,现已成为『书生』科学多模态大模型Intern-S1开源工具链中的重要一环。性能、速度跃升的同时,将可解析场景延伸至科学

文章图片
#人工智能
全自动调整数据配比,解放LLM工程师丨上海AI Lab&上海交大联合团队提出创新数据均衡方法,让大语言模型不“偏科”

【摘要】上海AI实验室与上海交通大学等机构联合提出IDEAL框架,用于优化大型语言模型(LLM)多任务训练中的数据均衡问题。研究发现传统SFT训练会导致模型能力不均衡,简单增加弱势领域数据效果有限。IDEAL通过量化各领域数据对模型性能的影响,动态调整训练集分布,在Llama3-18B实验中显著提升模型综合表现(如编码能力提升尤为明显)。该方法突破性地证明:优化数据配比比单纯增加数据量更有效,且训

文章图片
#人工智能#语言模型#深度学习
教程 | 给大模型插上小语种“翅膀”,附ms-swift韩语继续预训练与指令微调教程

在阿拉伯语、俄语、韩语、越南语、泰语5个语种基础上,新增塞尔维亚语、匈牙利语、捷克语等3个稀缺语料数据。在纯文本数据基础上,新增图片-文本、音频-文本、视频-文本、特色指令微调SFT四大模态数据,覆盖多模态研究全链路;整体数据总量超过1150万条,音视频时长超过2.6万小时,满足多种研究任务的需求。

#人工智能#自然语言处理
MinerU又双叒更新了!化学解析×多模式翻译等多种功能上线!文档解析处理爽到飞起!

翻译功能,想怎么翻就怎么翻!全文翻译、模块翻译,多种模式随心切换,满足你所有的翻译姿势!系统默认接入限时免费的GPT-4o-mini引擎,同时支持接入DeepL、Google、DeepSeek、硅基流动、阿里云百炼、腾讯混元等主流翻译服务,满足不同用户的翻译需求。你的反馈会直接驱动我们的解析模型优化,让你成为MinerU的“秘密武器”!近期,MinerU就像是坐上了火箭,功能蹭蹭往上涨,简直要让你

文章图片
#人工智能
免费下载 | 百万机器人真机数据 AgiBot World 上架OpenDataLab

2024年底,在具身智能方向,上海人工智能实验室携手等智元机器人、国家地方共建人形机器人创新中心、上海库帕思重磅开源了,具身智能领域也迎来了「ImageNet」时刻!(智元世界)—— 一个汇集百万真实机器人数据的开源数据集。在这个具身数据的世界里,机器人不再只是进行简单的桌面任务,而是全方位融入我们的日常生活。机器人和人类和谐相处世界的大幕,正在徐徐拉开。2024,哪个场景最符合你对未来机器人的想

文章图片
#机器人
MinerU2.5! 公式、表格解析统统不在话下!

之前我们发布了MinerU2.5模型,包含网页端/桌面客户端端/api 在内点MinerU 全线产品已经集成了最新模型,这波直接把文档解析做到天花板 💯。📚 无论科研、金融还是教育场景,MinerU 都能帮你轻松搞定高质量文档解析,为知识库构建省时又省力!更赞的是 👉 中文公式、复杂数学公式、嵌套表格都做了深度优化!✅ 无线/少线表格一键解析。

#人工智能
MinerU × Cherry Studio:知识库再添动力!

业界顶尖的预处理技术,并支持灵活的部署方式,能够极大地优化文档信息在 AI 应用中的流转效率和准确性,同时充分尊重和保障用户的数据主权,最终为每一位 Cherry Studio 用户带来更流畅、更智能、更值得信赖的产品体验。强大的文档解析能力深度集成到 Cherry Studio 的知识库与未来的对话功能中,为您带来前所未有的文档处理与信息获取体验。后,您上传到知识库的文档将经过更精细的处理,使

文章图片
#人工智能
MinerU大上新!桌面客户端、新版API、国产化适配版全都有,更多功能等你解锁

2024年7月,上海人工智能实验室OpenDataLab团队正式推出了智能数据提取工具——。具备将混合图片、公式、表格、脚注等在内的复杂多模态 PDF 文档转化为Markdown格式的能力,可大幅提升AI语料的准备效率。凭借快速准确、开源易用的能力特性,受到广大用户及大模型开发者青睐,,GitHub星标数已接近2.5万,被开发者誉为“大模型时代的文档提取、转换神器”。2025年1月,迎来新年更新,

文章图片
#人工智能#开源
MinerU 新版本发布,API内测开放申请,诚邀开发者共建

最新版本发布。本次更新进行了大量代码重构,降低了硬件需求,数据提取性能及易用性“双提升”。(点击查看MinerU介绍→全新版本接入了新的表格模型 StructTable-InternVL2-1B,表格解析选择更丰富。同时优化了线上Demo使用体验,开放API内测申请,参与“探索者”计划,加入开源共建,将有机会赢得精美周边及算力支持等丰富奖励。(点击文末“阅读原文”直达)● 重构模块代码,使用进行阅

文章图片
#人工智能#RAG
    共 64 条
  • 1
  • 2
  • 3
  • 7
  • 请选择