
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在大语言模型(LLMs)推动自然语言处理领域发展的背景下,通用大模型在特定语言和专业领域的应用面临挑战。低秩自适应(LoRA)技术作为一种高效、灵活的微调方法,正引领行业变革。OpenDataLab与和鲸社区联合举办的“大模型小语种方向Lora微调workshop”深入探讨了LoRA技术的原理和应用,特别是在小语种领域的独特价值。本次workshop使用OpenDataLab的“万卷・丝路2.0”

上海人工智能实验室OpenDataLab团队的小语种数据标注创新模式入选国家优秀案例。该团队打造了"万卷·丝路"多模态语料库,涵盖8种小语种的跨模态数据,并开发了LabelU和LabelLLM等开源工具。通过自主研发智能标注平台和标准化管理方案,标注效率提升50%,成本降低70%。创新亮点包括大模型标注技术、人机结合质检、系列标注工具开发及灵活的工作流程管理。该方案为小语种数据
在企业场景中,李浩鸣分享了利用大模型提升 SDR 工作流效率的实践经验,他介绍,传统会议纪要与信息提取工作耗时较长,而借助大模型,通过格式化字段提取,整个流程仅需 2-3 分钟即可完成。在多模态处理上,Google 模型优势明显,能高效处理音频、视频、PDF 等多种格式文档,对手写内容识别效果也较好,涉及多模态文档工作的用户可优先考虑;一起来看看他们的精彩分享。大模型在科研探索中发挥的价值远比以往

通过其智能识别数据结构、交互式可视化的能力,使数据以网页、Markdown、图片等视图模式清晰呈现,关键字段一目了然,大幅降低数据理解成本,助力用户快速洞察数据价值。无论是进行数据展示,还是深度分析挖掘,都能找到契合的呈现方式,让数据理解更透彻。灵活高效的数据接入方式,让你摆脱数据读取的繁琐和限制,专注于可视化分析。工具通过智能解析引擎自动识别数据结构,再配以精巧的可视化布局,将复杂数据中的关键信

第63届国际计算语言学协会年(ACL 2025)于7月27日至8月1日在奥地利维也纳举行。作为NLP领域最具影响力的顶级盛会,今年的ACL依然吸引了全球众多顶尖学者参与,投稿数量与质量再创新高。在本届大会上,由上海人工智能实验室OpenDataLab团队与华东师范大学团队联合提出的研究成果Meta-rater框架聚焦于提升大语言模型预训练的数据筛选效率,相比以往依赖大规模试错的“黑箱式”方法,Me

大模型时代,基于个人文档库的 RAG 应用迅速崛起,而文档解析作为关键首步,直接决定了大模型对文档内容的理解程度与回答准确性。在面对科学类文档中大量的公式时,准确解析公式显得尤为关键。而评价一个模型是否准确的前提是有一个准确、公平的指标。然而,熟悉公式识别领域的人员会发现使用BLEU、EditDistance等纯文本指标无法准确地衡量公式识别的性能,原因是同一个公式存在多种Latex书写方式。
在大语言模型(LLMs)推动自然语言处理领域发展的背景下,通用大模型在特定语言和专业领域的应用面临挑战。低秩自适应(LoRA)技术作为一种高效、灵活的微调方法,正引领行业变革。OpenDataLab与和鲸社区联合举办的“大模型小语种方向Lora微调workshop”深入探讨了LoRA技术的原理和应用,特别是在小语种领域的独特价值。本次workshop使用OpenDataLab的“万卷・丝路2.0”

随着模型技术发展,互联网数据趋同性导致通用大模型同质化,细分专业化成为深入行业落地的必然路径,这些数据常存在于私域,且以文档形式最为普遍。,支撑高质量AI-Ready的语料构建管线,将可解析场景延伸至科学数据领域,补齐AI-Ready数据的最后一公里,缩窄AGI促进科学发现的鸿沟,现已成为『书生』科学多模态大模型Intern-S1开源工具链中的重要一环。性能、速度跃升的同时,将可解析场景延伸至科学

【摘要】上海AI实验室与上海交通大学等机构联合提出IDEAL框架,用于优化大型语言模型(LLM)多任务训练中的数据均衡问题。研究发现传统SFT训练会导致模型能力不均衡,简单增加弱势领域数据效果有限。IDEAL通过量化各领域数据对模型性能的影响,动态调整训练集分布,在Llama3-18B实验中显著提升模型综合表现(如编码能力提升尤为明显)。该方法突破性地证明:优化数据配比比单纯增加数据量更有效,且训

在阿拉伯语、俄语、韩语、越南语、泰语5个语种基础上,新增塞尔维亚语、匈牙利语、捷克语等3个稀缺语料数据。在纯文本数据基础上,新增图片-文本、音频-文本、视频-文本、特色指令微调SFT四大模态数据,覆盖多模态研究全链路;整体数据总量超过1150万条,音视频时长超过2.6万小时,满足多种研究任务的需求。







