logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

用“万卷·丝路”数据集打造阿拉伯语版DeepSeek(附免费算力与教程)

在大语言模型(LLMs)推动自然语言处理领域发展的背景下,通用大模型在特定语言和专业领域的应用面临挑战。低秩自适应(LoRA)技术作为一种高效、灵活的微调方法,正引领行业变革。OpenDataLab与和鲸社区联合举办的“大模型小语种方向Lora微调workshop”深入探讨了LoRA技术的原理和应用,特别是在小语种领域的独特价值。本次workshop使用OpenDataLab的“万卷・丝路2.0”

文章图片
#人工智能#开源#自然语言处理
国家数据局点赞!OpenDataLab小语种数据标注方案入选《数据标注优秀案例集》

上海人工智能实验室OpenDataLab团队的小语种数据标注创新模式入选国家优秀案例。该团队打造了"万卷·丝路"多模态语料库,涵盖8种小语种的跨模态数据,并开发了LabelU和LabelLLM等开源工具。通过自主研发智能标注平台和标准化管理方案,标注效率提升50%,成本降低70%。创新亮点包括大模型标注技术、人机结合质检、系列标注工具开发及灵活的工作流程管理。该方案为小语种数据

#人工智能#开源#自然语言处理
2025 OpenDataLab&和鲸社区『大模型赋能科研 』分享会圆满落幕!

在企业场景中,李浩鸣分享了利用大模型提升 SDR 工作流效率的实践经验,他介绍,传统会议纪要与信息提取工作耗时较长,而借助大模型,通过格式化字段提取,整个流程仅需 2-3 分钟即可完成。在多模态处理上,Google 模型优势明显,能高效处理音频、视频、PDF 等多种格式文档,对手写内容识别效果也较好,涉及多模态文档工作的用户可优先考虑;一起来看看他们的精彩分享。大模型在科研探索中发挥的价值远比以往

文章图片
#人工智能#自然语言处理#开源
新工具开源!Vis3大模型数据可视化利器:填 AK/SK 直接预览 S3 数据,JSON/视频/图片秒开!本地文件也可用

通过其智能识别数据结构、交互式可视化的能力,使数据以网页、Markdown、图片等视图模式清晰呈现,关键字段一目了然,大幅降低数据理解成本,助力用户快速洞察数据价值。无论是进行数据展示,还是深度分析挖掘,都能找到契合的呈现方式,让数据理解更透彻。灵活高效的数据接入方式,让你摆脱数据读取的繁琐和限制,专注于可视化分析。工具通过智能解析引擎自动识别数据结构,再配以精巧的可视化布局,将复杂数据中的关键信

文章图片
#信息可视化#json
斩获ACL 2025最佳主题论文奖丨Meta-rater 框架,1% 算力锁定大模型最优数据

第63届国际计算语言学协会年(ACL 2025)于7月27日至8月1日在奥地利维也纳举行。作为NLP领域最具影响力的顶级盛会,今年的ACL依然吸引了全球众多顶尖学者参与,投稿数量与质量再创新高。在本届大会上,由上海人工智能实验室OpenDataLab团队与华东师范大学团队联合提出的研究成果Meta-rater框架聚焦于提升大语言模型预训练的数据筛选效率,相比以往依赖大规模试错的“黑箱式”方法,Me

文章图片
#人工智能
CVPR 2025|公式识别评测新指标CDM:视觉元素buff加成,让大模型公式识别评价更准确、更客观

大模型时代,基于个人文档库的 RAG 应用迅速崛起,而文档解析作为关键首步,直接决定了大模型对文档内容的理解程度与回答准确性。在面对科学类文档中大量的公式时,准确解析公式显得尤为关键。而评价一个模型是否准确的前提是有一个准确、公平的指标。然而,熟悉公式识别领域的人员会发现使用BLEU、EditDistance等纯文本指标无法准确地衡量公式识别的性能,原因是同一个公式存在多种Latex书写方式。

#人工智能
用“万卷·丝路”数据集打造阿拉伯语版DeepSeek(附免费算力与教程)

在大语言模型(LLMs)推动自然语言处理领域发展的背景下,通用大模型在特定语言和专业领域的应用面临挑战。低秩自适应(LoRA)技术作为一种高效、灵活的微调方法,正引领行业变革。OpenDataLab与和鲸社区联合举办的“大模型小语种方向Lora微调workshop”深入探讨了LoRA技术的原理和应用,特别是在小语种领域的独特价值。本次workshop使用OpenDataLab的“万卷・丝路2.0”

文章图片
#人工智能#开源#自然语言处理
上海AI实验室发布MinerU2:通专融合路线如何补齐AI-Ready数据的最后一公里

随着模型技术发展,互联网数据趋同性导致通用大模型同质化,细分专业化成为深入行业落地的必然路径,这些数据常存在于私域,且以文档形式最为普遍。,支撑高质量AI-Ready的语料构建管线,将可解析场景延伸至科学数据领域,补齐AI-Ready数据的最后一公里,缩窄AGI促进科学发现的鸿沟,现已成为『书生』科学多模态大模型Intern-S1开源工具链中的重要一环。性能、速度跃升的同时,将可解析场景延伸至科学

文章图片
#人工智能
全自动调整数据配比,解放LLM工程师丨上海AI Lab&上海交大联合团队提出创新数据均衡方法,让大语言模型不“偏科”

【摘要】上海AI实验室与上海交通大学等机构联合提出IDEAL框架,用于优化大型语言模型(LLM)多任务训练中的数据均衡问题。研究发现传统SFT训练会导致模型能力不均衡,简单增加弱势领域数据效果有限。IDEAL通过量化各领域数据对模型性能的影响,动态调整训练集分布,在Llama3-18B实验中显著提升模型综合表现(如编码能力提升尤为明显)。该方法突破性地证明:优化数据配比比单纯增加数据量更有效,且训

文章图片
#人工智能#语言模型#深度学习
教程 | 给大模型插上小语种“翅膀”,附ms-swift韩语继续预训练与指令微调教程

在阿拉伯语、俄语、韩语、越南语、泰语5个语种基础上,新增塞尔维亚语、匈牙利语、捷克语等3个稀缺语料数据。在纯文本数据基础上,新增图片-文本、音频-文本、视频-文本、特色指令微调SFT四大模态数据,覆盖多模态研究全链路;整体数据总量超过1150万条,音视频时长超过2.6万小时,满足多种研究任务的需求。

#人工智能#自然语言处理
    共 70 条
  • 1
  • 2
  • 3
  • 7
  • 请选择