logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源

宝藏级大模型多轮对话开源标注工具Label-LLM安装部署教程。

文章图片
#人工智能#开源#算法 +2
图像识别 so easy 丨经典图像分类数据集数据集CIFAR-10解读

​今天,给大家介绍一个经典的图像分类数据集——CIFAR-10,其广泛用于机器学习领域的计算机视觉算法基准测试

#分类#人工智能#大数据 +1
遥感论文 | AAAI2025 | Urbench:多模态大模型在城市环境领域全新BenchMark,已开源,欢迎follow!

近年来,针对大型多模态模型(LMMs)的能力研究已覆盖多个领域,但专门针对城市环境的系统性评估体系仍较为匮乏。大多数现有的基准测试仅关注于单一视角下的区域级城市任务,无法全面评估 LMMs 在复杂城市环境中的表现。为此,本文提出了一个专为评估LMMs 在多视角城市场景中表现而设计的综合基准测试UrBench。本文三点贡献如下:一个多视角基准测试,旨在评估LMMs在城市环境中的表现。该基准包含14种

文章图片
#人工智能
MinerU大上新!桌面客户端、新版API、国产化适配版全都有,更多功能等你解锁

2024年7月,上海人工智能实验室OpenDataLab团队正式推出了智能数据提取工具——。具备将混合图片、公式、表格、脚注等在内的复杂多模态 PDF 文档转化为Markdown格式的能力,可大幅提升AI语料的准备效率。凭借快速准确、开源易用的能力特性,受到广大用户及大模型开发者青睐,,GitHub星标数已接近2.5万,被开发者誉为“大模型时代的文档提取、转换神器”。2025年1月,迎来新年更新,

文章图片
#人工智能#开源
WAIC上官宣!大模型语料提取工具MinerU正式发布,开源免费“敲”好用

7月4日,2024 WAIC科学前沿全体会议在上海世博中心红厅隆重举行。上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式发布新一代大语言模型书⽣·浦语2.5(InternLM2.5),同时全链条工具体系迎来重磅升级,对于,不仅能将混合了图片、表格、公式等在内的复杂多模态 PDF 文档精准转化为清晰、易于分析的 Markdown 格式,还能从包含广告等各种干扰信息的网页中快速解析、抽取正式

文章图片
#人工智能#大数据
资源盘点丨9个经典视觉-语言多模态预训练数据集

在 ChatGPT 引爆社会与学术界的热点后,“大模型”与“多模态”也成为了搜索量攀升的热门词汇。这些体现了大众对人工智能的广泛关注。事实上,人工智能的进步离不开深度学习方法在各个具体任务上的进展。其中,尤其是预训练任务的方法,对人工智能的进步有着重要推进作用。而在各类预训练任务中,模型性能受预训练数据集质量的影响显著。其中,为了获取通用的多模态知识,视觉-语言预训练任务主要使用带有弱标签的视觉-

文章图片
#人工智能#计算机视觉#深度学习
如何一个模型走天下?集成训练多数据集,打造通用目标检测模型方法详解

使用单个数据集训练的目标检测模型已经不能满足需求,如何集成训练多个数据集成为了一大热门研究方向

#目标检测#计算机视觉#深度学习
登顶GitHub Trending,开源工具MinerU助力复杂PDF高效解析提取

同时支持从包含广告等各种干扰信息或者复杂格式的网页、电子书中快速解析、抽取正式内容,有效提高AI语料准备效率,助力各行业利用大模型、RAG等技术,结合学术文献、财务报告、法律文件、电子书籍等专业文档,打造垂直领域的新知识引擎。紧接着,利用高质量PDF模型解析工具链进一步对PDF文档进行Layout区块布局检测,准确定位标题、正文、图片、表格、脚注、边注等重要元素位置,与此同时,结合公式检测模型定位

文章图片
#github
    共 82 条
  • 1
  • 2
  • 3
  • 9
  • 请选择