logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

1380亿条微博全量数据集,可用于自然语言处理、情感分析、舆情分析、推荐系统、用户行为数据、商业智能、人工智能模型训练、中文文本数据、地理位置信息、时间序列分析、JSON格式、机器学习、文本挖掘等

本文介绍了1380亿条微博全量数据集,该数据集涵盖2014年至今的长期采集,采用标准JSON格式存储。每条记录包含用户信息、微博内容、互动数据、地理位置等多维度结构化数据,并附带情感分析、地址识别等智能标注结果。该数据集具有规模大、时间长、质量高、覆盖广等优势,适用于自然语言处理、情感分析、舆情监测、推荐系统、商业智能等多个领域。数据来源真实可靠,经过脱敏处理,可通过典枢平台获取。该数据集为人工智

#人工智能#自然语言处理#json
JD商品评论数据集:真实用户评论情感分析数据,中文自然语言处理语料,学习深度学习模型训练、文本挖掘、电商推荐系统优化、产品评价分析、客户服务改进及自然语言处理教学

数据集中的评论涵盖了丰富的情感表达方式,从直接的情感词汇到隐含的情感暗示,为算法提供了多样化的学习样本。通过在这个数据集上的实验,研究人员可以比较不同算法的性能表现,探索中文情感分析的最佳实践,推动该领域的技术进步。此外,基于情感分析的用户反馈分类系统,可以自动将用户反馈按照情感倾向进行分类,为不同的处理流程提供支持,显著提升客户服务的整体水平。本JD笔记本评论情感分析数据集以其高质量的中文语料、

#自然语言处理#学习#深度学习
电子游戏用户评论情感分析数据集

摘要 本数据集整合了超过99,000条电子游戏用户评论,涵盖3,000多款游戏的多维度评价信息。数据包含三个核心文件:原始与复合情感评分数据、用户评论情感评分数据以及游戏变量与情感指标汇总数据。数据集采用VADER、TextBlob和Hugging Face三种算法计算情感分数,并提供清洗、翻译和预处理后的评论文本。数据优势包括多维度情感分析、大规模数据量、丰富的预处理信息和商业指标整合等。该数据

#python#人工智能#信息可视化 +4
中国大学题库数据集包含24个学科领域:STEM教育数据库、理工科题库、计算机科学题库、JSON格式结构化数据、支持机器学习训练、自适应学习算法开发和智能教育系统构建

中国大学题库数据集包含23,000道结构化题目,覆盖24个学科领域(如计算机、医学、法学等),采用JSON格式存储。该数据集具有学科均衡(各领域1000题)、题型多样(100+种题型)等特点,支持智能题库开发、自适应学习算法训练等教育AI应用。数据包含完整元信息,部分题目附带解析,为教育技术研究提供了高质量基础资源。

#数据库#json#机器学习
三万小时PB级院线级电影数据集,包含完整视频、音频和字幕多模态资源,专为视频大模型训练和多模态研究设计,适用于文生视频生成、影视剪辑、语义检索及智能内容管理

本文介绍了一个PB级院线级电影多模态数据集,包含3万小时高质量影视资源。该数据集将每部电影拆解为视频、音频和字幕三条独立数据流,保持严格时间对齐,并附带完整元数据信息。数据优势包括高清画质、专业内容、丰富场景和多模态拆解,适用于文生视频模型训练、多模态融合研究、视频检索和影视编辑等多种应用场景。该数据集解决了现有视频语料在质量、多样性和工程处理上的不足,为视频大模型训练提供了优质基座。

#音视频#无人机#自动驾驶 +3
基于10部权威医疗电子书的医疗知识图谱构建数据集:包含18,297个结构化标记、37,381个医学实体、5,770个交叉引用关系和974个表格结构,支持疾病-药物关系抽取、临床决策系统开发

本数据集基于10部权威医疗电子书构建,包含240个LaTeX章节、3991张医学图像和13份完整PDF文档,涵盖影像诊断学、重症医学、临床药学等核心医学领域。数据集具有高度结构化特点,包含18,297个标记、37,381个医学实体和5,770个交叉引用关系,支持疾病-药物关系抽取和临床决策系统开发。其多模态特性(文本、图像、公式)为医疗大语言模型训练、知识图谱构建及智能教育系统开发提供了优质资源。

#知识图谱#人工智能
多语种语音识别数据集,小语种语音训练数据,WAV音频JSON标注,15种语言语音数据,高质量语音数据集,语音识别系统开发,多语言语音AI模型训练,全球化语音应用,智能语音助手开发

本文介绍了一个高质量多语种语音识别数据集,包含15种语言的1500个WAV格式音频文件(约50小时)。数据集采用专业录音设备录制,涵盖日常对话、商务交流等多种场景,并配有精确的JSON格式文本标注。语言覆盖印欧、亚洲、南岛等主要语系,每种语言提供100个样本(约3.3小时)。该数据集具有音频质量高、标注精准、场景多样等优势,适用于多语言语音AI模型训练和全球化语音应用开发,为语音识别系统研发提供了

#人工智能#语音识别#音视频
5198 张高清无人机火灾烟雾图像数据集 | 多场景标注 | AI 火灾检测训练用

【摘要】本文介绍了一个专为AI火灾检测训练设计的5198张高清无人机图像数据集。该数据集覆盖城市、农村、森林、农田、田埂和工厂等多场景真实火情,包含火焰与烟雾的精确标注。相比传统固定监控,无人机拍摄具有视角广、机动性强等优势,能有效提升火灾早期预警能力。数据集支持目标检测、场景分类、语义分割等多种AI模型训练,提供YOLO、COCO等多种标注格式。通过数据增强和平衡采样策略,可显著提升模型对不同环

#无人机#人工智能
5000道生物科学英文题目数据集:面向研究生教育的综合性生物题库资源,涵盖分子生物学、生物化学、细胞生物学等核心领域,助力AI模型训练与智能教育系统开发

本文介绍了一个包含5000道生物科学英文题目的综合性题库数据集,专为研究生教育设计。该数据集采用JSON格式存储,涵盖分子生物学、生物化学、细胞生物学等20多个生物科学分支,包含选择题和开放题等多种题型。每道题目配有标准答案、详细分析和知识标签,数据经过专业审核,确保学术准确性和教育价值。该数据集可作为生物科学教育资源和AI模型训练基础,支持智能评估系统开发与个性化教育方案制定。

#人工智能
1747张YOLO标注奶牛水牛识别数据集:精准标注跨场景动物检测模型训练专用计算机视觉数据集,助力智慧农业与畜牧业AI算法研发

在当今数字化农业和智慧畜牧业快速发展的时代背景下,动物识别与检测技术已成为现代农业生产中不可或缺的核心技术之一。随着人工智能技术的不断进步,计算机视觉在畜牧业管理、动物健康监测、智能养殖系统等领域展现出巨大的应用潜力。然而,高质量、大规模、精准标注的动物识别数据集仍然是制约相关AI算法发展的关键瓶颈。本数据集专门针对奶牛和水牛这两种重要的经济动物,通过精心收集和标注,为研究人员和算法开发者提供了一

#人工智能#计算机视觉
    共 11 条
  • 1
  • 2
  • 请选择