2501_91704418 个人主页

@2501_91704418

2501_91704418

2025-08-20 17:34:43 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

JD商品评论数据集：真实用户评论情感分析数据，中文自然语言处理语料，学习深度学习模型训练、文本挖掘、电商推荐系统优化、产品评价分析、客户服务改进及自然语言处理教学

数据集中的评论涵盖了丰富的情感表达方式，从直接的情感词汇到隐含的情感暗示，为算法提供了多样化的学习样本。通过在这个数据集上的实验，研究人员可以比较不同算法的性能表现，探索中文情感分析的最佳实践，推动该领域的技术进步。此外，基于情感分析的用户反馈分类系统，可以自动将用户反馈按照情感倾向进行分类，为不同的处理流程提供支持，显著提升客户服务的整体水平。本JD笔记本评论情感分析数据集以其高质量的中文语料、

#自然语言处理 #学习 #深度学习

上海方言语音数据集：多领域对话语音数据采集，350小时高保真WAV格式，支持方言语音识别模型训练、ASR开发、智能助手交互、语音合成与理解，提供工业级合规数据获取

上海方言语音数据集包含350小时高保真WAV格式语音数据，采集自800余名上海本地母语者的真实对话，覆盖12个社会领域和2-5人不同规模的对话场景。该数据集具有真实对话生态、多维度多样性、专业场景深度覆盖等技术优势，适用于方言语音识别模型训练、多人对话分离、智能助手开发及语言学研究等应用场景。通过提供工业级合规的高质量语音数据，可有效支持方言地区智能化应用开发与文化遗产数字化保护。

#音视频 #无人机 #自动驾驶 +3

三万小时PB级院线级电影数据集，包含完整视频、音频和字幕多模态资源，专为视频大模型训练和多模态研究设计，适用于文生视频生成、影视剪辑、语义检索及智能内容管理

本文介绍了一个PB级院线级电影多模态数据集，包含3万小时高质量影视资源。该数据集将每部电影拆解为视频、音频和字幕三条独立数据流，保持严格时间对齐，并附带完整元数据信息。数据优势包括高清画质、专业内容、丰富场景和多模态拆解，适用于文生视频模型训练、多模态融合研究、视频检索和影视编辑等多种应用场景。该数据集解决了现有视频语料在质量、多样性和工程处理上的不足，为视频大模型训练提供了优质基座。

#音视频 #无人机 #自动驾驶 +3

多语种语音识别数据集,小语种语音训练数据,WAV音频JSON标注，15种语言语音数据,高质量语音数据集,语音识别系统开发,多语言语音AI模型训练,全球化语音应用,智能语音助手开发

本文介绍了一个高质量多语种语音识别数据集，包含15种语言的1500个WAV格式音频文件（约50小时）。数据集采用专业录音设备录制，涵盖日常对话、商务交流等多种场景，并配有精确的JSON格式文本标注。语言覆盖印欧、亚洲、南岛等主要语系，每种语言提供100个样本（约3.3小时）。该数据集具有音频质量高、标注精准、场景多样等优势，适用于多语言语音AI模型训练和全球化语音应用开发，为语音识别系统研发提供了

#人工智能 #语音识别 #音视频

1380亿条微博全量数据集，可用于自然语言处理、情感分析、舆情分析、推荐系统、用户行为数据、商业智能、人工智能模型训练、中文文本数据、地理位置信息、时间序列分析、JSON格式、机器学习、文本挖掘等

本文介绍了1380亿条微博全量数据集，该数据集涵盖2014年至今的长期采集，采用标准JSON格式存储。每条记录包含用户信息、微博内容、互动数据、地理位置等多维度结构化数据，并附带情感分析、地址识别等智能标注结果。该数据集具有规模大、时间长、质量高、覆盖广等优势，适用于自然语言处理、情感分析、舆情监测、推荐系统、商业智能等多个领域。数据来源真实可靠，经过脱敏处理，可通过典枢平台获取。该数据集为人工智

#人工智能 #自然语言处理 #json

#自然语言处理 #学习 #深度学习

超大规模多模态交通数据集：320TB+海量数据资源，涵盖行车视频、无人机航拍、第一视角步行骑行与道路监控，助力自动驾驶与智慧交通算法突破

超大规模多模态交通数据集（320TB+）为自动驾驶和智慧交通研究提供全面支持。该数据集包含5万小时行车视频、2000万帧行车图像（含200万鱼眼图像）、1万小时无人机航拍视频、2万小时步行视角视频、5000小时骑行视频及100万帧道路监控图像。其多模态特性覆盖机动车、非机动车及监控视角，支持自动驾驶算法训练、交通行为分析、智能监控和城市规划等应用。数据来源真实场景，经过严格质量控制，具有业界领先的

摘要本数据集整合了超过99,000条电子游戏用户评论，涵盖3,000多款游戏的多维度评价信息。数据包含三个核心文件：原始与复合情感评分数据、用户评论情感评分数据以及游戏变量与情感指标汇总数据。数据集采用VADER、TextBlob和Hugging Face三种算法计算情感分数，并提供清洗、翻译和预处理后的评论文本。数据优势包括多维度情感分析、大规模数据量、丰富的预处理信息和商业指标整合等。该数据

#python #人工智能 #信息可视化 +4

共 18 条

请选择