
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
数据预处理——标记社交媒体(如微博)爬取数据的重复项
主要针对问题:在微博爬取大量数据时,数据会出现重复项,标记重复项为黄色;第二层,依据重复项中评论数,保留评论数最多的一条为绿色,删除其余多余项。

到底了

该用户还未填写简介
暂无可提供的服务
主要针对问题:在微博爬取大量数据时,数据会出现重复项,标记重复项为黄色;第二层,依据重复项中评论数,保留评论数最多的一条为绿色,删除其余多余项。
