🟩 一、项目背景与目标

传统评论采集工具依赖登录态(Cookie 或 TOKEN),存在:

  • 登录风险高;

  • TOKEN 容易失效;

  • 插件兼容性差;

  • 无法后台运行。

已形成接口,可以再任意系统直接调用

我设计的 纯 C# 架构网页版本采集系统,实现了:

用大龙虾看视频看评论,提取评论?省省吧 不消耗TOKEN 还

免登录采集、后台运行、任务调度、数据入库与关键词命中分析。

🟦 二、系统总体架构

模块 技术栈 功能说明
前端页面 ASP.NET WebForms 展示任务列表、关键词配置、采集状态、评论数量统计
后端逻辑层 C# + HttpClient + Regex + String函数 模拟请求 DOUYIN 接口、解析评论数据、任务调度
数据库层 Access / SQL Server 存储视频信息、评论内容、关键词命中结果
任务调度模块 多线程 + 循环控制 支持并行采集、自动重试、状态更新
数据分析模块 LINQ + SQL 查询 评论统计、关键词命中率分析、导出报表

🟧 三、免登录采集原理

免登录的核心是利用 DOUYIN 的公开接口与页面请求参数。 系统通过分析视频页的网络请求,提取出关键参数:

  • 视频 ID (aweme_id)

  • 评论分页参数 (cursor)

  • 请求数量 (count)

  • 时间戳与签名字段

然后构造标准请求:

csharp

string url = $"https://www.douyin.com/aweme/v1/comment/list/?aweme_id={videoId}&cursor={offset}&count=20";
HttpClient client = new HttpClient();
client.DefaultRequestHeaders.Add("User-Agent", "Mozilla/5.0");
client.DefaultRequestHeaders.Add("Referer", "https://www.douyin.com/");
string json = await client.GetStringAsync(url);

返回结果为 JSON 格式,系统使用 RegexJsonDocument 提取评论内容、昵称、点赞数、时间戳等字段。

🟩 四、采集逻辑与代码类型说明

整个采集过程用到的核心 C# 技术点如下:

技术点 用途 示例说明
字符串函数 (Substring, IndexOf, Replace) 用于提取视频 ID、分页参数、关键词等 从 HTML 或 JSON 中截取指定字段
正则表达式 (Regex.Match, Regex.Matches) 用于解析评论内容、用户昵称、点赞数等 匹配 "content":"...""nickname":"..." 等字段
循环结构 (for, while) 用于分页采集与批量任务执行 循环获取下一页评论直到返回为空
条件判断 (if, switch) 控制采集流程与错误处理 判断返回状态码、是否继续分页
多线程 (Task, ThreadPool) 并行采集多个视频评论 提高采集速度与稳定性
异常处理 (try-catch) 捕获网络错误或解析异常 保证任务不中断
数据库操作 (OleDbCommand, SqlCommand) 写入 Access / SQL Server 插入评论数据与任务状态
标签提取逻辑 用于从 HTML 中获取 或 内容 通过正则或字符串定位标签内容
数据清洗函数 去除 HTML 标签与特殊字符 Regex.Replace(content, "<.*?>", "")
时间戳转换 将 UNIX 时间转为可读格式 DateTimeOffset.FromUnixTimeSeconds(ts).ToLocalTime()

这些代码类型构成了整个采集引擎的核心逻辑:

字符串定位 → 正则解析 → 循环分页 → 数据入库 → 状态更新。

🟦 五、任务调度与并行采集逻辑

网页端展示的任务列表(如你系统中的“关键词拓客任务”界面)对应后端的任务队列。 每个任务包含:

  • 搜索关键词

  • 视频数量

  • 评论数量

  • 命中数量

后端调度逻辑:

  1. 关键词搜索模块:根据关键词批量获取视频 ID。

  2. 任务分配模块:将视频分配到线程池队列。

  3. 采集执行模块:并行请求评论接口,实时入库。

  4. 状态监控模块:更新任务进度与评论数量。

  5. 命中分析模块:匹配关键词,计算命中率。

🟩 六、数据库设计与数据分析

数据表 字段示例 功能
VideoList VideoID, Keyword, CommentCount 存储视频基础信息
CommentList CommentID, VideoID, NickName, Content, LikeCount, TimeStamp 存储评论内容
KeywordHit Keyword, VideoID, HitCount 统计关键词命中率

Access 用于轻量部署,SQL Server 用于大规模采集。 两者结构一致,可通过连接字符串切换。

🟧 七、免登录架构的优势

优势 说明
安全性高 无需登录,无账号风险
稳定性强 不依赖 TOKEN,不会失效
可后台运行 多线程调度,断点续采
扩展性好 可接入多平台(DOUYIN、小红书、快手)
易维护 纯 C# 架构,模块化设计

🟩 八、未来扩展方向

模块 规划方向
评论分析 增加情感分析与关键词聚类
数据导出 支持 Excel / CSV 一键导出
多平台支持 接入小红书、快手评论采集
数字员工集成 自动执行采集任务、定时汇报结果
API 服务化 提供外部调用接口,实现 SaaS 化

🟦 九、结语

这套 DOUYIN 评论采集网页系统 的核心价值在于:

免登录、稳定、可后台运行、纯 C# 架构、轻量数据库支持。

它不仅解决了传统采集工具的登录与 TOKEN 问题,也为数字员工系统提供了一个可复用的采集引擎。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐