logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

动态渲染页面智能嗅探:机器学习判定AJAX加载触发条件

功能:对目标页面HTML进行解析,提取潜在的AJAX请求端点和参数集合。实现要点使用或lxml提取页面中带有xhrajax等关键词的脚本片段。预处理接口列表,封装为统一的请求描述对象。

文章图片
#机器学习#ajax
深度学习在DOM解析中的应用:自动识别页面关键内容区块

本文介绍了如何在爬取东方财富吧()财经新闻时,利用深度学习模型对 DOM 树中的内容区块进行自动识别和过滤,并将新闻标题、时间、正文等关键信息分类存储。文章聚焦爬虫整体性能瓶颈,通过指标对比、优化策略、压测数据及改进结果,展示了从单页耗时约 5 秒优化到约 2 秒的过程,极大提升了工程效率。

文章图片
#深度学习
AI大模型训练数据告急?用Redis+动态代理采集数据集

本文提出一种高效分布式爬虫架构,结合Redis任务队列、多线程并发和动态代理IP技术,解决大语言模型训练数据获取难题。核心方案采用Redis作为中央调度器,实现URL任务的分发与去重;配合Python线程池提高单机抓取效率;通过隧道代理规避反爬限制。文章详细解析了生产者-消费者模型、Redis阻塞式队列等技术细节,并提供了完整的代码实现。该架构具备横向扩展能力,能持续获取高质量垂直领域数据,为AI

#redis#数据库#分布式 +1
用 Playwright + 容器化做分布式浏览器栈:调度、会话管理与资源回收

本文介绍如何利用Playwright和Docker构建分布式浏览器爬虫系统。针对传统爬虫难以处理JavaScript渲染页面的问题,通过容器化Playwright实例解决资源消耗大、启动慢等问题。系统采用代理IP访问新闻网站(如ZAKER和第一财经),实现高并发抓取。核心包括:1)Docker封装Playwright实例;2)会话管理机制;3)代理集成方案。文章还总结了代理认证失败、页面超时等常见

文章图片
#分布式#浏览器#容器
解决Firefox代理身份验证弹出窗口问题:C#和Selenium实战指南

如果在实际应用中遇到任何问题,请参考Selenium和C#的官方文档,或者在开发者社区中寻求帮助。在使用Selenium和C#进行网页抓取时,遇到代理服务器的身份验证弹出窗口是一个常见的问题。本文将提供一个实战指南,帮助开发者解决这个问题,并介绍如何在代码中设置代理IP、UserAgent和Cookies。上述代码展示了如何使用C#和Selenium设置Firefox浏览器的代理身份验证,并包括了

文章图片
#firefox#c##selenium
Jupyter:数据分析和网络爬虫开发利器

总的来说,Jupyter的多功能性、交互式环境和对多种编程语言的支持使其成为数据分析和网络爬虫开发的不可或缺的工具。它能够在Web浏览器中无缝集成代码、数据和可视化,结合代理IP使用等功能,赋予用户高效分析数据、创建引人注目的报告和从网络中收集有价值信息的能力。网络爬虫是用于从网站中提取数据的自动化程序。Jupyter是一个开源的Web应用程序,对于数据分析师和开发人员来说,它已经成为一种备受欢迎

文章图片
#jupyter#数据分析#爬虫 +1
用Python+Selenium下载网盘特定标题的PDF文件

我想要从百度云网盘上下载一些有特定标题的PDF文件,用来做数据分析。但是百度云网盘的下载速度很慢,而且有些文件需要付费才能下载。所以我决定用Python和Selenium来写一个爬虫程序,自动化地搜索和下载我想要的文件。为了防止被百度云网盘检测到,我还使用了代理IP来隐藏我的真实IP地址。

文章图片
#python#selenium
容器化 + Playwright:我怎么让 100 个浏览器同时跑还不宕机

这篇文章分享了如何优化Playwright多浏览器实例并发采集的性能问题。作者发现单容器运行20个浏览器实例就会导致CPU满载和内存溢出,通过容器拆分(每个容器仅运行10个实例)、代理分流(为每个实例配置独立代理和UA)和异步分批启动(延迟启动避免瞬时峰值)三大优化措施,最终实现了100个浏览器实例稳定运行8小时以上。优化后启动耗时降低58%,CPU占用减少20%,内存用量下降40%。文章强调性能

文章图片
#容器#浏览器#集群
AIGC数据引擎的基石:图库抓取架构从单机到云原生的演进与实战

在AIGC时代,提示词数据就是训练和优化模型的“原油”。从单机的简陋尝试,到分布式的代理与指纹对抗,再到云原生下的弹性调度,爬虫架构的每一次跃迁,本质上都是在解决商业层面的效率与成本问题。构建一套高可用的云原生数据采集引擎,才是AI团队保持长期竞争力的关键底座。

文章图片
#AIGC#云原生
Node.js Axios爬虫代理配置指南与内存泄漏排查

本文介绍了如何优化Node.js + Axios + 爬虫代理的企业级爬虫性能。核心痛点在于默认配置会导致频繁TCP握手和内存泄漏,通过引入连接池和Agent复用技术可显著提升性能。文章提供了详细代码实现,包括单例Agent模式、Axios封装和高并发示例,并对比了优化前后的性能差异:响应时间降低68%,TCP握手频率大幅减少,内存占用保持稳定。最后给出内存泄漏排查清单,强调企业级爬虫"

文章图片
#node.js#爬虫
    共 34 条
  • 1
  • 2
  • 3
  • 4
  • 请选择