亿牛云爬虫专家个人主页

@ip16yun

亿牛云爬虫专家

2023-08-09 11:04:22 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

解析规则交给 AI，是效率提升还是系统隐患？

本文通过A/B实验对比人工解析规则与大模型生成规则在真实爬虫场景中的表现。实验结果显示，人工规则在首次成功率（97% vs 92%）、页面结构调整后的稳定性（90% vs 65%）以及多地区访问可靠性方面均优于大模型。研究发现大模型倾向于语义正确而非结构稳定，且代理IP会放大规则不稳定性。结论建议将大模型作为规则生成辅助工具，而非生产环境唯一来源，关键解析仍需人工确认和系统监控，以实现AI与工程实

#python

图像与视频页面的数据提取：从OCR到关键帧抽取的一场“视觉接管”

本文探讨了图像和视频内容的数据提取策略，针对小红书、抖音等视觉平台的复杂内容结构，提出了一套多模态爬取方案。文章从OCR文本识别、关键帧抽取和元数据整合三个核心模块展开，通过代理IP控制、动态加载处理和视觉分析技术，实现对图像视频内容的精准提取。方案包含数据采集层、视觉分析层和语义整合层，能够有效提升数据完整度至90%以上，为社交媒体、电商分析等领域提供了可行的技术思路和实现方法。

从简单脚本到精细调度：执行环境控制的三代演进图谱

本文回顾了从简单粗暴的浏览器自动化脚本到构建完整执行环境管理体系的演化历程。作者初期仅满足于"能跑就行"的基础代码，随着规模扩大遭遇IP封禁、UA识别等问题，陷入不断打补丁的混乱阶段。在经历大规模封禁后，团队重构为三层架构：环境模板层定义需求、构建器实现统一配置、任务执行层专注业务逻辑。最终形成可描述、可复现的浏览器环境管理体系，通过模块化设计解决了代理、Cookie、指纹等复

#前端 #浏览器 #python

简明指南：使用Kotlin和Fuel库构建JD.com爬虫

爬虫，作为一种自动化从网络上抓取数据的程序，广泛应用于数据分析、信息提取以及竞争对手监控等领域。不同的实现方式和编程语言都能构建出高效的爬虫工具。在本文中，我们将深入介绍如何充分利用Kotlin和Fuel库，构建一个简单而强大的JD.com爬虫，以便迅速获取商品的各种信息，包括名称、价格和评分等。Kotlin是一门基于JVM的静态类型编程语言，以其简洁、高效、安全、跨平台等特点而著称。这门语言不仅

#kotlin #爬虫 #开发语言

加速数据采集：用OkHttp和Kotlin构建Amazon图片爬虫

亚马逊，作为全球最大的电子商务平台之一，汇聚了数百万商品，涵盖图书、服装、电子产品等各领域。这些商品的图片不仅是消费者了解和选择商品的关键信息，对于开发者和研究者也是宝贵的数据资源，可用于图像识别、分类和分析等操作。然而，从亚马逊网站下载图片并非易事。其网页结构复杂，图片URL通过JavaScript动态生成，而亦存在反爬虫机制，对普通HTTP请求进行频繁访问可能导致IP封锁。最后，亚马逊网站响应

#okhttp #kotlin #爬虫

Jupyter：数据分析和网络爬虫开发利器

总的来说，Jupyter的多功能性、交互式环境和对多种编程语言的支持使其成为数据分析和网络爬虫开发的不可或缺的工具。它能够在Web浏览器中无缝集成代码、数据和可视化，结合代理IP使用等功能，赋予用户高效分析数据、创建引人注目的报告和从网络中收集有价值信息的能力。网络爬虫是用于从网站中提取数据的自动化程序。Jupyter是一个开源的Web应用程序，对于数据分析师和开发人员来说，它已经成为一种备受欢迎

#jupyter #数据分析 #爬虫 +1

读完这篇，你大概不会再随便选异步或协程了

本文探讨了品牌舆情监控中处理大规模数据抓取的技术方案选择。作者面临从抓取几十万小红书帖子到百万评论的挑战，对比了异步IO（asyncio+aiohttp）和多协程（gevent）两种主流方案。通过实验发现：异步IO更适合高并发场景，稳定性更好；gevent编写更简单但易受延迟波动影响。最终采用折中方案——用asyncio处理高并发请求和风控，用gevent进行数据解析和清洗。这一混合架构在实战中表

Selenium与Web Scraping：自动化获取电影名称和评分的实战指南

Selenium 是一个用于自动化浏览器操作的开源工具，能够控制浏览器执行点击、输入、滚动等操作，非常适合处理动态加载的网页。为了确保在抓取豆瓣电影数据时不被识别为爬虫，我们将使用代理 IP、设置 User-Agent 和 Cookie 来伪装请求。

#selenium #自动化

使用Python和Selenium库实现饭圈自动化投票

为了能够投出更多的票数，一些粉丝会采用一些技巧来绕过平台的限制，例如使用代理IP，以便用不同的IP地址来重复投票。如果有需要的小伙伴们可以参考一下。在这个文化中，粉丝们通常会通过多种方式来表达他们的爱意，例如关注偶像参与的综艺和电视剧，使用各种社交平台为偶像打榜投票，以争取让偶像获得更高的排名和更多的曝光。通过这段代码，我们可以使用代理IP来模拟不同用户的投票行为，自动遍历HTML表格并找到相应的

#python #selenium #自动化

如何使用Cheerio与jsdom解析复杂的HTML结构进行数据提取

在现代网页开发中，HTML结构往往非常复杂，包含大量嵌套的标签和动态内容。这给爬虫技术带来了不小的挑战，尤其是在需要精确提取特定数据的场景下。传统的解析库可能无法有效处理这些复杂的结构，而JavaScript环境下的Cheerio和jsdom提供了强大的工具，帮助开发者在Node.js环境中高效解析和处理HTML文档。

#html

共 24 条

请选择