logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

用Mitmproxy搭建个人数据抓取代理服务器

在网络爬虫和数据采集领域,传统的 HTTP 请求库(如 requests、aiohttp)往往面临着复杂的反爬机制挑战:动态加载内容、JS 加密、Cookie 验证、API 签名等。而 Mitmproxy 作为一款强大的中间人代理工具,能够直接拦截和修改客户端与服务器之间的所有 HTTP/HTTPS 流量,为数据抓取提供了一种全新的思路和解决方案。

#爬虫
Crawlee 2026:Node.js爬虫框架的新王者

2026年Node.js爬虫领域迎来重大变革,Apify公司开发的Crawlee框架凭借卓越工程设计、强大反爬能力和AI适配性成为行业新标准。文章详述了Crawlee的崛起历程,重点介绍了其2026年革命性更新——AI驱动的StagehandCrawler功能,允许开发者用自然语言描述爬取需求。作为全功能企业级框架,Crawlee具备智能队列管理、先进反检测技术、统一API接口等核心优势,在电商监

#爬虫
浏览器插件开发 × 爬虫:一个被低估的技术方向

摘要:浏览器插件爬虫技术正成为数据采集领域的新方向,它通过直接利用真实浏览器环境,有效解决了传统爬虫面临的动态内容渲染、登录态维护和反爬检测等核心难题。该技术具有五大优势:天然绕过反爬机制、零成本处理动态内容、无缝复用登录态、强大的交互能力以及简易部署。尽管Manifest V3带来一些限制,但通过技术创新仍能实现稳定运行。当前应用场景涵盖电商监控、招聘聚合、社交媒体分析等多个领域,未来与AI融合

#爬虫
浏览器插件开发 × 爬虫:一个被低估的技术方向

摘要:浏览器插件爬虫技术正成为数据采集领域的新方向,它通过直接利用真实浏览器环境,有效解决了传统爬虫面临的动态内容渲染、登录态维护和反爬检测等核心难题。该技术具有五大优势:天然绕过反爬机制、零成本处理动态内容、无缝复用登录态、强大的交互能力以及简易部署。尽管Manifest V3带来一些限制,但通过技术创新仍能实现稳定运行。当前应用场景涵盖电商监控、招聘聚合、社交媒体分析等多个领域,未来与AI融合

#爬虫
自动化录屏 + 截图:打造爬虫调试的上帝视角

本文系统介绍了爬虫开发中自动化录屏+截图技术的核心价值与实现方案。文章首先分析了传统调试方法的三大痛点:时序问题不可见、反爬机制难复现、环境差异导致玄学bug,进而提出自动化录屏技术作为解决方案,其核心价值在于提供完整的视觉回放、精确时间戳和跨环境一致性证据。随后详细讲解了基于Playwright的技术栈选型,包括自动化浏览器驱动、录屏工具和辅助系统的搭配,并给出从环境准备到基础录屏、智能截图、错

#爬虫
进阶|电商数据整合:爬虫爬取评论 + API 获取商品基础信息,用 Pandas 做数据分析

本文介绍了电商数据整合与分析的全流程方法,包括爬虫爬取评论、API获取商品信息、Pandas数据处理三大核心操作。通过京东商品案例,详细演示了静态页面评论爬取、API调用签名生成、数据清洗整合等关键技术实现。基于整合数据,开展价格销量相关性、评分分布、关键词提取等多维度分析,挖掘出商品优化、定价策略和用户运营等方面的业务洞察。该方法突破了单一数据维度局限,实现了结构化与非结构化数据的联动分析,为电

文章图片
#信息可视化#python#爬虫
用Playwright拦截和修改网络请求:不只是抓包那么简单

Playwright提供了超越传统抓包工具的网络拦截能力,能深度控制浏览器网络层。其核心是通过page.route()方法实现请求拦截,支持修改请求头、请求体,篡改响应数据,模拟API响应以及中止请求等操作。Playwright直接集成浏览器DevTools协议,具有无侵入性、自动化友好等优势,支持HTTP/HTTPS、WebSocket等所有现代协议。高级应用场景包括GraphQL精准拦截、We

无头浏览器性能优化:内存占用从2GB降到200MB

【摘要】本文针对无头浏览器在批量并发场景下内存飙升(单实例超2GB)导致OOM的问题,提出全链路优化方案。通过拆解五大根因(实例泄漏、冗余组件、缓存堆积、内存无限制、上下文污染),从六大维度实施优化:1)精简启动参数剔除GPU/插件等模块,基础内存降至300MB;2)拦截非必要资源请求,减少60%网络加载;3)严格管控生命周期,复用实例+强制销毁;4)硬限制V8堆内存上限;5)隔离多任务上下文;6

#性能优化#爬虫
CI/CD流程在跨境电商项目中的应用

跨境电商系统面临多区域部署、高并发、强合规等挑战,传统发布模式难以支撑业务增长。CI/CD通过自动化构建、测试和部署,能显著缩短发布周期、降低故障率。文章分析了跨境电商典型痛点,阐述了CI/CD核心价值,并设计了包含静态检查、安全门禁、灰度发布等环节的专属流水线。特别针对微服务迭代、大促备战、多区域发布等场景提出解决方案,强调质量左移、观测闭环等最佳实践。指出CI/CD是跨境电商实现高效稳定全球交

#ci/cd#跨境电商
苏宁/国美API对比:传统电商API的差异化特点分析

本文对比分析了苏宁与国美两大传统电商的API体系差异。苏宁API采用分布式架构,覆盖全品类全链路,注重数据全面性和全生态开放;国美API则聚焦家电垂直领域,采用轻量化设计,强调数据精准性和垂直生态共建。两者均体现了传统电商API以线下零售场景为核心、全渠道融合为特点,与纯线上电商API形成鲜明差异。未来,传统电商API将向轻量化、智能化、场景化和生态化方向发展,持续强化线下零售基因的数字化延伸优势

    共 154 条
  • 1
  • 2
  • 3
  • 16
  • 请选择