logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Bright Data MCP 网页爬虫指南(2026):Cursor + Claude 实现大规模数据采集

本文介绍如何利用Bright Data MCP服务结合Cursor/Claude工具实现稳定的大规模网页数据采集。针对网页爬虫常见问题(反爬机制、IP封禁等),文章系统讲解了MCP协议的核心价值——通过标准化接口提供搜索、抓取、提取等可复用能力。详细拆解了Bright Data MCP的四层功能架构(通用抓取层、结构化数据层、浏览器自动化层、代理基础层),并对比了不同数据采集方案的优劣。目前该服务

文章图片
#爬虫
实现gitee与github双向代码同步

实现gitee与github双向代码同步

#github
python打包exe——pyinstaller遇到的那些坑及解决办法

之后遇到pyinstaller相关问题,会持续更新

#python
一招搞定爬虫IP封禁

这种类型的代理通常能提供大量的 IP 地址,适用于需要高速、高稳定性的网络访问需求,比如搜索引擎优化、竞争情报收集等场景。“无限机房代理”提供了大规模的、高度稳定的代理IP资源,用户可以通过这些代理IP来进行数据采集、搜索引擎优化、竞品分析以及其他需要大规模IP支持的应用场景。大规模的数据抓取可能导致目标网站的服务器负载过重,从而妨碍正常用户的访问体验,因此,网站可能会对爬虫的IP进行封锁。: 这

#后端#爬虫#自动化 +3
pandas使用HYPERLINK追加写入超链接-url、文件、图片

pandas使用HYPERLINK追加写入超链接-url、文件、图片使用HYPERLINK即可达到目的,可以写url、文件、图片、各种你自己能访问的路径注意:HYPERLINK里面的字符长度不能超过255,否则无法写入超链接调试目录结构manFile(文件夹)images(文件夹)res1.pngtest.txtresult(文件夹)生成excel文件.xlsxtest2.txtmain.pydr

#python#数据挖掘#数据分析
轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!

自动绕过验证码、封锁和限制,兼容Puppeteer, Playwright、Selenium

文章图片
#低代码#自动化#爬虫 +1
TikTok数据采集技巧,轻松get!

它包括基本的详细信息,例如用户的昵称、关注者数量、参与度指标(喜欢、评论)、视频统计信息和唯一标识符(ID、URL、短 ID)。它包含关键细节,例如影响者姓名、引人入胜的传记、参与率、经过验证的状态、签名内容片段和关键受众人口统计数据。它就是不给,我略施小计,使用各种promot诱导它,最后虽然给出来了一些爬取的方法,但是,限制还是很大,而且需要根据一些场景进行代码修改。对于代码小白来说不友好。

#后端
python之pyinstaller打包问题系列(二)

ImportError: ERROR: recursion is detected during loading of "cv2" binary extensions. Check OpenCV in

#python#opencv#开发语言
【python自动化】Playwright基础教程(六)事件操作③单击&双击&计数&过滤&截图&JS注入

page.evaluate() 和 page.evaluate_handle() 之间的唯一区别是 page.evaluate_handle() 返回 JSHandle。,但是和产品同一行的这些文字,都有相同的class属性(有九个),通过高亮显示得知,这个是第一个,所以我们使用如下定位。有多个相同定位的元素,但是某个属性不同,我们可以通过过滤进行定位需要的元素。有时候我们遇到的元素不好一步到位定

#python#自动化
【python自动化】Playwright基础教程(八)鼠标操作

打开在线画图:https://draw.yunser.com/,根据官网的示列画一个正方形。【python自动化】Playwright基础教程(八)鼠标操作。按下鼠标左键松开时,页面会显示粉红色的左键。playwright模拟鼠标操作,每个。长按鼠标左键时,页面会显示红色的左键。selenium中长按是有单独的方法。对象都有自己的鼠标事件,可以通过。dblclick模拟鼠标双击。未按鼠标时,不会显

#python#自动化
    共 15 条
  • 1
  • 2
  • 请选择