
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
现在大型网站的反爬策略越来越高明了,不仅是对IP访问频率、User-Agent请求头进行异常识别,还会分析IP地址、浏览器指纹、JS动态加载、API逆向、行为模式等方式各种设卡,动不动跳出五花八门的验证码,非常难搞。怎么应对反爬是个系统性问题,需要采取多种策略,而且涉及到法律法规,得遵守网站的robot协议,做一些自动化检测、采集少量公开数据没啥问题,对网站造成干扰的事情可不能干。我觉得使用Pyt
现在大型网站的反爬策略越来越高明了,不仅是对IP访问频率、User-Agent请求头进行异常识别,还会分析IP地址、浏览器指纹、JS动态加载、API逆向、行为模式等方式各种设卡,动不动跳出五花八门的验证码,非常难搞。怎么应对反爬是个系统性问题,需要采取多种策略,而且涉及到法律法规,得遵守网站的robot协议,做一些自动化检测、采集少量公开数据没啥问题,对网站造成干扰的事情可不能干。我觉得使用Pyt
网络爬虫是一种常见的数据采集技术,你可以从网页、 APP上抓取任何想要的公开数据,当然需要在合法前提下。爬虫使用场景也很多,比如:搜索引擎机器人爬行网站,分析其内容,然后对其进行排名,比如百度、谷歌价格比较网站,部署机器人自动获取联盟卖家网站上的价格和产品描述,比如什么值得买市场研究公司,使用爬虫从论坛和社交媒体(例如,进行情感分析)提取数据。与屏幕抓取不同,屏幕抓取只复制屏幕上显示的像素,网络爬
首先要介绍下什么是MCP,它的学名是“模型上下文协议”,你可以理解成它是连接AI大模型和外部工具的一个媒介,类似于电脑和互联网的关系,大模型原先只是封闭的大脑,有了MCP后它就连接了无数的信息、工具、数据,可以做更多的事情,比如Bright Data MCP能实现复杂网站的数据采集。总的来说,AI爬虫已经成为不可逆的趋势,完全不需要写代码处理网页,几乎零门槛,而且能很好的和一些智能体结合,做出不错
首先要介绍下什么是MCP,它的学名是“模型上下文协议”,你可以理解成它是连接AI大模型和外部工具的一个媒介,类似于电脑和互联网的关系,大模型原先只是封闭的大脑,有了MCP后它就连接了无数的信息、工具、数据,可以做更多的事情,比如Bright Data MCP能实现复杂网站的数据采集。总的来说,AI爬虫已经成为不可逆的趋势,完全不需要写代码处理网页,几乎零门槛,而且能很好的和一些智能体结合,做出不错
而vaex只会对数据进行内存映射,而不是真的读取数据到内存中,这个和spark的懒加载是一样的,在使用的时候 才会去加载,声明的时候不加载。Python中的pandas是大家常用的数据处理工具,能应付较大数据集(千万行级别),但当数据量达到十亿百亿行级别,pandas处理起来就有点力不从心了,可以说非常的慢。这里用的是hdf5文件,hdf5是一种文件存储格式,相比较csv更适合存储大数据量,压缩程
其次要用到Trae编辑器,这是一个AI原生的代码编辑器,是基于VsCode内核开发的,所以它有VsCode的几乎所有功能,最重要的是它支持直接部署大模型、智能体、MCP等,可以理解它就是一个超级编程智能体。首先是SQLite数据库,这是一个轻量化的开源数据库,它没有服务器,无需复杂的配置安装,就可以直接用,很适合制作AI应用。这是我将AI应用到实际工作的一个尝试,虽然有很多地方还不算满意,比如处理
其次要用到Trae编辑器,这是一个AI原生的代码编辑器,是基于VsCode内核开发的,所以它有VsCode的几乎所有功能,最重要的是它支持直接部署大模型、智能体、MCP等,可以理解它就是一个超级编程智能体。首先是SQLite数据库,这是一个轻量化的开源数据库,它没有服务器,无需复杂的配置安装,就可以直接用,很适合制作AI应用。这是我将AI应用到实际工作的一个尝试,虽然有很多地方还不算满意,比如处理
数据可视化是数据结果的直观展示,好的可视化图表非常具有说服力,制作可视化图表的工具多种多样,主要分为BI、Python、JS这三大类,BI代表工具有Tableau、PowerBI,Python可视化库有Seaborn、Matplotlib等,JS可视化工具有Echarts、D3等。这次推荐我常用的5个可视化软件工具,可视化能力都非常强大,值得入手试试。
pandas_profiling可以用一行代码生成详细的数据分析报告,与pandas深度结合,非常适合前期的数据探索阶段,以及结果数据报告批量化生产。熟悉pandas的童鞋估计都知道pandas的describe()和info()函数,用来查看数据的整体情况,比如平均值、标准差之类,就是所谓的探索性数据分析-EDA。如果你想更方便快捷地了解数据的全貌,泣血推荐一个python库:pandas_pr








