logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

使用docker部署基于selenium和chrome-headless的爬虫

无论是测试还是爬虫的一些工作,有时候都会用到selenium去对chrome执行自动化操作,这里介绍一下如何使用docker快捷方便的部署相关应用。1. selenium+chrome镜像通过docker search selenium我们发现,有一个docker镜像叫做selenium/standalone-chrome。看名字应该是包含了selenium和chrome,按照之前的方式我们...

#docker#selenium#chrome +1
使用Python处理json字符串中的非法双引号

工作中数据清洗时遇到以下情况:a = '{"地区": "湖南", "描述": "精通软件开发、"数据挖掘"和分布式"}'由于读取出的json字符串中包含有非法双引号,在使用json.loads()处理的时候报错json.decoder.JSONDecodeError: Expecting ',' d

#json#python
JavaScript格式化输出并展示Json对象

效果就是下面这样子,开始还以为代码很复杂,实际上一句JSON.stringify(data, null, "\t")就解决了。具体代码如下:<!DOCTYPE html><html lang="en"><head><meta charset="UTF-

#json
Ubuntu16.04 64位系统下安装Xmind

思维导图软件Xmind的中国经销商网站上可以下载到Linux版本的Xmind,虽然头脑风暴等高级功能需要开启VIP,但是基本的流程图对大多数人还是够用了。点击下载 Xmind for Linux下载后放到自己指定目录下,unzip xmind-pro-8-linux.zip解压后进入目录执行sudo sh ./setup.sh安装完成后,32位系统用户进入XMind_i386目录,64为系...

#ubuntu#linux
理解Kafka中各组件作用

1. 调度服务-zookeeper启动zookeeper-server服务运行如下语句:bin/zookeeper-server-start.sh config/zookeeper.properties2. 缓存服务-kafkakafka可使用多个服务器(节点)缓存消息数据,可称为经纪人、broker、kafka,每个kafka-server拥有唯一的broker id。 ...

#kafka
(转贴)git subtree用法

一.使用场景例如,在项目Game中有一个子目录AI。Game和AI分别是一个独立的git项目,可以分开维护。为了避免直接复制粘贴代码,我们希望Game中的AI子目录与AI的git项目关联,有3层意思:1.AI子目录使用AI的git项目来填充,内容保持一致。2.当AI的git项目代码有更新,可以拉取更新到Game项目的AI子目录来。3.反过来,当Game项目的AI子目录有变更,还可以推送这些...

#git
开源内网穿透工具NPS使用指南-转发本地http服务到公网

开源内网穿透工具NPS使用指南0 引言1 服务端的安装使用2 客户端的安装使用3 转发本地的http服务0 引言NPS是一款带有Web界面的网穿透工具,之前叫 easyProxy,使用go语言编写,轻量级且功能强大,开源免费使用。支持 tcp、udp 流量转发,支持内网 http、socks5 代理,同时支持 snappy 压缩 (节省带宽和流量)、站点保护、加密传输、多路复用、header 修改

#网络#云服务#服务器
Python Requests中异常总结

1. 连接超时服务器在指定时间内没有应答,抛出 requests.exceptions.ConnectTimeoutrequests.get('http://github.com', timeout=0.001)# 抛出错误requests.exceptions.ConnectTimeout: HTTPConnectionPool(host='github.com', port=80...

关于MySQL中的事务、回滚(rollback)、提交(commit)

0 场景需要连续对同一数据表进行增删改操作时,我们会分别执行多条sql语句。此时可能会出现两类问题:所有的语句执行完成后,发现其中一句执行错了某一句执行完成后,后悔了想要重新执行遇到上述问题,能够时光倒流和吃后悔药吗?MySQL的Innodb引擎中,为我们提供了事务功能,事务通过rollback和commit来操作。1 配置/开始事务1.1 配置事务MySQL客户端shell...

#mysql
python工程师(web开发和爬虫方向)-面试经历

一、这家公司主要对亚马逊商品进行数据采集,问的问题比较杂。是否了解线程的同步和异步?是否了解网络的同步和异步?链表和顺序表储存时各自有什么优点?使用redis搭建分布式系统时如何处理网络延迟和网络异常?数据仓库是什么?假设有一个爬虫,从网络上获取数据的频率快,本地写入数据的频率慢,使用什么数据结构好?你是否了解谷歌的无头浏览器?你是否了解MySQL数据库的几种引擎?redis数据库

#爬虫#python#django +1
    共 12 条
  • 1
  • 2
  • 请选择