
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
业务需求最近想通过爬虫抓取某电商商品页的价格。页面如下:实践然后就兴冲冲的写了段代码来爬取网页数据。# 厨房卫浴href = 'http://search.gome.com.cn/search?question=%E5%8E%A8%E6%88%BF%E5%8D%AB%E6%B5%B4'res = requests.get(href)# print(res.text)soup = Beautiful
1、lsof -i:端口号2、netstat -tunlp|grep 端口号都可以查看指定端口被哪个进程占用的情况工具/原料linux,windowsxshell方法/步骤【步骤一】lsof -ilsof -i 用以显示符合条件的进程情况,lsof(list open files)是一个列出当前系统打开文件的工具。以root用户来执行lsof -i命令,如下图...
以球员信息为例,player索引的player type包含5个字段,姓名,年龄,薪水,球队,场上位置。index的mapping为:"mappings": {"player": {"properties": {"name": {"index": "not_analyzed",...
业务数据保存在mysql中,定期用Sqoop导入到HDFS的ODS层,DWD层的业务数据进行简单的数据清洗并降维(退化维度)需求1:求GMV成交总额思路:在ADS层建每日GMV总和表ads_gmv_sum_daydrop table if exists ads_gmv_sum_day;create table ads_gmv_sum_day(`dt` string COM...
这是一个很容易出现的问题,网上很多内容将mysql驱动包上传到不对的路径导致出现问题。cloudera manager添加hive时报错找不到jdbc driver报错JDBC driver cannot be found. Unable to find the JDBC database jar on host把包放入这个目录,注意文件名要保持一致 网上又很多需要把这个驱动包放到cp ...
这是一个很容易出现的问题,网上很多内容将mysql驱动包上传到不对的路径导致出现问题。cloudera manager添加hive时报错找不到jdbc driver报错JDBC driver cannot be found. Unable to find the JDBC database jar on host把包放入这个目录,注意文件名要保持一致 网上又很多需要把这个驱动包放到cp ...
需要注意的是pandas处理数据,数字格式的null 会被显示为nan,所以需要简单的处理一下:str_obj.replace("nan", "null")完整代码如下:# -*- coding: utf-8 -*-import pandas as pdfrom datetime import datetimefrom impala.dbapi import connectfrom impala.
selectday,dayofweek(day)as dw1,date_add(day,1 - dayofweek(day))as Su_s -- 周日_start,date_add(day,7 - dayofweek(day))
下面是常用的在Excel中比较两个Excel表格数据的方法,

如果不加FORCE,删除分区则是临时删除,并不会立马释放存储空间,如果需要立即释放这些分区所占用的磁盘空间,那就要执行DROP PARTITION FORCE,此时系统不会检查分区中是否有未完成的事务,分区会被直接删除,且无法恢复。







