logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

python 爬虫抓取某电商页面的商品价格

业务需求最近想通过爬虫抓取某电商商品页的价格。页面如下:实践然后就兴冲冲的写了段代码来爬取网页数据。# 厨房卫浴href = 'http://search.gome.com.cn/search?question=%E5%8E%A8%E6%88%BF%E5%8D%AB%E6%B5%B4'res = requests.get(href)# print(res.text)soup = Beautiful

linux如何查看端口被哪个进程占用?

1、lsof -i:端口号2、netstat -tunlp|grep 端口号都可以查看指定端口被哪个进程占用的情况工具/原料linux,windowsxshell方法/步骤【步骤一】lsof -ilsof -i 用以显示符合条件的进程情况,lsof(list open files)是一个列出当前系统打开文件的工具。以root用户来执行lsof -i命令,如下图...

#linux#运维#java +1
ElasticSearch java API - 聚合查询-聚合多字段聚合demo

以球员信息为例,player索引的player type包含5个字段,姓名,年龄,薪水,球队,场上位置。index的mapping为:"mappings": {"player": {"properties": {"name": {"index": "not_analyzed",...

#java#elasticsearch#数据库 +2
业务数据仓库指标分析

业务数据保存在mysql中,定期用Sqoop导入到HDFS的ODS层,DWD层的业务数据进行简单的数据清洗并降维(退化维度)需求1:求GMV成交总额思路:在ADS层建每日GMV总和表ads_gmv_sum_daydrop table if exists ads_gmv_sum_day;create table ads_gmv_sum_day(`dt` string COM...

#数据仓库#sqoop#数据分析 +2
CDH Mysql数据库 JDBC driver cannot be found.

这是一个很容易出现的问题,网上很多内容将mysql驱动包上传到不对的路径导致出现问题。cloudera manager添加hive时报错找不到jdbc driver报错JDBC driver cannot be found. Unable to find the JDBC database jar on host把包放入这个目录,注意文件名要保持一致 网上又很多需要把这个驱动包放到cp ...

#java#mysql#hive +2
CDH Mysql数据库 JDBC driver cannot be found.

这是一个很容易出现的问题,网上很多内容将mysql驱动包上传到不对的路径导致出现问题。cloudera manager添加hive时报错找不到jdbc driver报错JDBC driver cannot be found. Unable to find the JDBC database jar on host把包放入这个目录,注意文件名要保持一致 网上又很多需要把这个驱动包放到cp ...

#java#mysql#hive +2
pandas 处理 Excel 文件并将结果写入数据库中

需要注意的是pandas处理数据,数字格式的null 会被显示为nan,所以需要简单的处理一下:str_obj.replace("nan", "null")完整代码如下:# -*- coding: utf-8 -*-import pandas as pdfrom datetime import datetimefrom impala.dbapi import connectfrom impala.

Hive SQL 计算指定日期本周的第一天和最后一天

selectday,dayofweek(day)as dw1,date_add(day,1 - dayofweek(day))as Su_s -- 周日_start,date_add(day,7 - dayofweek(day))

比较两个Excel表格中的数据,不相同的高亮显示

下面是常用的在Excel中比较两个Excel表格数据的方法,

文章图片
Droris(强制)删除某一个分区数据

如果不加FORCE,删除分区则是临时删除,并不会立马释放存储空间,如果需要立即释放这些分区所占用的磁盘空间,那就要执行DROP PARTITION FORCE,此时系统不会检查分区中是否有未完成的事务,分区会被直接删除,且无法恢复。

    共 20 条
  • 1
  • 2
  • 请选择