logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【python】爬虫篇:python连接postgresql(一)

本文记录一下最近在做的事情,会把思考过程和解决问题的方案写出来。当然,由于本人技术有限,所以可能并不是最好的方案,还请大家见谅!(黑猫白猫只要抓到老鼠,不就是好喵?~)前言:事情是这样的,有一些文章,我要根据文章内容做分类,具体怎么分我会单独开一篇文章来讲这件事情,这篇文章的重点不是分类,而是分类前的准备!1、已有的东西:手头上有一些文章的url(这里就不说是什么平台了,避嫌)存在数据...

#python#爬虫#postgresql
【hive】hive加载json数据和解析json(二)

超久超久没写博客了,近来的都是比较杂的临时活,大家都在喊他的活很急,最要紧,挺令我心烦的,不过有活总比没活做好吧!言归正传,本文讲的是hive解析json格式的数据最近处理了这么一份数据,json格式的,其实我之前写了一篇博客:hive加载json数据和解析json(一):https://blog.csdn.net/lsr40/article/details/7939916...

#hive
【数仓】数据仓库的数据质量任务监控(四)

我想在本文说说数据质量,ETL任务管理和监控数仓系列:【数仓】数据仓库的思考(一):https://blog.csdn.net/lsr40/article/details/105576047【数仓】数据仓库的建设(二):https://blog.csdn.net/lsr40/article/details/105639190【数仓】数据仓库的元数据管理(三):https://...

【数仓】数据仓库的思考(一)

对于数仓的概念非常大非常广泛,而且也并没有绝对正确的架构,只是有一定的方法论,一定的前人总结留下来的理论,所以我也不知道我这个系列会更多久,会更多少,反正我就把我现在对于数仓的想法记录下来,以后如果有更深的理解,再说吧~1、什么是数据仓库这个百度也能找到答案,但是我想说的是我的观点。数仓应该是一种数据整合,数据治理,将数据做成一种服务,对外提供。什么叫数据整合,大家应该听过数据孤...

【hadoop】HDFS块修复

背景HDFS场景下,有时候某些异常会导致丢失文件块!这时候,我们如何处理这些文件块,或者说这些文件块是否还有救?丢文件块是一种统一的说法,实际上是两种情况,一个是Corrupt blocks,一个是Missing replicas先说个背景知识:当我上传一个文件到HDFS,这个文件在HDFS上看得到,也可以正常使用,实际上在磁盘上会存两种类型的文件举例:1、blk_10737431192、blk_

java通过jdbc插入中文到mysql显示异常(问号或者乱码)

首先本人菜鸡一个,如果有说错的地方,还请大家指出予批评对于很多初学者来说,中文字符编码不相同的问题,是一个很烦躁的问题!!因为很多时候,我们并不知道,到底是哪一层出现了问题?在这里稍微做个总结~也怕自己今后忘了!! 其实也就三层:1、前端页面2、后台代码3、数据库记得考虑每一层之间的中文传递的问题,也就是前端传到后台,还有后台传到数据库!! 详解:1...

#java#mysql
【算法】数据结构:队列

今天来介绍队列!打算边学习,边把数据结构和一些常用的算法整理下,文章大概都会按照,是什么,为什么,怎么样来写,不算科普文章,更多是自己的一些思考和想法,还有找到一些优质资源的分享!一、队列是什么?队列和栈一样,都是受限制的数据结构,记住一点:FIFO(first input firstoutput),先进先出,就和排队一样(火车站买票,前面的人先买完离开)所以队列提供的api,应该类似enQueu

【python】爬虫篇:python对于html页面的解析(二)

我,菜鸡,有什么错误,还望大家批评指出!!前言:根据自己写的上一篇文章,我继续更第二部分的内容,详情请点击如下链接【python】爬虫篇:python连接postgresql(一):https://blog.csdn.net/lsr40/article/details/83311860本文主要介绍了python通过bs4(BeautifulSoup)和xpath两种方法来获取爬到的...

#python#爬虫
【Flink】SQL-Client运行yarn-session模式

flink有个sql-client.sh(如下的图,是从flink官网截图下来的)官网地址:https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/sqlClient.html具体如何配置sql-client和各种框架集成, 我就不搞了,大家有兴趣研究下官网或者百度下,我就试了下集成hive具体如何配置,请看以下

【数仓】数据仓库的元数据管理(三)

看了一些其他文章,有说定义的,有画图的,其中也不乏有一些很不错的文章但是其实没有一个统一的概念说明元数据管理的边界应该是什么,所以大家的做法会有所不同,有些元数据管理还会把数据质量模块也加入进来,有些可能是独立出来一个监控数据质量的模块,当然大家的目的都是想实现数仓的完整架构,只是各有各的方式和步骤~之前看过一句话,觉得很有意思:元数据管理其实就是解决,数据的哲学问题,我是谁,我...

    共 25 条
  • 1
  • 2
  • 3
  • 请选择