logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

由 Apache Flink Committer 执笔,四位 PMC 成员审核 Apache Flink 知识图谱

由 Apache Flink Committer 执笔,四位 PMC 成员审核,将 Flink 9 大技术版块详细拆分,突出重点内容并搭配全面的学习素材。PDF 版本内含大量补充链接一、Streaming Processing Connects二、Architcture三、State Management四、DataStream五、Libraries六、Table API& SQL七、De

[Maven] java和scala混合打包

【代码】[Maven] java和scala混合打包。

文章图片
#scala#java#maven
使用RNN进行文本分类

本文使用RNN对IMDB数据集进行情感语义分析。

什么是数据湖?

文章目录一、什么是数据湖?1.1、数据湖概述1.2、为什么需要数据湖?1.3、数据湖架构1.3.1、来源1.3.1.1、同质来源1.3.1.2、异构来源1.3.1.3、数据湖架构主要使用以下来源:1.3.2、数据处理层1.3.3、目标1.4、数据湖的优点与风险1.4.1、优点1.4.2、风险二、数据湖与数据仓库关注我的公众号【宝哥大数据】,更多干货一、什么是数据湖?1.1、数据湖概述是一个集中式存

#数据仓库#架构
《Elasticsearch 源码解析与优化实战》第9章:Search流程

文章目录简介索引和搜索建立索引执行搜索search type分布式搜索过程协调节点流程1\. Query阶段2\. Fetch阶段执行搜索的数据节点流程1\. 响应Query请求2\. 响应Fetch请求小结简介GET操作只能对单个文档进行处理,由_ index、_type和id 三元组来确定唯一文档。 但搜索需要一种更复杂的模型,因为不知道查询会命中哪些文档。找到匹配文档仅仅完成了搜索流程的一半

#elasticsearch
SparkSQL自定义外部数据源

文章目录1.1、External DataSource  标签模型编码中需要从HBase表读写数据,编写 HBaseTools 工具类,其中提供 read 和write 方法,传递参数读写表的数据,但是能否实现类似SparkSQL读写MySQL数据库表数据时如下格式:1.1、External DataSource  自从Spark 1.3的发布,Spark SQL开始正式支持外部数据源。Spark

标签开发:统计型标签

一、统计标签介绍  在 人口属性(用户特征)和商业属性(消费特征) 的标签中大部分是规则匹配类型标签和统计类型标签,选取3个统计类型标签开发模型:年龄段标签、消费周期标签和支付方式标签。统计型标签是需要使用 聚合函数计算 后得到标签,比如最近3个月的退单率,用户最常用的支付方式等等,主要开发三个统计类型标签:1.1、统计类型标签与规则匹配类型标签区别规则匹配类型标签,按照字段关联依据业务字段的值,

一文彻底了解元数据管理与架构设计

一、元数据治理在整个数据治理体系的位置数据治理很火,在 DAMA 数据管理知识体系指南中,数据治理位于 “数据管理车轮图” 的正中央,如下图:而元数据管理,正是十大数据管理领域其中很重要的一环。数据资产治理的前提是要有数据,并且要求数据类型全、量大,并尽可能的覆盖数据流转的各个环节。元数据的采集和管理就变得尤为重要,它是数据资产治理的核心底座。二、什么是元数据所谓元数据,就是 “关于数据的数据”。

#big data#数据仓库#数据库
深度学习入门、进阶教程

一、框架1.1、TensorFlow1.2、PaddlePaddle1.3、Pytorch

DWS 层-访客主题宽表的计算

设计一张 DWS 层的表其实就两件事:维度和度量(事实数据)➢ 度量包括 PV、UV、跳出次数、进入页面数(session_count)、连续访问时长➢ 维度包括在分析中比较重要的几个字段:渠道、地区、版本、新老用户进行聚合1.1、需求分析与思路➢ 接收各个明细数据,变为数据流➢ 把数据流合并在一起,成为一个相同格式对象的数据流➢ 对合并的流进行聚合,聚合的时间窗口决定了数据的时效性➢ 把聚合结果

    共 90 条
  • 1
  • 2
  • 3
  • 9
  • 请选择