logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Flink电商实时数仓(六)

dwd层其他的事实表都是从topic_db中去业务数据库一张表的变更数据,按照某些过滤后写入kafka的对应主题,它们处理逻辑相似且较为简单,可以结合配置表动态分流在同一个程序中处理。有点类似我们前面实现DIM层的动态配置。

文章图片
#flink#数据库#java
Flink实时电商数仓之旁路缓存

撤回流是指流式处理过程中,两表join过程中的数据是一条一条跑过来的,即原本可以join到一起的数据在刚开始可能并没有join上。

文章图片
#flink#缓存#大数据
Flink实时电商数仓之Doris框架(七)

大规模并行处理的分析型数据库产品。使用场景:一般先将原始数据经过清洗过滤转换后,再导入doris中使用。

文章图片
#flink#大数据
达梦数据库接口开发(日期格式转换)

在接口开发过程中,如果数据源的数据是连续插入进入源表中,并且当新数据到达时,老数据不会被删除。而业务处理过程中,只需要最新一批的数据时,我们可以对数据的create_time进行开窗倒序排序,然后只取rn=1的数据,保证每次取得的结果都是最新数据。其中还分两种不同的业务需求:

文章图片
#数据库#java#开发语言 +1
数据治理入门

通过设定各种治理项指标,对指标进行考核评分排名,结果导向倒逼开发人员不断改进数据治理的各项问题。优点:成本低,直击问题本身。提供一个大而全的平台,将数据建模、数据开发、数据运营、指标可视化…优点是好用,缺点是开发周期长,租用费用贵。

文章图片
#数据仓库#大数据
搭建hadoop集群的常见问题及解决办法

全称为Hadoop distributed file system, 是一个分布式文件系统,通过目录树来定位文件。适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不能改变。优点:高容错性:通过增加副本的形式,提高容错性;副本丢失后会自动补全适合处理大数据:数据规模达到PB级别,文件数量达到9亿个可以构建在廉价机器上缺点:不适合低延时数据访问,比如毫秒级的存储数据。无法高效对大量小文

文章图片
#hadoop#大数据#分布式
mac系统使用opencv时报错cant‘t open in read mode

在下载了python3.7和人脸识别所需的opencv-python和opencv-contrib-python后,我尝试在我的mac笔记本的pycharm软件中运行一段调用摄像头进行人脸识别的python脚本。

文章图片
#opencv#macos#人工智能
初步认识大模型训推一体机

大模型训推一体机” 这个概念指的是用于大规模机器学习模型训练和推理的一体化系统或平台。在人工智能领域,特别是深度学习中,随着模型规模的增大(比如参数量达到数十亿甚至更多),对计算资源的需求也急剧增加。因此,开发专门的硬件和系统来支持这些大模型的训练和部署变得尤为重要。随着技术的发展,训推一体机将会成为构建和部署复杂AI应用的关键基础设施之一。

文章图片
#语言模型#AIGC
初步认识大模型训推一体机

大模型训推一体机” 这个概念指的是用于大规模机器学习模型训练和推理的一体化系统或平台。在人工智能领域,特别是深度学习中,随着模型规模的增大(比如参数量达到数十亿甚至更多),对计算资源的需求也急剧增加。因此,开发专门的硬件和系统来支持这些大模型的训练和部署变得尤为重要。随着技术的发展,训推一体机将会成为构建和部署复杂AI应用的关键基础设施之一。

文章图片
#语言模型#AIGC
初步认识大模型训推一体机

大模型训推一体机” 这个概念指的是用于大规模机器学习模型训练和推理的一体化系统或平台。在人工智能领域,特别是深度学习中,随着模型规模的增大(比如参数量达到数十亿甚至更多),对计算资源的需求也急剧增加。因此,开发专门的硬件和系统来支持这些大模型的训练和部署变得尤为重要。随着技术的发展,训推一体机将会成为构建和部署复杂AI应用的关键基础设施之一。

文章图片
#语言模型#AIGC
到底了