logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CDC 数据实时同步入湖的技术、架构和方案汇总

最近,对“实时摄取 CDC 数据同步到数据湖”这一技术主题作了一系列深入的研究和验证,目前这部分工作已经告一段落,本文把截止目前(2024年5月)的研究结果和重要结论做一下梳理和汇总。为了能给出针对性的技术方案,我们必须收敛话题,对一些技术选型做了限制,在数据库这一侧,我们以 MySQL 作为示例进行演示(PG 等其他主流数据库理论上均可行),在数据湖这一侧,我们重点关注的是 Apache Hud

文章图片
#架构
企业应用集成与开源ESB产品ServiceMix和Mule介绍

企业应用集成与开源ESB产品ServiceMix和Mule介绍议程•企业对应用集成的内在需求•企业IT设施面临的问题•企业应用集成的架构方案•ESB的角色与职责•ServiceMix简介–ServiceMix架构–ServiceMix组件概览–ServiceMix实战–Demo•Mule简介–Mule的工作机理–Mule组件概览–Mule实战–Demo企业对应用集成的内在需求•多数企业成立初期,其

#activemq
Spring如何加载XSD文件(org.xml.sax.SAXParseException: Failed to read schema document错误的解决方法)

本文原文连接:http://blog.csdn.net/bluishglc/article/details/7596118 ,转载请注明出处!有时候你会发现过去一直启动正常的系统,某天启动时会报出形如下面的错误:org.xml.sax.SAXParseException: schema_reference.4: Failed to read schema document 'http://www

文章图片
#spring#jar#maven
Hive JDBC连接Tez(AM)容器长期不释放问题的解决方法

Hive JDBC连接Tez(AM)容器长期不释放问题的解决方法问题有这样一个问题是很常见的:如果我们的Hive使用默认使用Tez作为执行引擎,当我们使用IDE通过Hive JDBC连接时,会出现在一个很“有趣”的想象:即如果我们不断开这个JDBC连接,则在Yarn上会持续有有一个Tez的AM容器持续存在,只有当端开JDBC连接时,这个容器才会被释放。关于Tez在Yarn的资源布局,可参考这篇..

#hive#容器
机器学习中的数据集切分

应用有监督的机器学习算法时,需要将数据集切分成训练数据集和测试数据集两部分。在《Handson ML》一书中,使用了numpy.random.permutation,对数据集进行了切分。其思路是:利用permutation生成shuffle后记录索引(打乱顺序的索引集合),然后按比例

#sklearn
C++基础:const 的五种用法和含义

C++中const关键字有五种主要用法:1)修饰变量使其不可修改;2)修饰指针时可限制指针本身或指向的值;3)修饰引用时只能限制引用值不可修改;4)修饰成员函数形成"常量成员函数",表示该函数不会修改对象状态。其中const引用作为函数参数是C++接口设计的标准实践,既能避免值拷贝又防止意外修改。指针和引用的const语义差异显著,引用天然具有不可重新绑定的特性。const的正

文章图片
#c++
Hadoop/Yarn的日志清理

Hadoop/Yarn的日志清理可以分为两个子话题讨论:Hadoop/Yarn的本地日志(非Yarn Container生成的日志)Yarn的Container生成的日志我们这里讨论的日志清理并不是通过定时的日志删除命令去实现,这一做法显然优雅, 具体的做法下面会分别进行讨论。1. Hadoop/Yarn本地日志的清理Hadoop/Yarn使用log4j进行日志输出,所以对于它们本地日志的清理,最

文章图片
#hadoop#yarn
时间序列大数据平台建设经验谈

版权声明:本文由本人撰写并发表于2018年1月刊的《程序员》杂志,本文版权归《程序员》杂志所有,未经许可不得转载。引言在大数据的生态系统里,时间序列数据(Time Series Data,简称TSD)是很常见也是所占比例最大的一类数据,几乎出现在科学和工程的各个领域,一些常见的时间序列数据有:描述服务器运行状况的Metrics数据、各种IoT系统的终端数据、脑电图、汇率、股价、气象和天

文章图片
机器学习中的数据集切分

应用有监督的机器学习算法时,需要将数据集切分成训练数据集和测试数据集两部分。在《Handson ML》一书中,使用了numpy.random.permutation,对数据集进行了切分。其思路是:利用permutation生成shuffle后记录索引(打乱顺序的索引集合),然后按比例

#sklearn
集成 OpenLDAP 与 Kerberos 实现统一认证 (1):整合后台数据库

本文首发于 InfoQ,写作本系列文章的背景是我们要在大数据平台/企业数据湖场景下给出中心化的用户身份认证方案。此前,我们实现过Windows AD + Kerberos的集成方案,由于Windows AD是LDAP和Kerberos的双重实现,这种天然优势使得Windows AD可以实现真正意义上的(大数据集群的)Kerberos账号与企业用户账号的统一管理。当我们想在OpenLDAP + Ke

文章图片
#数据库
    共 33 条
  • 1
  • 2
  • 3
  • 4
  • 请选择