老程序员一叶知秋个人主页

@cfy_fantasyxx

老程序员一叶知秋

2023-02-05 21:12:49 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

我的AI之旅

这篇文章回顾了作者探索AI技术的历程与心得。从ChatGPT初现时的震撼，到尝试各类AI工具和开源框架的"粗粮阶段"，再到自主开发AI-base系统，作者经历了从被动使用到主动整合AI的过程。关键转折点在于"小龙虾"(OpenClaw)的出现，它首次实现了AI自主拆解任务和组织工作流的能力，颠覆了人机协作模式。作者特别强调AI记忆系统的重要性，认为真正的AI应用应该像人类一样能够持续积累知识和经验

#AI

数据仓库实践杂谈（七）——数据标准化

数据标准化是数据仓库建立过程中的另一个难点和重点。可以说如果企业没有建立自己的数据标准，基本上是无法建立统一的、整合的数据仓库模型的。数据标准有很多理论标准的，比如，国家标准有一个叫《数据元的规范与标准化》。这里叫数据元，不是我们前面讨论的元数据，虽然有点接近。简单的来说，这个标准就是描述了如何描述一个数据。比起对表和字段的描述更基础了一层。本人之前有一段时间专门为几个银行做了数据标准的事情。对此

#数据仓库 #大数据 #数据分析

数据仓库实践杂谈（六）-数据校验

从数据源卸载出来的数据，进入仓库之前的第一个步骤就需要进行数据校验。数据校验的前提是在元数据中建立一套合适的数据标准。而其中，最重要的是确定每个字段的取值范围。基于这个数据标准，同步建立一套程序用于检查将要进入仓库的数据的有效性。

#数据仓库 #大数据 #etl

数据仓库实践杂谈-（五）-ETL

ETL是建立数据仓库的核心，也是工作量最大的部分。所谓ETL，前面也提到过：Extract-Transform-Load的缩写。抽取-转换-加载。也就是从源系统抽取出来，经过一系列的加工（变形），最后加载到数据仓库中。只要做过数据加工的人都会知道，这个Transform（转换）过程实际上是由很多处理步骤有顺序、有条件的组成的。

#大数据 #数据仓库

数据仓库实践杂谈（十八）——关于报表

报表绝对是让人痛苦的东西。格式复杂、需求多变，没事就增加几个。虽然说起报表感觉很老土，但确实是需求量最大的一个东西。貌似做报表多的人，基本上都会做一个自己的工具，至少也会做一个引擎，按照自己的理解用一种结构化加动态的方式去定义所需要的报表，可以灵活的选择所需要的数据，设计展现样式生成报表。当年有幸开始给银行做报表，一不小心做了很多年，也算是总结出一套报表处理的机制。

#数据库 #大数据 #java +2

数据仓库实践杂谈（十）——拉链处理

现代业务系统处理的数据越来越大，尤其大型金融机构、电商平台等，账户表，订单表都是庞大的。数据仓库要保留历史变更情况，需要每天加载当天的变更数据到仓库。相比整个全量数据来说，每天变化的数据还是属于少数的。比如千万账户级别的银行每天交易量一般也就是几十万条，也就意味着账户表中涉及变动的记录最多也就是几十万条。电商订单表可能数千万条，但每天新增以及之前订单变化的，可能不到一百万条。这种情况下，拉链方式做

#大数据 #数据仓库 #etl

数据仓库实践杂谈（十三）——逻辑数据模型（数仓模型）

曾经有几年逻辑数据模型很火热，大家都研究这个。道理上来说，逻辑数据模型并不仅仅是用在数据仓库。在OLTP系统中建立良好的数据模型更加重要。但只不过这东西从实践上被推广开来，很大程度是原NCR/Teradata适用于金融行业的数据模型在某大型国有银行项目实施后传播开来。确实是好东西，感觉一下子给我打开了天眼，原来系统设计还能这样做。

#大数据 #数据仓库 #etl

数据仓库实践杂谈（十八）——关于报表

#数据库 #大数据 #java +2

到底了