logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LDM-PDM-SDM三个名词讲清数据模型设计

LDMLogical Data Model逻辑数据模型。PDMPhysical Data Model物理数据模型。SDMSource Data Model映射关系模型。

文章图片
#etl
数据资产盘点-资产目录

数据资产目录是数据管理层面的输出,如果需要进一步将数据资产在应用系统或数据平台管理落地,再结合数据结构、表结构、数据存储的物理层级,形成数据字典。数据资产目录是数据架构的基础,它列出了企业所有的数据资产,包括数据的来源、类型、格式、用途等。能管控,企业内部数据肯定是能管控的,还包括能进行管控的外部数据,比如第三方数据、上下游企业的相关的数据、市场数据。数据资产盘点的方法和步骤,主要归纳为6个阶段:

文章图片
智能风控:概论《拥抱大模型》

大模型相对传统模型具有一定的技术优势,以客户画像领域为例,传统模型是一系列的不同算法的小模型,例如以统计算法计算九资、以网络图谱计算客户关系、以树模型计算客户偏好,其数据结果均为固定化的评级评分等,但是大模型则是通用算法来感知描述上述画像,并且能够进一步感知风险浓度、欺诈态势等。目前看,大模型在金融行业的应用主要是,依托大模型人机交互能力的客服领域的应用,依托大模型生成能力的办公与代码领域的应用,

#大数据
智能风控:概论《拥抱大模型》

大模型相对传统模型具有一定的技术优势,以客户画像领域为例,传统模型是一系列的不同算法的小模型,例如以统计算法计算九资、以网络图谱计算客户关系、以树模型计算客户偏好,其数据结果均为固定化的评级评分等,但是大模型则是通用算法来感知描述上述画像,并且能够进一步感知风险浓度、欺诈态势等。目前看,大模型在金融行业的应用主要是,依托大模型人机交互能力的客服领域的应用,依托大模型生成能力的办公与代码领域的应用,

#大数据
数据挖掘模型——逻辑回归模型——python代码

b:递归特征消除:主要思想是反复构建模型,选出最好的(最差的)特征(可根据系数来选),将选出的特征放在一边,在剩余的特征里重复这个过程,直至遍历所有特征。c:稳定性:一种基于二次抽样和选择算法相结合较新的方法,主要思想是:在不同的数据子集和特征的子集上运行特征选择算法,不断重复,最终汇总特征选择结果。该过程中特征被消除的次序即是:特征的排序。因此,也是一种寻找最优特征子集的贪心算法。a:通过F检验

文章图片
#数据挖掘#逻辑回归#python
数据挖掘模型——BP神经网络——python代码

逆向传播时,将输出误差按某种子形式,通过隐层向输出层返回,并分摊给隐层的节点与输入层节点,获得各层单元的参考误差,作为修改各单元权值的依据。输入样本数据,网络正向传播,得到中间层与输出层的值,比较输出层的值与教师信号的误差,用误差函数判断误差是否小于误差上限。算法开始时,给定学习次数上限,初始化学习次数为0,对权值和阙值赋予小的随机数,一般在[-1,1]。BP算法的学习过程由:信号的正向传播及误差

文章图片
#数据挖掘#神经网络#python
数据挖掘模型——K-Means聚类算法——python代码

K-Means算法,一般需先度量样本间(欧几里得距离、曼哈顿距离、闵可夫斯距离) ,样本与簇间(样本到簇中心的距离)及簇与簇间距离(簇中心距离 )。K-Means算法是典型的基于距离的非层次聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K,采用距离作为相似性评价指标,即认为两个对象的距离越近,其相似度越大。使用误差平方和SSE作为度量聚类质量的目标函数,对两种不同的聚类结果,选择误差平方

文章图片
#数据挖掘#算法#kmeans
数据挖掘---熵权法的基本原理

一、熵权法介绍  熵权法是一种客观赋权方法,其基本思路是根据指标变异性的大小来确定客观权重。  依据的原理:指标的变异程度越小,所反映的信息量也越少,其对应的权值也应该越低。二、熵权法步骤(1)对数据进行预处理假设有n个要评价的对象,m个评价指标(已经正向化)构成的正向化矩阵如下:对数据进行标准化,标准化后的矩阵记为Z,Z中的每一个元素:判断Z矩阵中是否存在负数,如果存在的话,需要对X使用另外一种

#数据挖掘
到底了