logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

向RAGFlow中上传文档到对应的知识库

【代码】向RAGFlow中上传文档到对应的知识库。

#python#开发语言
python 调用Dify接口的示例

【代码】python 调用Dify接口的示例。

#python#开发语言
PYTHON访问hive数据,并返回DataFrame代码封装

之前写过py访问oracle的代码,这次在之前的基础上加工而成,把过程记录下来,方便日后查阅!def pyVisitHive(params ,sql_text):from pyhive import hiveimport pandas as pdconn=hive.Connection(host = params.get('ip'),port = params.get('port'),

#python#hive#开发语言
python 计算变量的IV值

在机器学习的二分类问题中,IV值(Information Value)主要用来对输入变量进行编码和预测能力评估。特征变量IV值的大小即表示该变量预测能力的强弱,在面对大量变量的情况下,可计算各个变量的IV值,取IV值大于某个固定值的变量参与到模型中去,这样不仅保留了特征携带的信息量。且提高了模型效率,此外有利于给客户解释和汇报。2. IV值计算(python 代码如下)#######...

文章图片
#python#机器学习#numpy
数据分析师必备的8个思维框架

什么是框架性思维?它是由一个个的思维框架积累而来。本文介绍分析常用的几个思维框架。一些职位描述中会要求分析师有框架性思维,能够被考察的是思维框架,通过思维框架判断框架性思维能力。笔者查阅了多篇文章,定义思维框架为:思考问题的套路,本质是在不断发现问题分析问题解决问题的过程中沉淀的行之有效的方法论。不同行业、不同岗位思维框架不同,不同领域、不同学科思维框架不同。

文章图片
#数据分析
数据挖掘之特征工程

人们观测或者收集到的数据样本是高维的,但与学习任务密切相关的也许仅仅是某个低维分布,即高维空间中的一个低维“嵌入”。且在高维情形下出现的数据样本稀疏、距离计算困难等问题是所有机器学习方法共同面临的严重障碍,因此特征工程的目的是最大限度地从原始数据中提取特征以供算法和模型使用。不仅减少过拟合、减少特征数量(降维)、提高模型泛化能力,而且还可以使模型获得更好的解释性,增强对特征和特征值之间的理解,加快

#数据挖掘#决策树#机器学习
总论:认识大数据挖掘

数据挖掘有人说,大数据是新时代的黄金和石油,掌握了它,就掌握了新经济的命脉;用好了它,就拥有了新战略型资源。数据挖掘,就是从大量的,不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们实事先不知道的,但又是潜在有用的信息和知识的过程。大数据研发的目的是利用大数据技术去发现大数据的价值并将其应用到相关领域,通过大数据的处理相关问题促进社会的发展。数据挖掘的内容集中在几个方面上,即

#数据挖掘#人工智能
数据预处理-上

数据挖掘数据预处理是对原始数据进行处理,消除噪声和缺失值,建立数据仓库的过程即是数据预处理的过程。数据的重要性在大多数情况下都超过了算法的重要性,质量欠佳的数据很难得到有用的分析结果,因此数据预处理是数据分析过程中至关重要的环节。数据预处理的完整工作应当包括数据清洗、数据集成、数据变换和数据归约处理。在数据挖掘的整个运作过程中,数据预处理是最重要的一个步骤,通常分析人员会花费60%-80%的经历在

#数据挖掘#数据仓库#数据分析
大数据探索

数据挖掘数据探索是数据分析过程中必不可少的一个环节,数据探索可以有2个层面的理解:一是利用工具,对数据特征进行查看;二是根据数据特征,感知数据价值,以决定是否需要对各个字段进行探索,或者决定如何加工这些字段以发挥数据分析的价值。在进行数据分析时,需要明确每个字段的数据类型,数据类型代表了数据的业务含义,分为3个类型:区间型数据(Interval)数值型数据的取值都是数值型,其大小代表了对象的状态,

#big data#数据挖掘#数据分析
到底了