logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

向RAGFlow中上传文档到对应的知识库

【代码】向RAGFlow中上传文档到对应的知识库。

#python#开发语言
python 调用Dify接口的示例

【代码】python 调用Dify接口的示例。

#python#开发语言
PYTHON访问hive数据,并返回DataFrame代码封装

之前写过py访问oracle的代码,这次在之前的基础上加工而成,把过程记录下来,方便日后查阅!def pyVisitHive(params ,sql_text):from pyhive import hiveimport pandas as pdconn=hive.Connection(host = params.get('ip'),port = params.get('port'),

#python#hive#开发语言
python 计算变量的IV值

在机器学习的二分类问题中,IV值(Information Value)主要用来对输入变量进行编码和预测能力评估。特征变量IV值的大小即表示该变量预测能力的强弱,在面对大量变量的情况下,可计算各个变量的IV值,取IV值大于某个固定值的变量参与到模型中去,这样不仅保留了特征携带的信息量。且提高了模型效率,此外有利于给客户解释和汇报。2. IV值计算(python 代码如下)#######...

文章图片
#python#机器学习#numpy
数据分析师必备的8个思维框架

什么是框架性思维?它是由一个个的思维框架积累而来。本文介绍分析常用的几个思维框架。一些职位描述中会要求分析师有框架性思维,能够被考察的是思维框架,通过思维框架判断框架性思维能力。笔者查阅了多篇文章,定义思维框架为:思考问题的套路,本质是在不断发现问题分析问题解决问题的过程中沉淀的行之有效的方法论。不同行业、不同岗位思维框架不同,不同领域、不同学科思维框架不同。

文章图片
#数据分析
数据挖掘之特征工程

人们观测或者收集到的数据样本是高维的,但与学习任务密切相关的也许仅仅是某个低维分布,即高维空间中的一个低维“嵌入”。且在高维情形下出现的数据样本稀疏、距离计算困难等问题是所有机器学习方法共同面临的严重障碍,因此特征工程的目的是最大限度地从原始数据中提取特征以供算法和模型使用。不仅减少过拟合、减少特征数量(降维)、提高模型泛化能力,而且还可以使模型获得更好的解释性,增强对特征和特征值之间的理解,加快

#数据挖掘#决策树#机器学习
在linux文件下执行.kjb文件和trans文件

先找到kitchen.sh文件所在的位置新建一个sh文件(runKjbScript.sh),在文件中添加如下代码:kitchen.sh路径/kitchen.sh -file= 文件路径/kjb文件名称.kjb -log=日志名称.log可以配置成定时任务:例如每天下午17:30运行就可以写成:30 17 * * * cd /runKjbScript文件路径 && ./runKjbS

#oracle#hive#linux
linux 系统下执行R文件

随着数据量的激增, 在linux系统环境下执行数据分析模型显得很重要,本文来总结下在linux系统下执行R文件的步骤:step01:创建R脚本,例如:Rtest.Rstep02: 创建shell脚本, 例如 runRtest.sh,内容为:#!/bin/bashRscript 路径/Rtesh.Rstep03: 给shell脚本赋权限(在控制台输入命令: chmod 755 run...

总论:认识大数据挖掘

数据挖掘有人说,大数据是新时代的黄金和石油,掌握了它,就掌握了新经济的命脉;用好了它,就拥有了新战略型资源。数据挖掘,就是从大量的,不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们实事先不知道的,但又是潜在有用的信息和知识的过程。大数据研发的目的是利用大数据技术去发现大数据的价值并将其应用到相关领域,通过大数据的处理相关问题促进社会的发展。数据挖掘的内容集中在几个方面上,即

#数据挖掘#人工智能
    共 12 条
  • 1
  • 2
  • 请选择