logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

数据预处理—4.为什么要趋近于正态分布?详解

文章目录1.为什么变量分布要呈现正态分布?2.判断数据是否服从正态分布的指标:偏态与峰度3.如何调整原始分布趋于正态分布?正态性当谈论正态性时,即数据应该看起来像正态分布。这很重要,因为几个统计检验都依赖于此(例如t统计)。单变量正态性虽然不能确保多变量正态性(这是我们想要的),但它有帮助。在大样本数据中,如果我们解决正态性,我们就避免了很多其他问题(例如异方差),所以这就是我们进行这种分析的主要

BERT模型—2.BERT模型预训练与微调

文章目录引言一、预训练语言模型1.为什么要进行预训练?引言  本节将按照思维导图逐步了解BERT语言模型(基于transformer的网络结构)。一、预训练语言模型  大规模的预训练语言模型的模型参数量呈几何倍数的增长趋势。下面我们了解BERT预训练的原理。1.为什么要进行预训练?  基于词向量的预训练方式并不是在BERT中首次出现。...

数据挖掘实战—电商产品评论数据情感分析

文章目录引言一、评论预处理1.评论去重2.数据清洗二、评论分词1.分词、词性标注、去除停用词2.提取含名词的评论3.绘制词云查看分词效果三、构建模型1.评论数据情感倾向分析1.1 匹配情感词1.2 修正情感倾向1.3 查看情感分析效果引言  本文主要针对用户在电商平台上留下的评论数据,对其进行分词、词性标注和去除停用词等文本预处理。基于预处理后的数据进行情感分析,并使用LDA主题模型提取评论关键信

#数据挖掘
机器学习—LightGBM的原理、优化以及优缺点

文章目录一、LightGBM简介1. LightGBM提出的动机2.XGBoost的缺点及LightGBM的优化2.1 XGBoost的缺点2.2 LightGBM的优化二、LightGBM的基本原理1、基于Histogram的决策树算法1.1 直方图算法1.2 直方图做差加速2.带深度限制的 Leaf-wise 算法3.单边梯度采样算法4.互斥特征捆绑算法4.1 解决哪些特征应该绑在一起4.2

fig, ax = plt.subplots(figsize = (a, b))解析 与 plt.subplot()函数解析

转载:https://blog.csdn.net/TeFuirnever/article/details/93724227转载:https://blog.csdn.net/TeFuirnever/article/details/89842795文章目录fig, ax = plt.subplots(figsize = (a, b))解析plt.subplot()函数解析fig, ax = plt.s

#matplotlib
TSNE—聚类结果可视化

文章目录一、TSNE参数解析  TSNE的定位是高维数据可视化。对于聚类来说,输入的特征维数是高维的(大于三维),一般难以直接以原特征对聚类结果进行展示。而TSNE提供了一种有效的数据降维模式,是一种非线性降维算法,让我们可以在2维或者3维的空间里展示聚类结果。一、TSNE参数解析  t-SNE是一个可视化高维数据的工具。它将数据点之间的相似性转换为联合概率,并试图最小化低维嵌入数据和高维数据联合

matplotlib—plt.pie绘制饼状图及参数详解

文章目录官网链接import matplotlib.pyplot as pltplt.pie(x, explode=None, labels=None, colors=None, autopct=None, pctdistance=0.6, shadow=False, labeldistance=1.1,startangle=0, radius=1, counterclock=True, wedg

seaborn—sns.heatmap绘制热力图

  heatmap(热力图)是识别预测变量与目标变量相关性的方法,同时,也是发现变量间是否存在多重共线性的好方法。中文文档seaborn.heatmap(data, vmin=None, vmax=None, cmap=None, center=None, robust=False, annot=None, fmt='.2g', annot_kws=None,linewidths=0, linec

python基础1

文章目录###python入门介绍####特点1.可读性强2.简洁:python的简洁性让开发难度与和代码幅度大幅降低3.面向对象4.免费开源5.可移植性和跨平台:python会被编译成与操作系统有关的二进制代码,然后再解释执行6.丰富的库-标准库与第三方库7.可扩展性,可嵌入到C和C++语言-胶水式语言####什么时候不应该用pythonpython解释执行,性能较低;一些影响性能的功能可以使用

#python
5.2 分类器的评价指标—accuracy、precision、recall、F1、Fβ、AUC与ROC

文章目录1. 分类器评价指标公式2.实例1. 分类器评价指标公式AUC与ROC2.实例#!/usr/bin/python# -*- coding:utf-8 -*-import numpy as npfrom sklearn.metrics import accuracy_scorefrom sklearn.metrics import precision_score, recall_score,

    共 31 条
  • 1
  • 2
  • 3
  • 4
  • 请选择