简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
文章目录1.为什么变量分布要呈现正态分布?2.判断数据是否服从正态分布的指标:偏态与峰度3.如何调整原始分布趋于正态分布?正态性当谈论正态性时,即数据应该看起来像正态分布。这很重要,因为几个统计检验都依赖于此(例如t统计)。单变量正态性虽然不能确保多变量正态性(这是我们想要的),但它有帮助。在大样本数据中,如果我们解决正态性,我们就避免了很多其他问题(例如异方差),所以这就是我们进行这种分析的主要
文章目录引言一、预训练语言模型1.为什么要进行预训练?引言 本节将按照思维导图逐步了解BERT语言模型(基于transformer的网络结构)。一、预训练语言模型 大规模的预训练语言模型的模型参数量呈几何倍数的增长趋势。下面我们了解BERT预训练的原理。1.为什么要进行预训练? 基于词向量的预训练方式并不是在BERT中首次出现。...
文章目录引言一、评论预处理1.评论去重2.数据清洗二、评论分词1.分词、词性标注、去除停用词2.提取含名词的评论3.绘制词云查看分词效果三、构建模型1.评论数据情感倾向分析1.1 匹配情感词1.2 修正情感倾向1.3 查看情感分析效果引言 本文主要针对用户在电商平台上留下的评论数据,对其进行分词、词性标注和去除停用词等文本预处理。基于预处理后的数据进行情感分析,并使用LDA主题模型提取评论关键信
文章目录一、LightGBM简介1. LightGBM提出的动机2.XGBoost的缺点及LightGBM的优化2.1 XGBoost的缺点2.2 LightGBM的优化二、LightGBM的基本原理1、基于Histogram的决策树算法1.1 直方图算法1.2 直方图做差加速2.带深度限制的 Leaf-wise 算法3.单边梯度采样算法4.互斥特征捆绑算法4.1 解决哪些特征应该绑在一起4.2
转载:https://blog.csdn.net/TeFuirnever/article/details/93724227转载:https://blog.csdn.net/TeFuirnever/article/details/89842795文章目录fig, ax = plt.subplots(figsize = (a, b))解析plt.subplot()函数解析fig, ax = plt.s
文章目录一、TSNE参数解析 TSNE的定位是高维数据可视化。对于聚类来说,输入的特征维数是高维的(大于三维),一般难以直接以原特征对聚类结果进行展示。而TSNE提供了一种有效的数据降维模式,是一种非线性降维算法,让我们可以在2维或者3维的空间里展示聚类结果。一、TSNE参数解析 t-SNE是一个可视化高维数据的工具。它将数据点之间的相似性转换为联合概率,并试图最小化低维嵌入数据和高维数据联合
文章目录官网链接import matplotlib.pyplot as pltplt.pie(x, explode=None, labels=None, colors=None, autopct=None, pctdistance=0.6, shadow=False, labeldistance=1.1,startangle=0, radius=1, counterclock=True, wedg
heatmap(热力图)是识别预测变量与目标变量相关性的方法,同时,也是发现变量间是否存在多重共线性的好方法。中文文档seaborn.heatmap(data, vmin=None, vmax=None, cmap=None, center=None, robust=False, annot=None, fmt='.2g', annot_kws=None,linewidths=0, linec
文章目录###python入门介绍####特点1.可读性强2.简洁:python的简洁性让开发难度与和代码幅度大幅降低3.面向对象4.免费开源5.可移植性和跨平台:python会被编译成与操作系统有关的二进制代码,然后再解释执行6.丰富的库-标准库与第三方库7.可扩展性,可嵌入到C和C++语言-胶水式语言####什么时候不应该用pythonpython解释执行,性能较低;一些影响性能的功能可以使用
文章目录1. 分类器评价指标公式2.实例1. 分类器评价指标公式AUC与ROC2.实例#!/usr/bin/python# -*- coding:utf-8 -*-import numpy as npfrom sklearn.metrics import accuracy_scorefrom sklearn.metrics import precision_score, recall_score,