logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LLM显存分析与高效微调方法原理:P-Tuning、LoRA、QLoRA

混合精度、训练显存分析、激活显存分析,高效微调方法介绍,如P-Tuning、LoRA等。

LLM量化方法:ZeroQuant、LLM.int8()、SmoothQuant、GPTQ、AWQ、QLoRA

介绍了主流的LLM量化方法,包括ZeroQuant、LLM.int8()、SmoothQuant、GPTQ和AWQ。

深度学习:词向量和句向量(Embedding)

文章目录Word VectorSkip-grams model with negative samplingContinuous Bag of WordsDocument VectorWord Vector词向量模型可表示为含有一层隐藏层的前向神经网络,词向量为输入层到隐藏层的参数,即参数矩阵的行向量.语料库总词数为|V|embedding后的单词维度为n输入层为n维向量输入层到隐藏...

AdaBoost与指数损失

自适应增强(Adaptive Boosting,AdaBoost)是Boosting算法簇的先祖,通过集成多个弱模型成为一个强模型。H(x;Θ)=∑τατh(x;θτ)H(\pmb x;\Theta)=\sum_{\tau}\alpha_{\tau}h(\pmb x;\theta_{\tau})H(xxx;Θ)=τ∑​ατ​h(xxx;θτ​)式中hτh_\tauhτ​和ατ\alpha_...

#机器学习
梯度提升决策树GBDT及其sklearn实践

GBDT原理推导、分类和回归实例、skearn

#决策树#机器学习
关键词权重度量:TF-IDF算法原理及其Python实现

文章目录TFIDFTF-IDF与信息论TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率) 是用于信息检索与文本挖掘的重要算法,其中TF用于度量关键词在文档中的重要性,IDF用于度量关键词在全文档中的重要性, 即文档中某关键词的重要性,与它在当前文档中的频率成正比,而与包含它的文档数成反比。TF-IDF的主要思想是,若一个关键...

#机器学习
Numpy多维数组的介绍及其常用属性和操作方法

1、数组运算数组运算的注意事项:当使用不同类型的数组操作时,结果数组的类型对应于更一般或更精确的数组,即向上转换,因此不能对低精度的数组元素赋高精度的值;基本的算术、逻辑、位以及比较运算,需要创建新数组,并填充结果;复合运算符,如+=,为就地修改原数组,因此操作符右值不能是高精度的数据;普通乘法运算符*是元素级别运算,若需执行矩阵乘法运算,可使用@操作符或dot函数;操作符...

#python#numpy
熵的基础理论(信息熵、交叉熵、霍夫曼编码、条件熵、互信息、KL散度)

Information信息量用于度量信息的不确定性,信息量与事件发生的概率有关,事件随机性越大,信息量越大.若事件XXX的信息量为I(X)I(X)I(X),由于观察两个独立事件同时发生时获得的信息量等于观察到事件各自发生时获得的信息量之和,即信息量满足I(X,Y)=I(X)+I(Y)I(X, Y)=I(X) + I(Y)I(X,Y)=I(X)+I(Y)P(X,Y)=P(X)P(Y)P...

#机器学习#数据分析
回归和分类损失函数(MSE、MAE、Huber、Exponential、Deviance、Hinge)

指数损失和二项偏差损失给定样本x\boldsymbol xx,类别y∈{−1,+1}y\in\{-1,+1\}y∈{−1,+1},类别另一种表示y′=(y+1)/2∈{0,1}y'=(y+1)/2\in\{0,1\}y′=(y+1)/2∈{0,1}.二项偏差(Binomial Deviance)的类1概率为p(x)=P(y=1∣x)=exp⁡(f(x))exp⁡(−f(x))+exp⁡(f(...

#机器学习
K近邻(KNN)算法、KD树及其python实现

knn、模型三要素、距离度量、k值选择、决策准则、kd树、python

#机器学习#python
    共 17 条
  • 1
  • 2
  • 请选择