
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
混合精度、训练显存分析、激活显存分析,高效微调方法介绍,如P-Tuning、LoRA等。
介绍了主流的LLM量化方法,包括ZeroQuant、LLM.int8()、SmoothQuant、GPTQ和AWQ。
文章目录Word VectorSkip-grams model with negative samplingContinuous Bag of WordsDocument VectorWord Vector词向量模型可表示为含有一层隐藏层的前向神经网络,词向量为输入层到隐藏层的参数,即参数矩阵的行向量.语料库总词数为|V|embedding后的单词维度为n输入层为n维向量输入层到隐藏...
自适应增强(Adaptive Boosting,AdaBoost)是Boosting算法簇的先祖,通过集成多个弱模型成为一个强模型。H(x;Θ)=∑τατh(x;θτ)H(\pmb x;\Theta)=\sum_{\tau}\alpha_{\tau}h(\pmb x;\theta_{\tau})H(xxx;Θ)=τ∑ατh(xxx;θτ)式中hτh_\tauhτ和ατ\alpha_...
GBDT原理推导、分类和回归实例、skearn
文章目录TFIDFTF-IDF与信息论TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率) 是用于信息检索与文本挖掘的重要算法,其中TF用于度量关键词在文档中的重要性,IDF用于度量关键词在全文档中的重要性, 即文档中某关键词的重要性,与它在当前文档中的频率成正比,而与包含它的文档数成反比。TF-IDF的主要思想是,若一个关键...
1、数组运算数组运算的注意事项:当使用不同类型的数组操作时,结果数组的类型对应于更一般或更精确的数组,即向上转换,因此不能对低精度的数组元素赋高精度的值;基本的算术、逻辑、位以及比较运算,需要创建新数组,并填充结果;复合运算符,如+=,为就地修改原数组,因此操作符右值不能是高精度的数据;普通乘法运算符*是元素级别运算,若需执行矩阵乘法运算,可使用@操作符或dot函数;操作符...
Information信息量用于度量信息的不确定性,信息量与事件发生的概率有关,事件随机性越大,信息量越大.若事件XXX的信息量为I(X)I(X)I(X),由于观察两个独立事件同时发生时获得的信息量等于观察到事件各自发生时获得的信息量之和,即信息量满足I(X,Y)=I(X)+I(Y)I(X, Y)=I(X) + I(Y)I(X,Y)=I(X)+I(Y)P(X,Y)=P(X)P(Y)P...
指数损失和二项偏差损失给定样本x\boldsymbol xx,类别y∈{−1,+1}y\in\{-1,+1\}y∈{−1,+1},类别另一种表示y′=(y+1)/2∈{0,1}y'=(y+1)/2\in\{0,1\}y′=(y+1)/2∈{0,1}.二项偏差(Binomial Deviance)的类1概率为p(x)=P(y=1∣x)=exp(f(x))exp(−f(x))+exp(f(...
knn、模型三要素、距离度量、k值选择、决策准则、kd树、python







