logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

[NLP]LLM---大模型指令微调中的“Prompt”

之前推理的时候,发现不加训练的时候prompt,直接输入模型性能会变差的,这个倒是可以理解。(3)另外通过实验发现,如果模型微调的时候使用模板,那么推理的时候应该也使用模板,否则效果会影响,直观上就是生成效果不理想,生成比较短,甚至“驴唇不对马嘴”;或者有继续微调比较合适的方案也可以,不损失之前模型的效果(或者损失比较小),目前可以尝试Lora或者Qlora的方式微调底座模型,然后将训练好的Lor

文章图片
#自然语言处理#人工智能
[因果推断] 倾向得分Propensity Score 原理(二)

PSM解决的是选择偏差问题(即控制混杂因素),倾向得分配比就是利用倾向评分值,从对照组中为处理做中的每个个体寻找一个或多个背景特征相同或相似的个体作为对照。这样就最大程度降低了其他混杂因素的干扰。文章主要介绍倾向得分匹配(PSM, Propensity Score Matching)方法的原理以及实现。这是一种理论稍微复杂、但实现较为容易的分析方法,适合非算法同学的使用。可用于(基于观察数据的)A

#人工智能
[因果推断] 什么是因果推断(一)

什么是因果推断?为什么研究因果推断?怎么进行因果推断研究?01 什么是因果推断?关于因果关系,在《牛津哲学词典》的定义是,“当一个事件的出现导致、产生或决定了另一个事件的出现,这两个事件之间的关系就被称为因果关系。例如,外面正在下雨,不带雨具出门会被淋湿衣服。下雨和淋湿衣服之间就是因果关系, 下雨是原因,淋湿衣服是结果。因果推断是统计学和数据科学的核心问题之一,在一种现象已经发生的情况下,推出因果

[图神经网络] 图节点Node表示---GCN

一. 概括图神经网络已经成为深度学习领域最炽手可热的方向之一。GCN具体思想的核心是通过拉普拉斯矩阵可以对图信息进行特征分解的特点把该公式定义为图卷积操作,同时图卷积的出现也填补了神经网络获取拓扑图类型特征的空白。提取拓扑图空间特征的两种方式:(1) vertex domain(2) 频谱方法(Spectral Method)这种思路就是希望借助图谱的理论来实现拓扑图上的卷积操作。图谱理论简单的概

[机器学习] TF-IDF算法

1.文本数据的向量化1.1名词解释CF:文档集的频率,是指词在文档集中出现的次数DF:文档频率,是指出现词的文档数IDF:逆文档频率,idf = log(N/(1+df)),N为所有文档的数目,为了兼容df=0情况,将分母弄成1+df。TF:词在文档中的频率TF-IDF:TF-IDF= TF*IDF1.2 TF-IDF算法TF-IDF(词频-逆文档频率)算法是一...

[机器学习] gcForest 官方代码详解

1.介绍gcForest v1.1.1是gcForest的一个官方托管在GitHub上的版本,是由Ji Feng(Deep Forest的paper的作者之一)维护和开发,该版本支持Python3.5,且有类似于Scikit-Learn的API接口风格,在该项目中提供了一些调用例子,目前支持的基分类器有RandomForestClassifier,XGBClassifer,ExtraTrees..

[机器学习]AutoML --- AutoKeras

前 言               Keras 是一个用 Python 编写的高级神经网络 API,能够在 TensorFlow、CNTK 或 Theano 之上运行。它的意义在于可以实现快速实验。而能够以最小的延迟把想法变成结果是顺利进行研究的关键。         AutoKeras是一个开源的,基于 Keras 的新型 AutoML 库。AutoKeras 是一个用于自动化机器学习...

[LLM]Streamlit+LLM(大型语言模型)创建实用且强大的Web聊天机器人

Streamlit 是一个开源框架,使开发人员能够快速构建和共享用于机器学习和数据科学项目的交互式 Web 应用程序。它还提供了一系列小部件,只需要一行 Python 代码即可创建,例如。对于我们创建一个简单的用于私人使用的聊天机器人网站来说,Streamlit 是一个非常合适的库,它还提供了第三方 Streamlit_chat 库,进一步方便我们生成“聊天式” Web 应用程序,因为我们不需要写

文章图片
#语言模型#机器人#人工智能
[LLM] 自然语言处理 ----- Attention机制中的Q,K,V介绍

注意力机制就是要通过训练得到一个加权,自注意力机制就是要通过权重矩阵来自发地找到词与词之间的关系。Q就是词的查询向量,K是“被查”向量,V是内容向量。简单来说一句话:Q是最适合查找目标的,K是最适合接收查找的,V就是内容,这三者不一定要一致,所以网络这么设置了三个向量,然后学习出最适合的Q, K, V,以此增强网络的能力。因此肯定需要给每个input定义tensor,然后通过tensor间的乘法来

#自然语言处理#深度学习#机器学习
[LLM]大模型训练DeepSpeed(二)

在单节点情况下,DeepSpeed的配置更多地集中在指定的节点内,因此不需要显式指定hostfile,而可以通过命令行参数更灵活地控制使用的GPU资源。DeepSpeed模型训练的核心在于DeepSpeed引擎,它能够包装任意类型为torch.nn.module的模型,并提供了一组最小的API用于训练和模型检查点。在这些设置步骤中,DeepSpeed的启动脚本提供了多种命令行选项,使用户能够根据需

文章图片
#深度学习#人工智能
暂无文章信息