简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Seq2Seq是一种循环神经网络的变种,是一种端到端的模型,包括 Encoder编码器和 Decoder解码器部分,在nlp任务中是一种重要的模型,在翻译,文本自动摘要生成和机器人自动问答以及一些回归预测任务上有着广泛的运用。Seq2Seq其实就是结构的网络,它的输入是一个序列,输出也是一个序列。在Encoder编码中,将序列转换成一个固定长度的向量,然后通过Decoder将该向量转换成我们想要的
llama2-chat使用3w条高质量SFT数据,更小学习率,2epoch,user_prompt不计算loss。相比llama1,数据增加40%,长度增加一倍,使用了group-query attention。训练中logits值偏大,在推理时,对重复惩罚参数比较。损失使用的是binary ranking loss,使用了margin进一步优化。llama2-chat是在llama2基础版本的基
学习了国内外不同的大模型API的调用方式,同时基于Poe聊天界面开发一个小的爬虫问答应用,但是Poe的聊天界面也有轮次限制,基于爬虫的方式是高度定制的,针对每个聊天窗口是不太现实的,但是最起码可以自动化问答了,有助于利用大模型进行预测任务的完成。
所需的有 config.json,merges.txt,pytorch_model.bin(下载后重命名),vocab.json。不同版本的transformers里import的用法可能不同,所以强调了版本,Roberta模型没有token_type_ids,也就是segment_ids。本地加载roberta-base模型文件,roberta-large同理,只不过hidden_size从76
GPT2是OPen AI发布的一个预训练语言模型,见论文《Language Models are Unsupervised Multitask Learners》,GPT-2利用单向Transformer的优势,做一些BERT使用的双向Transformer所做不到的事。生成的文本为:and playing with his friends.与给出的句子构成了一段完整的话。我们将上面的句子加上句号
前面两篇文章其实已经详细介绍了bert在kaggle比赛tweet_sentiment_extraction的作用,但是该比赛是基于tensorflow2.0版本的,因此需要把代码进行转换。使用BERT的两层encoder实现tweet sentiment extraction使用tensorflow2.0 版本跑 bert模型和roberta模型在kaggle中使用notebook参加比赛,是基