logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

PyTorch实现Seq2Seq模型详解

Seq2Seq是一种循环神经网络的变种,是一种端到端的模型,包括 Encoder编码器和 Decoder解码器部分,在nlp任务中是一种重要的模型,在翻译,文本自动摘要生成和机器人自动问答以及一些回归预测任务上有着广泛的运用。Seq2Seq其实就是结构的网络,它的输入是一个序列,输出也是一个序列。在Encoder编码中,将序列转换成一个固定长度的向量,然后通过Decoder将该向量转换成我们想要的

文章图片
#pytorch#人工智能#python
大模型巅峰对决:LLaMA、Baichuan、ChatGLM、Qwen与天工全面对比分析

llama2-chat使用3w条高质量SFT数据,更小学习率,2epoch,user_prompt不计算loss。相比llama1,数据增加40%,长度增加一倍,使用了group-query attention。训练中logits值偏大,在推理时,对重复惩罚参数比较。损失使用的是binary ranking loss,使用了margin进一步优化。llama2-chat是在llama2基础版本的基

文章图片
实战篇:逐步揭秘大模型应用开发——第二章 API调用指南

学习了国内外不同的大模型API的调用方式,同时基于Poe聊天界面开发一个小的爬虫问答应用,但是Poe的聊天界面也有轮次限制,基于爬虫的方式是高度定制的,针对每个聊天窗口是不太现实的,但是最起码可以自动化问答了,有助于利用大模型进行预测任务的完成。

文章图片
#java
PyTorch中如何在本地加载Roberta模型:Transformers实战指南

所需的有 config.json,merges.txt,pytorch_model.bin(下载后重命名),vocab.json。不同版本的transformers里import的用法可能不同,所以强调了版本,Roberta模型没有token_type_ids,也就是segment_ids。本地加载roberta-base模型文件,roberta-large同理,只不过hidden_size从76

文章图片
#pytorch#人工智能#python
PyTorch实战GPT2:借助transformers实现文本生成指南

GPT2是OPen AI发布的一个预训练语言模型,见论文《Language Models are Unsupervised Multitask Learners》,GPT-2利用单向Transformer的优势,做一些BERT使用的双向Transformer所做不到的事。生成的文本为:and playing with his friends.与给出的句子构成了一段完整的话。我们将上面的句子加上句号

文章图片
#pytorch#人工智能#python
TensorFlow 2.0 搭配Transformers:实战BERT模型

前面两篇文章其实已经详细介绍了bert在kaggle比赛tweet_sentiment_extraction的作用,但是该比赛是基于tensorflow2.0版本的,因此需要把代码进行转换。使用BERT的两层encoder实现tweet sentiment extraction使用tensorflow2.0 版本跑 bert模型和roberta模型在kaggle中使用notebook参加比赛,是基

文章图片
#tensorflow#bert#人工智能
到底了