logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

自学大语言模型之Bert和GPT的区别

GPT:GPT是一种基于Transformer的生成式预训练模型,其目标是通过自回归语言模型预训练来学习生成连贯文本的能力。BERT:BERT是一种基于Transformer的预训练模型,它的目标是通过双向语言模型预训练来学习上下文相关的词表示。通过大规模的预训练数据和迭代的优化过程,

文章图片
#语言模型#bert
自学大语言模型之BERT

BERT 模型是一种双向变换器,使用掩码语言建模目标和对包含多伦多图书语料库和维基百科的大型语料库的下一句预测的组合进行预训练。BERT 旨在通过联合调节所有层中的左右上下文来预训练未标记文本的深度双向表示。

文章图片
#语言模型#bert#深度学习
自学大语言模型之GPT

GPT是由OpenAI于2018年发布的模型。它采用了Transformer的编码器架构,通过自回归语言模型的方式进行预训练。

文章图片
#语言模型#gpt-3#人工智能
自学大语言模型之Transformer的Pipeline

Hugging Face Transformers库中的Pipeline是一个高级API,封装了NLP任务的完整流程。它支持30多种任务类型,包括文本分类、问答、生成、多模态处理等。Pipeline的工作流程分为四个阶段:初始化(加载模型和分词器)、预处理(文本分词和数值化)、推理(模型预测)和后处理(结果解码和格式化)。关键参数包括任务类型、模型路径、设备选择(CPU/GPU)、序列长度控制等。

#语言模型#transformer#人工智能
GLM-4V模型学习

智谱AI引领技术前沿,推出了新一代预训练模型GLM-4系列,其中的GLM-4-9B作为开源版本,展现了其在人工智能领域的深厚实力。在语义理解、数学运算、逻辑推理、代码编写以及广泛知识领域的数据集测评中,GLM-4-9B及其人类偏好对齐的版本GLM-4-9B-Chat均以超越Llama-3-8B的优异表现,证明了其卓越的性能。

文章图片
#学习
自学大语言模型的应用程序框架Langchain(初入门)

LangChain 是一个用于开发由语言模型驱动的应用程序的框架。Be data-aware:将语言模型连接到其他数据源Be agentic:允许语言模型与其环境交互使用语言模型是迈出的重要第一步。通常,在应用程序中使用语言模型时,你并不会直接将用户输入发送给语言模型。相反,你可能会将用户输入组合成一个提示,并将该提示发送给语言模型。例如,在前面的例子中,我们传递的文本是硬编码的,要求输入一个制造

文章图片
#语言模型#人工智能
自学大语言模型的应用程序框架Langchain(初入门)

LangChain 是一个用于开发由语言模型驱动的应用程序的框架。Be data-aware:将语言模型连接到其他数据源Be agentic:允许语言模型与其环境交互使用语言模型是迈出的重要第一步。通常,在应用程序中使用语言模型时,你并不会直接将用户输入发送给语言模型。相反,你可能会将用户输入组合成一个提示,并将该提示发送给语言模型。例如,在前面的例子中,我们传递的文本是硬编码的,要求输入一个制造

文章图片
#语言模型#人工智能
自学大语言模型之Transformer的Pipeline

Hugging Face Transformers库中的Pipeline是一个高级API,封装了NLP任务的完整流程。它支持30多种任务类型,包括文本分类、问答、生成、多模态处理等。Pipeline的工作流程分为四个阶段:初始化(加载模型和分词器)、预处理(文本分词和数值化)、推理(模型预测)和后处理(结果解码和格式化)。关键参数包括任务类型、模型路径、设备选择(CPU/GPU)、序列长度控制等。

#语言模型#transformer#人工智能
    共 21 条
  • 1
  • 2
  • 3
  • 请选择