logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

5.3 预训练一个小型LLM

Pretrain Dataset` 主要是将 `text` 通过 `tokenizer` 转换成 `input_id`,然后将 `input_id` 拆分成 `X` 和 `Y`,其中 `X` 为 `input_id` 的前 n-1 个元素,`Y` 为 `input_id` 的后 n-1 `个元素。在 `generate` 方法中,我们首先获取序列中最后一个位置的 `logits`,然后基于这些 `

#人工智能#自然语言处理
昇思25天训练营Day6-模型训练

¶从网络构建中加载代码,构建一个神经网络模型。nn.ReLU(),nn.ReLU(),超参(Hyperparameters)是可以调整的参数,可以控制模型训练优化的过程,不同的超参数值可能会影响模型训练和收敛速度。目前深度学习模型多采用批量随机梯度下降算法进行优化,随机梯度下降算法的原理如下:公式中,𝑛𝑛是批量大小(batch size),ηη是学习率(learning rate)。另外,𝑤

文章图片
#深度学习#机器学习#人工智能
【Task03】:数据准备(第二章)

在RAG系统中,是整个流水线的第一步,也是至关重要的一步。通过文档加载器,将 PDF、Word、Markdown、HTML 等,转换为程序可处理的。数据加载的质量会直接影响后续的索引构建、检索效果和最终的生成质量。

#人工智能#自然语言处理
【Task02】:四步构建简单rag(第一章3节)

2.**雅达利游戏(Pong)**:用于说明策略函数的输入(游戏的一帧)和输出(决定向左或向右移动),以及序列决策中奖励的延迟性(只有到游戏结束时才知道球是否被击打过去)。5.**走迷宫(从起点到终点)**:具体用于解释基于策略的强化学习(每个状态得到最佳动作)和基于价值的强化学习(每个状态返回一个价值)方法如何解决问题。6.**Black jack游戏**和**自动驾驶**:用于说明部分可观测环

#java#android#数据库
【Task02】:四步构建简单rag(第一章3节)

2.**雅达利游戏(Pong)**:用于说明策略函数的输入(游戏的一帧)和输出(决定向左或向右移动),以及序列决策中奖励的延迟性(只有到游戏结束时才知道球是否被击打过去)。5.**走迷宫(从起点到终点)**:具体用于解释基于策略的强化学习(每个状态得到最佳动作)和基于价值的强化学习(每个状态返回一个价值)方法如何解决问题。6.**Black jack游戏**和**自动驾驶**:用于说明部分可观测环

#java#android#数据库
【Task01】:简介与环境配置(第一章1、2节)

定义:RAG(检索增强生成)是融合信息检索与文本生成的技术范式。核心逻辑:在大型语言模型(LLM)生成文本前,先从外部知识库检索相关信息,再将检索结果融入生成过程,以提升输出的准确性与时效性。本质:在LLM生成文本之前,先从外部知识库中检索相关信息,作为上下文辅助生成更准确的回答。

#人工智能#自然语言处理
6.1 模型预训练

Transformers 是由 Hugging Face 开发的自然语言处理(NLP)框架,它采用模块化设计,能够统一支持 BERT、GPT、LLaMA、T5、ViT 等上百种主流模型架构。借助 Transformers,开发者无需重复实现基础网络结构,通过 AutoModel 类就可以一键加载任意预训练模型,极大地简化了模型使用和开发的流程。框架内置的Trainer类封装了分布式训练的核心逻辑,

#人工智能#自然语言处理
5.3 预训练一个小型LLM

Pretrain Dataset` 主要是将 `text` 通过 `tokenizer` 转换成 `input_id`,然后将 `input_id` 拆分成 `X` 和 `Y`,其中 `X` 为 `input_id` 的前 n-1 个元素,`Y` 为 `input_id` 的后 n-1 `个元素。在 `generate` 方法中,我们首先获取序列中最后一个位置的 `logits`,然后基于这些 `

#人工智能#自然语言处理
【LangChain】1 模型,提示和输出解释器

假设我们是电商公司员工,我们的顾客是一名海盗A,他在我们的网站上买了一个榨汁机用来做奶昔,在制作奶昔的过程中,奶昔的盖子飞了出去,弄得厨房墙上到处都是。'啊,我感到非常不快,因为我的搅拌机盖子脱落了,导致奶昔溅到了厨房的墙壁上。学生们线上学习并提交作业,通过以下的提示来实现对学生的提交的作业的评分。{'礼物': '是的', '交货天数': '2', '价钱': '它比其他吹叶机稍微贵一点'}接下来

#人工智能
到底了