大耳朵爱学习个人主页

@2401_85379281

大耳朵爱学习

2024-06-27 17:42:27 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Transformer系列-10丨一文理解透Transformer

在这个简化的示例中，“sat”本身获得了最高的权重，这是有意义的，因为在自注意力机制中，当前处理的词往往对自身的表示贡献最大。请注意，这个示例非常简化，实际上在Transformer模型中，词嵌入的维度会更大（例如，512维），并且Q、K、V向量是通过词嵌入与不同的权重矩阵相乘得到的。：在最后一层之后，可能还会有额外的操作，如更多的层归一化、线性层等，最终产生模型的最终输出。在这个假设的概率分布中

#transformer #深度学习 #人工智能 +2

从零开始构建GPT风格的LLM分类器微调GPT模型进行垃圾邮件分类

在这篇文章中，我想向您展示如何将预训练的大型语言模型（LLM）转变为强大的文本分类器。

#自然语言处理 #人工智能

Transformer系列-4丨DETR模型和代码解析

往期的文章中，笔者从网络结构和代码实现角度较为深入地和大家解析了Transformer模型Vision Transformer模型（ViT）以及BERT基础Transformer解析ViT模型与代码解析BERT模型与代码解析本期内容，笔者想和大家聊一聊2020年非常火热的一个目标检测模型，叫做DEtectionTRansformer，缩写为DETR。之所以火热的原因，并非这个模型的性能有多好，或者

#transformer #深度学习 #人工智能 +2

RAG 高效应用指南：Embedding 模型的选择和微调

万物皆可 Embedding。在推荐系统、自然语言处理和计算机视觉等领域，Embedding 是一个非常重要的概念。Embedding 的本质是一种将高维稀疏数据转换为低维稠密向量的技术，通过这种转换，能够捕捉数据中的语义或特征关系。具体来说，Embedding 用一个多维稠密向量来表示事物的多维特征，从而在一个连续的向量空间中刻画事物之间的相似性和差异性。这种表示方式不仅提高了计算效率，还增强了

#自然语言处理

详聊LLaMa技术细节：LLaMA大模型是如何炼成的？

本文介绍来自 Meta AI 的 LLaMa 模型，类似于 OPT，也是一种完全开源的大语言模型。LLaMa 的参数量级从 7B 到 65B 大小不等，是在数万亿个 token 上面训练得到。值得一提的是，LLaMa 虽然只使用公共的数据集，依然取得了强悍的性能。

#自然语言处理

如何估算 Transformer 模型中的参数数量

有效的理解新机器学习架构（以及任何新技术）的方式是从零开始实现它。虽然这种方法非常复杂、耗时，并且有时几乎不可能做到，但它能帮助你深入理解每一个实现细节。例如，如果你没有相应的计算资源或数据，你将无法确保你的解决方案中没有隐藏的错误。不过，还有一种更简单的方法——计算参数数量。相比直接阅读论文，这种方法并不复杂，但能够让你深入理解新架构的构建模块（在这里指的是 Transformer 编码器和解码

#transformer #深度学习 #人工智能 +2

Transformer系列-3丨BERT模型和代码解析

前面两篇文章，笔者从网络结构和代码实现角度较为深入地和大家解析了Transformer模型和Vision Transformer模型（ViT）基础Transformer解析ViT模型与代码解析本期内容，笔者想解析一下自然语言处理（NLP）中非常有名的基于变换器的双向编码器表示技术（即BEncoderRTBERTBERT想当年（2019年），BETR的出现也是横扫了自然语言处理领域多项任务，甚至压住

#transformer #bert #深度学习 +2

Transformer系列-6丨LRNet和Stand-Alone Self-Attention网络解析

本次主要分享之前看的两篇将自注意力机制self-attention应用在视觉感知任务的文章，分别为LRNet和。为了深化读者的理解，本文提供了较为详细的中文注释的代码。首先了解一下这两篇文章的背景，其都是在Vision Transformer（ViT）提出之前将transformer应用在感知任务上的尝试。尽管这些方法没有取得像ViT那么大的关注度，其后续的影响也较为深刻。之前的内容中，我们就Vi

#transformer #网络 #深度学习 +3

第一批大模型伙伴已经实现财富自由了_百度陈之若

大模型继续在 2024 年的春天里疾驰而进。2024 年 4 月 9 日，百度智能云在成都举行的首届 GENERATE 全球生态大会上，公布了过去一年大模型生态建设的最新“成绩单”。同时，百度智能云提出与伙伴共同建设大模型时代的新型云计算生态体系，面向头部市场、价值市场、高潜市场三类目标市场发布了差异化的生态战略，并发布一系列合作伙伴权益和扶持计划。

#百度 #人工智能 #语言模型

手把手教你Langchain-chatchat 接入Dify

Dify是一款开源的大语言模型(LLM) 应用开发平台。它融合了后端即服务（Backend as Service）和 [LLMOps]的理念，使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员，也能参与到 AI 应用的定义和数据运营过程中。由于 Dify 内置了构建 LLM 应用所需的关键技术栈，包括对数百个模型的支持、直观的 Prompt 编排界面、高质量的 RAG 引擎以及灵活

#人工智能 #语言模型

共 12 条

请选择