z小猫不吃鱼个人主页

@qq_36581957

z小猫不吃鱼

2022-12-30 09:24:24 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

2 Multimodal Deep Learning论文精读：深度多模态表示学习的早期奠基工作

《Multimodal Deep Learning》是2011年ICML会议发表的早期多模态学习代表作。论文以视听语音识别为研究对象，系统探讨了三种多模态学习范式：多模态融合、跨模态学习和共享表示学习。研究证明，简单拼接不同模态特征效果有限，而通过深度自编码器学习跨模态关联能显著提升性能。论文创新性地提出利用音频作为辅助监督改善纯视觉唇读，并探索了模态缺失下的鲁棒表示学习。实验表明，多模态优势在噪

#深度学习 #学习 #人工智能

深度学习之Tensorflow基础——基本开发步骤。

1、提到深度学习往往会让人想到人工智能，准确的讲深度学习是实现人工智能的一种方式。而TensorFlow是谷歌开源的一个深度学习框架。里面封装了多种实现神经网络家族的函数，可以把我们的想法快速的变现。同时TensorFlow也是目前最火的深度学习框架。TensorFlow是用c++语言开发的，支持c,python，java等多种语言。目前主流的开发语言是python。因其快速的开发效率被广大开发者

10 大语言模型基本术语总结：参数、Token、Context、Logits、Temperature

不一定。Token 可能是字、词、子词、标点、空格片段。可能被切成多个 token。

#语言模型 #人工智能 #自然语言处理

02 从 RNN 到 Transformer：为什么语言建模需要新结构？

在上一篇文章中，我们从整体上介绍了大语言模型的发展路线。大语言模型并不是突然出现的，它背后经历了一个长期演进过程：统计语言模型↓神经网络语言模型↓↓Seq2Seq↓Attention↓↓↓大语言模型如果想真正理解大语言模型，不能一上来就只看 GPT、LLaMA、Qwen 或 DeepSeek。我们需要先理解一个更基础的问题：为什么早期的 RNN、LSTM、Seq2Seq 结构不够用了？

#rnn #transformer #人工智能

06 Transformer Decoder 详解：GPT 为什么使用 Decoder？

Causal Language Modeling 可以翻译为因果语言建模。这里的“因果”不是因果推理中的因果，而是指：当前 token 的预测只能依赖它之前的 token，不能依赖它之后的 token。假设一个文本序列为：语言模型要建模整个序列的概率：请总结下面这段文字：[长文本]模型输出摘要。

#transformer #深度学习

07 Tokenizer 详解：BPE、WordPiece、SentencePiece 有什么区别？

在前面几章中，我们已经介绍了 Transformer、Self-Attention 和 GPT 为什么使用 Decoder-only 架构。到这里，一个非常基础但容易被忽略的问题出现了：文本到底是如何进入大语言模型的？但是模型不能直接处理中文、英文或代码字符串。对模型来说，输入必须先被转换成数字 ID，再经过 embedding 层变成向量，最后才能进入 Transformer。这个过程就是，负责

#语言模型 #人工智能 #自然语言处理 +1

09 GPT-2 论文精读：语言模型如何走向 Zero-shot？

Article:[一篇新闻文章]TL;GPT-2 会根据前面的文章和TL;这个提示继续生成摘要。这里的关键是TL;。它在网络文本中经常表示“太长不看版摘要”。如果模型在预训练中学过这种模式，它就可能在看到TL;后生成摘要内容。GPT-2 的摘要能力比较初级。当输入文章并使用TL;作为提示时，模型能生成一些摘要式文本，但定量指标仍然比较弱，只是刚刚接近一些传统神经基线。这说明 GPT-2 已经开始学

#语言模型 #人工智能

13 BERT 论文精读：双向 Transformer 如何学习语言表示？

在上一篇文章中，我们精读了 GPT-1。GPT-1 的核心思想是：先使用 Transformer Decoder 在大规模无标注文本上进行生成式预训练，然后再把预训练模型迁移到下游 NLP 任务中进行微调。它走的是。但是 GPT-1 有一个天然限制：它只能根据左侧上下文预测后面的 token，不能同时利用左右两侧上下文。如果模型要预测[MASK]位置的词，只看左边“我今天去”是不够的；右边的“上课

#bert #transformer #学习

10 GPT-3 论文精读：Few-shot Learning 为什么会出现？

In-context learning 可以翻译为上下文学习。它指的是：模型在不进行梯度更新的情况下，仅根据输入上下文中的任务描述和示例，临时适应一个新任务。这和传统微调非常不同。给模型很多任务样本↓计算损失↓反向传播↓更新模型参数↓得到适配任务的新模型把任务描述和示例写进 prompt↓模型读取上下文↓模型根据上下文模式直接输出答案↓模型参数不变也就是说，GPT-3 的 few-shot lea

#gpt-3 #语言模型 #人工智能 +1

12 Prompt Engineering 入门：提示词为什么会影响模型行为？

在上一篇文章中，我们详细解释了 In-Context Learning。In-Context Learning 的核心现象是：大语言模型在不更新参数的情况下，只通过 prompt 中的任务说明和少量示例，就可以临时适应一个任务。正面这说明 prompt 不只是“随便问一句话”，而是模型执行任务时最直接的输入接口。，也就是提示词工程。

#自然语言处理 #人工智能

共 39 条

请选择