logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【AI学习】DeepSeek-V3 技术报告学习:总体架构

翻了一下DeepSeek-V3 技术报告学习,太长,只是大概翻了一下,其中Multi-Token Prediction的技术就很亮眼。

文章图片
#人工智能#学习#架构
【AI学习】DeepSeek-V3 技术报告学习:总体架构

翻了一下DeepSeek-V3 技术报告学习,太长,只是大概翻了一下,其中Multi-Token Prediction的技术就很亮眼。

文章图片
#人工智能#学习#架构
【AI学习】人工智能的几种主义

人工智能发展史三根靠得住的基本支柱:一是神经网络,二是强化学习,三是环境模型。

文章图片
#人工智能#学习
【AI学习】RAG与推荐系统

推荐系统和RAG(Retrieval-Augmented Generation)确实在某些方面有相似之处,尤其是在处理信息检索和生成任务时

文章图片
#人工智能#学习
【论文速读】CoPE,基于上下文的位置编码,《Contextual Position Encoding: Learning to Count What’s Important》

Transformer 架构的位置编码,是解决注意力机制缺乏序列信息的问题,但是以往的位置编码是基于Token级别的,所以LLM难以建立句子级别的更高层次的序列信息,也就很难关注到句子的概念。CopE是基于上下文的位置编码,解决了这个问题

文章图片
#transformer#语言模型#人工智能 +1
【论文速读】《LLM4CP: Adapting Large Language Models for Channel Prediction》

前言:之前就想,大语言模型是否可以通过微调用于通信系统的无线空口应用,这篇文章给出了答案。通过讲信道状态信息进行嵌入和注意力操作,变成大语言模型可以适配的数据,然后LLM只需要微调就可以活得较好的信道预测性能。

文章图片
#语言模型#人工智能#自然语言处理
【AI学习】简单聊聊后训练(Post-Training)的重要性

模型生成的输出质量比网上的大多数内容都要高。因此,让模型自己思考似乎更有道理,而不仅仅是训练来模仿网络上的内容。所以,我认为从第一性原理上来说,这是有说服力的。我会说,我们通过后训练取得了很多进步。

文章图片
#人工智能#学习#语言模型
【AI学习】对指令微调(instruction tuning)的理解

在FLAN系列的论文中,谷歌提出了指令微调的概念,通过自然语言指令描述的任务数据集对预训练后的语言模型进行微调,用于提高语言模型的零样本学习能力。

文章图片
#人工智能#学习#论文阅读 +2
到底了