简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
【AI学习】DeepSeek-V3 技术报告学习:总体架构
翻了一下DeepSeek-V3 技术报告学习,太长,只是大概翻了一下,其中Multi-Token Prediction的技术就很亮眼。
【AI学习】DeepSeek-V3 技术报告学习:总体架构
翻了一下DeepSeek-V3 技术报告学习,太长,只是大概翻了一下,其中Multi-Token Prediction的技术就很亮眼。
【AI学习】人工智能的几种主义
人工智能发展史三根靠得住的基本支柱:一是神经网络,二是强化学习,三是环境模型。
【AI学习】RAG与推荐系统
推荐系统和RAG(Retrieval-Augmented Generation)确实在某些方面有相似之处,尤其是在处理信息检索和生成任务时
【论文速读】CoPE,基于上下文的位置编码,《Contextual Position Encoding: Learning to Count What’s Important》
Transformer 架构的位置编码,是解决注意力机制缺乏序列信息的问题,但是以往的位置编码是基于Token级别的,所以LLM难以建立句子级别的更高层次的序列信息,也就很难关注到句子的概念。CopE是基于上下文的位置编码,解决了这个问题
【论文速读】《LLM4CP: Adapting Large Language Models for Channel Prediction》
前言:之前就想,大语言模型是否可以通过微调用于通信系统的无线空口应用,这篇文章给出了答案。通过讲信道状态信息进行嵌入和注意力操作,变成大语言模型可以适配的数据,然后LLM只需要微调就可以活得较好的信道预测性能。
【AI学习】简单聊聊后训练(Post-Training)的重要性
模型生成的输出质量比网上的大多数内容都要高。因此,让模型自己思考似乎更有道理,而不仅仅是训练来模仿网络上的内容。所以,我认为从第一性原理上来说,这是有说服力的。我会说,我们通过后训练取得了很多进步。
【AI学习】对指令微调(instruction tuning)的理解
在FLAN系列的论文中,谷歌提出了指令微调的概念,通过自然语言指令描述的任务数据集对预训练后的语言模型进行微调,用于提高语言模型的零样本学习能力。
到底了