代码不自由个人主页

@m0_56695799

代码不自由

2023-02-03 09:37:45 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

多token预测造就更好更快的LLM

这是一篇发表在24年ICML上的一篇论文，乍一看和博客里的那篇好像，当时讨论到怎么训练并行预测token的几个transformer头的时候，认为将每个头的交叉熵损失的均值作为整体损失的话，内存开销太大，改为每个批量就随机选一个子损失，企图从长期看这种估计无偏，这篇论文似乎直面并解决了这个内存开销的问题。在训练语料的一个位置，模型一次性预测未来n个token，学习目标为努力最小化交叉熵损失方便起见

#深度学习 #人工智能 #transformer +2

Time-LLM架构分析

Time-LLM：通过重编译大语言模型进行时序预测》，这是一篇24年发表在ICLR上的论文。针对NLP、CV领域的任务，往往一个大模型就能解决各种问题，而时序预测领域的模型却要针对不同任务和应用进行不同的设计。研究表明LLM在复杂的token序列上有强大的模式识别和推理能力，但该，以利用这些能力呢？在这篇工作中推出了一个重编译框架Time-LLM，在保持主体的语言模型不变的情况下，将LLM应用到时

#自然语言处理 #机器学习 #transformer

什么是投机解码？

(这一篇的产期太长，还请大佬们斧正)

#自然语言处理

什么是旋转位置嵌入（RoPE）？

这篇论文提出RoPE技术，利用了旋转矩阵的几何性质来处理位置信息

#自然语言处理 #python #transformer

多token预测造就更好更快的LLM

#深度学习 #人工智能 #transformer +2

Time-LLM架构分析

#自然语言处理 #机器学习 #transformer

怎么快速将word文档中的英文和数字字体设置为新罗马？

一个个找可太费劲了，眼睛看瞎还易遗漏，不如试试一键替换~

到底了