logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

论文阅读:Reward-Guided Speculative Decoding for Efficient LLM Reasoning

摘要: 本文提出Reward-Guided Speculative Decoding (RSD)方法,以解决传统Speculative Decoding因严格无偏性要求导致的高效推理限制。RSD通过引入process reward model放宽draft model的接受条件,以reward而非概率匹配决定token是否被接受,从而减少target model调用次数并保证生成质量。理论分析表明

文章图片
#论文阅读#transformer#语言模型 +4
KV cache原理

文章摘要:本文介绍了decoder-only transformer的生成流程及KV cache优化技术。首先,输入prompt经过tokenizer和embedding层转换为词向量矩阵,再通过线性变换得到Q、K、V矩阵。在多头注意力机制中,通过mask保留注意力矩阵的下三角部分,与V矩阵相乘后得到上下文信息。KV cache通过缓存K和V矩阵,避免重复计算历史token的注意力分数,仅对新to

文章图片
#python#人工智能#自然语言处理 +4
Stanford CS336 assignment1 | Transformer Language Model Architecture

摘要 本文介绍了Transformer语言模型架构中的基础模块实现方法。首先讲解了环境配置技巧,建议将虚拟环境激活命令写入.bashrc文件实现自动加载。接着详细说明了模型参数的初始化策略:线性层采用截断高斯分布N(0, 2/(din+dout)),嵌入层采用N(0,1)分布,均使用PyTorch的trunc_normal_函数实现。文章分别实现了Linear模块和Embedding模块的代码,包

文章图片
#transformer#语言模型#深度学习 +4
论文阅读:LLM distillation Distilling Step-by-Step!

部署大预言模型具有挑战性,因为它们在实际应用中内存效率低下且计算资源消耗巨大。指出大语言模型部署应用存在的问题:内存效率低(目前很多大语言模型有千亿参数)、计算资源消耗巨大(推理和训练都需要进行大量的矩阵运算)。使用人工标注的标签进行微调(fine-tuning);或者使用大语言模型(LLM)生成的标签进行知识蒸馏(konwledge distillation)。指出解决上述问题的目前的解决办法即

文章图片
#论文阅读#nlp#人工智能 +3
大语言模型评估测试

CMMLU和C-Eval是两个中文多学科评估基准。CMMLU包含67个主题的测试数据,主要评估中文大模型的知识和推理能力,项目结构分为src、data、script三个模块。C-Eval涵盖52个学科的13948道题目,分为4个难度等级,核心评估代码位于code/evaluator_series目录下,提供命令行参数评估功能。两个项目均开源在GitHub平台,为中文大语言模型评估提供标准化测试框架

文章图片
#语言模型#人工智能#自然语言处理 +2
transformers基础Data Collator

本文介绍了HuggingFace Transformers库中的多种数据整理器(DataCollator),用于将数据预处理为模型可接受的batch格式。主要内容包括:基础数据整理器default_data_collator和DefaultDataCollator;动态padding的DataCollatorWithPadding;面向特定任务的DataCollatorForTokenClassi

文章图片
#nlp#自然语言处理#语言模型 +4
Jetson Xavier NX踩坑

本文介绍了在Jetson Xavier NX开发板上安装中文输入法、查看硬件配置、换源以及查看JetPack版本的全过程。主要内容包括:1) 通过apt安装fcitx拼音输入法框架并配置环境变量;2) 使用命令行工具查看系统信息、CPU、内存等硬件参数;3) 将apt源更换为华为云ARM64镜像以提升下载速度;4) 检查JetPack版本及CUDA环境配置,并安装jetson-stats监控工具。

文章图片
#java#开发语言#python +4
王道操作系统个人向笔记-第一章

批处理命令有很多,包括用于在控制台显示文本信息的echo,用于创建或修改环境变量的set,用于在批处理文件中进行条件判断的if,用于循环读取文件或列表中的数据的for,用于跳转到批处理文件中的指定标签的goto,用于调用另一个批处理文件的call,用于创建新的目录的md或mkdir,用于删除文件的del,以及用于复制文件或目录的copy等。系统调用是操作系统提供给应用程序使用的接口,可以理解为一种

文章图片
#单片机#嵌入式硬件#python +3
Jetson Xavier NX踩坑

本文介绍了在Jetson Xavier NX开发板上安装中文输入法、查看硬件配置、换源以及查看JetPack版本的全过程。主要内容包括:1) 通过apt安装fcitx拼音输入法框架并配置环境变量;2) 使用命令行工具查看系统信息、CPU、内存等硬件参数;3) 将apt源更换为华为云ARM64镜像以提升下载速度;4) 检查JetPack版本及CUDA环境配置,并安装jetson-stats监控工具。

文章图片
#java#开发语言#python +4
机器学习实战2-决策树算法

为了将表格转化为一棵树,决策树需要找到最佳节点和最佳分支方法,对于分类数来说衡量最佳的方法是叫做不纯度,通常来说不纯度越低,决策树对训练集的拟合效果越好,所有的决策树算法都是将和不纯度相关的某个属性最优化,不管我们用那个算法,都是追求的与不纯度相关的指标最优化。这是用的最广泛的剪枝参数,在高维度低样本量时非常有效,决策树多生长一层对样本的需求量就会增加一倍,所以限制决策树的深度能够特别有效的限制过

文章图片
#机器学习#算法#决策树
    共 21 条
  • 1
  • 2
  • 3
  • 请选择