
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
大语言模型(Large Language Model, LLM)是一种基于深度学习(特别是Transformer架构)的海量参数模型,通过在极大规模的文本数据集上进行预训练,获得强大的语言理解、生成和推理能力。:MoE(混合专家)架构成为新趋势,它用更低的计算成本换取了更大的模型容量,是未来发展的关键方向(如Mixtral, DeepSeek-V3)。:基于千亿大模型,自发布之初就明确了“长文本”
大语言模型(Large Language Model, LLM)是一种基于深度学习(特别是Transformer架构)的海量参数模型,通过在极大规模的文本数据集上进行预训练,获得强大的语言理解、生成和推理能力。:MoE(混合专家)架构成为新趋势,它用更低的计算成本换取了更大的模型容量,是未来发展的关键方向(如Mixtral, DeepSeek-V3)。:基于千亿大模型,自发布之初就明确了“长文本”
用一个已经训练好的、庞大而精确的模型(“教师模型”)来指导一个较小的模型(“学生模型”)进行训练。LLM生成Token是串行的(Token_{n+1}依赖于 Token_{0:n}),这是推理的主要延迟来源。生成新Token时,只需计算当前Token的Query向量,并与缓存的历史KV向量进行注意力计算。:现代硬件(如GPU的Tensor Cores)有专门的整数计算单元,执行低精度运算更快、更节
用一个已经训练好的、庞大而精确的模型(“教师模型”)来指导一个较小的模型(“学生模型”)进行训练。LLM生成Token是串行的(Token_{n+1}依赖于 Token_{0:n}),这是推理的主要延迟来源。生成新Token时,只需计算当前Token的Query向量,并与缓存的历史KV向量进行注意力计算。:现代硬件(如GPU的Tensor Cores)有专门的整数计算单元,执行低精度运算更快、更节
它首先将预训练模型量化为4-bit(使用NF4等量化方法),然后冻结这个4-bit的模型,在此基础上添加LoRA适配器进行微调。不是为所有权重矩阵都分配固定的秩 r,而是根据权重的重要性动态调整 A和 B的秩,将更多的参数预算分配给更重要的模块。其中,W的维度是 d x k,而 A是 d x r,B是 r x k,秩 r << min(d, k)。:每个微调任务都会产生一个与原模型大小相当的副本(
它首先将预训练模型量化为4-bit(使用NF4等量化方法),然后冻结这个4-bit的模型,在此基础上添加LoRA适配器进行微调。不是为所有权重矩阵都分配固定的秩 r,而是根据权重的重要性动态调整 A和 B的秩,将更多的参数预算分配给更重要的模块。其中,W的维度是 d x k,而 A是 d x r,B是 r x k,秩 r << min(d, k)。:每个微调任务都会产生一个与原模型大小相当的副本(