
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
**摘要:**微调(Fine-tuning)**是在预训练模型基础上,使用特定任务或领域的数据进一步训练,使模型适应特定场景。主要方法包括: 全量微调:调整所有参数,性能最优但成本高; 参数高效微调(PEFT):如LoRA(低秩矩阵更新)、Prefix Tuning(前缀参数调整),仅微调少量参数,成本低且效果接近全量微调; 强化学习微调(RLHF):通过人类反馈优化模型行为,适用于价值观对齐和复

**摘要:**微调(Fine-tuning)**是在预训练模型基础上,使用特定任务或领域的数据进一步训练,使模型适应特定场景。主要方法包括: 全量微调:调整所有参数,性能最优但成本高; 参数高效微调(PEFT):如LoRA(低秩矩阵更新)、Prefix Tuning(前缀参数调整),仅微调少量参数,成本低且效果接近全量微调; 强化学习微调(RLHF):通过人类反馈优化模型行为,适用于价值观对齐和复

vLLM本地部署大模型方案 vLLM是一款高性能大模型推理引擎,通过PagedAttention技术显著提升吞吐量和内存效率,支持低成本、高并发的本地部署。 核心优势: 性能卓越:吞吐量远超同类方案,支持连续批处理等高级功能 成本优化:减少GPU服务器需求 兼容性强:提供类OpenAI的简洁API 部署步骤: 硬件准备:需NVIDIA GPU(如A100/3090),显存≥模型参数量×2(7B模型

vLLM本地部署大模型方案 vLLM是一款高性能大模型推理引擎,通过PagedAttention技术显著提升吞吐量和内存效率,支持低成本、高并发的本地部署。 核心优势: 性能卓越:吞吐量远超同类方案,支持连续批处理等高级功能 成本优化:减少GPU服务器需求 兼容性强:提供类OpenAI的简洁API 部署步骤: 硬件准备:需NVIDIA GPU(如A100/3090),显存≥模型参数量×2(7B模型

人工智能中的大模型(Large Model / Foundation Model),是指参数规模通常在数十亿甚至千亿以上的深度神经网络。它们依靠大规模数据和高算力平台训练而成,具备强泛化能力和跨任务迁移能力,能够在自然语言处理、计算机视觉、语音、多模态等多个领域展现出较强的性能。参数规模巨大:例如 GPT-3 拥有 1750 亿参数。预训练 + 微调:先在海量通用数据上进行预训练,再通过少量标注数

人工智能中的大模型(Large Model / Foundation Model),是指参数规模通常在数十亿甚至千亿以上的深度神经网络。它们依靠大规模数据和高算力平台训练而成,具备强泛化能力和跨任务迁移能力,能够在自然语言处理、计算机视觉、语音、多模态等多个领域展现出较强的性能。参数规模巨大:例如 GPT-3 拥有 1750 亿参数。预训练 + 微调:先在海量通用数据上进行预训练,再通过少量标注数

Tokenizer(分词器)是大模型处理文本的关键组件,负责将原始文本转换为模型可理解的数字格式。主要分为三类分词方法:基于词的分词(Word-based)简单高效但难以处理未登录词;基于字符的分词(Character-based)可处理任意字符但计算量大;基于子词的分词(Subword-based)通过BPE、WordPiece等算法平衡了词汇表大小和语义表达能力,成为现代大模型的主流方案。不同

摘要:Transformer是2017年Google提出的革命性深度学习架构,通过自注意力机制取代传统RNN结构,实现并行计算和长距离依赖捕捉。核心包括编码器-解码器结构,编码器由输入嵌入、位置编码、多头自注意力和前馈网络组成。位置编码通过正弦/余弦函数为模型提供词序信息,多头注意力并行计算多个注意力子空间,前馈网络则进行非线性变换。该架构为BERT、GPT等模型奠定了基础,在NLP和CV领域取得

带 shortcut(残差连接)的 CSP 模块。

自注意力机制是现代深度学习的核心技术,广泛应用于NLP和CV领域。其核心思想是通过计算输入序列中元素间的动态关系,加权调整每个位置的表示。相比传统RNN/LSTM,自注意力能更好捕捉长距离依赖,实现并行计算。关键组件包括查询向量(Query)、键向量(Key)和值向量(Value),通过计算Query-Key相似度并softmax归一化,再对Value加权求和得到新表示。该机制使每个元素能动态关注
