
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
RMSNorm:给数据 “定规矩”,让模型训练更稳定,计算更快;SwiGLU:带 “智能开关”,让模型更灵活地抓重点,学习复杂语言模式;RoPE:用 “旋转魔法” 给词加位置标签,让模型更懂词的顺序和相对关系。看例子(数据处理):把文本拆成字符,建立字符和数字的对应。练基础(模型搭建):用 Transformer 和 LLaMA 的核心技术,让模型能理解字符的关系和位置。反复练(训练):通过预测下

简单来说,问答系统是一种能 “听懂” 人类问题,并给出准确答案的智能系统。比如我们平时用的智能助手(如 Siri、小爱同学),输入 “今天天气怎么样?” 就能得到答案,这就是最常见的问答系统应用。接收自然语言问题,结合已有信息(如上下文、知识库),返回简洁准确的答案。

传统微调:给大模型 “全身体检 + 重训”,贵且麻烦;LoRA:只给大模型 “局部小手术”,快又省;AdaLoRA:“智能小手术”,哪里重要修哪里;QLoRA:“压缩后小手术”,普通设备也能做。

"""定义模型配置"""# RoBERTa 模型的配置vocab_size=52_000, #词汇表大小:模型能够处理的唯一词元(tokens)数量 这个值应与之前训练的分词器(Tokenizer)的词汇表大小一致max_position_embeddings=514, #最大位置编码:模型能够处理的最大序列长度(包含特殊标记)num_attention_heads=12,#注意力头数量:多头注意

机制核心优化点类比场景典型优势稀疏注意力减少计算量(只关注重要部分)跳读一本书长序列处理效率提升优化内存访问顺序一次性准备好所有食材再做饭速度快、省显存多查询注意力共享参数(K/V)小组作业共享工具推理速度快、参数少多头潜在注意力捕捉隐藏关联创建隐藏文件夹整理照片深层语义理解能力更强稀疏注意力少看(只看关键部分)—— 像读长文章只看段落首尾句,抓重点省时间。快算(不改逻辑只提速)—— 像用计算器算

ResNet 通过残差块让网络学习 “残差” 而非直接学习输出,使优化更简单 —— 当网络需要拟合恒等映射(即输入等于输出)时,只需让 \(F(x) = 0\) 即可,避免了复杂的参数调整。: 当网络深度增加时,跳跃连接允许模型 “选择” 是否使用中间层的输出(若中间层学习的残差为 0,则\(y = x\),相当于直接传递输入,避免过度拟合)。当输入通道数(3)与输出通道数(6)不同时,直接做残差
是 2012 年由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 提出的深度卷积神经网络(DCNN),它在当年的 ImageNet 大规模视觉识别挑战赛(ILSVRC)中以。:通过卷积和汇聚逐步减小空间尺寸(224→55→27→13→6),同时增加通道数(3→96→256→384→256): 为目标检测(R-CNN)、语义分割(FCN)、人脸识别
定义输入数据包含多个通道(例如彩色图像的 RGB 三通道)。每个通道有独立的卷积核集合,分别处理不同通道的信息。定义每个卷积层生成多个输出通道(也称为 “特征图”)。每个输出通道对应一组独立的卷积核,提取不同类型的特征。
序列中每一个单词所在的位置对应一个向量。这一向量会与单词表示对应相加并送入后续模块中做进一步出来。在训练的过程中,模型会自动学习到如何利用这部分位置信息。2。

稠密连接网络(Dense Convolutional Network,简称 DenseNet)是 2017 年由 Huang 等人提出的一种深层卷积神经网络,其核心创新是“稠密连接(Dense Connection)”:网络中的每个层都会与前面所有层直接连接,即第l层的输入是前l-1层的输出的拼接(而非简单相加)。核心结构稠密块(Dense Block):由多个卷积层组成,层间通过稠密连接融合特征