logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

4-大语言模型—理论基础:LLaMA模型(让代码“活过来”)

RMSNorm:给数据 “定规矩”,让模型训练更稳定,计算更快;SwiGLU:带 “智能开关”,让模型更灵活地抓重点,学习复杂语言模式;RoPE:用 “旋转魔法” 给词加位置标签,让模型更懂词的顺序和相对关系。看例子(数据处理):把文本拆成字符,建立字符和数字的对应。练基础(模型搭建):用 Transformer 和 LLaMA 的核心技术,让模型能理解字符的关系和位置。反复练(训练):通过预测下

文章图片
#语言模型#人工智能#机器翻译 +2
14 - 大语言模型 — 抽取式问答系统 “成长记”:靠 BERT 学本事,从文本里精准 “揪” 答案的全过程(呆瓜版-1号)

简单来说,问答系统是一种能 “听懂” 人类问题,并给出准确答案的智能系统。比如我们平时用的智能助手(如 Siri、小爱同学),输入 “今天天气怎么样?” 就能得到答案,这就是最常见的问答系统应用。接收自然语言问题,结合已有信息(如上下文、知识库),返回简洁准确的答案。

文章图片
#语言模型#人工智能#自然语言处理
7-大语言模型—指令理解:指令微调训练+模型微调

传统微调:给大模型 “全身体检 + 重训”,贵且麻烦;LoRA:只给大模型 “局部小手术”,快又省;AdaLoRA:“智能小手术”,哪里重要修哪里;QLoRA:“压缩后小手术”,普通设备也能做。

文章图片
#语言模型#人工智能#深度学习
11-大语言模型—Transformer 盖楼,BERT 装修,RoBERTa 直接 “拎包入住”|预训练白话指南

"""定义模型配置"""# RoBERTa 模型的配置vocab_size=52_000, #词汇表大小:模型能够处理的唯一词元(tokens)数量 这个值应与之前训练的分词器(Tokenizer)的词汇表大小一致max_position_embeddings=514, #最大位置编码:模型能够处理的最大序列长度(包含特殊标记)num_attention_heads=12,#注意力头数量:多头注意

文章图片
#语言模型#人工智能#自然语言处理
5-大语言模型—理论基础:注意力机制优化

机制核心优化点类比场景典型优势稀疏注意力减少计算量(只关注重要部分)跳读一本书长序列处理效率提升优化内存访问顺序一次性准备好所有食材再做饭速度快、省显存多查询注意力共享参数(K/V)小组作业共享工具推理速度快、参数少多头潜在注意力捕捉隐藏关联创建隐藏文件夹整理照片深层语义理解能力更强稀疏注意力少看(只看关键部分)—— 像读长文章只看段落首尾句,抓重点省时间。快算(不改逻辑只提速)—— 像用计算器算

文章图片
#语言模型#深度学习#人工智能 +2
一文读懂现代卷积神经网络—残差网络(ResNet)

ResNet 通过残差块让网络学习 “残差” 而非直接学习输出,使优化更简单 —— 当网络需要拟合恒等映射(即输入等于输出)时,只需让 \(F(x) = 0\) 即可,避免了复杂的参数调整。: 当网络深度增加时,跳跃连接允许模型 “选择” 是否使用中间层的输出(若中间层学习的残差为 0,则\(y = x\),相当于直接传递输入,避免过度拟合)。当输入通道数(3)与输出通道数(6)不同时,直接做残差

#深度学习#人工智能#python +1
一文读懂现代卷积神经网络—深度卷积神经网络(AlexNet)

是 2012 年由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 提出的深度卷积神经网络(DCNN),它在当年的 ImageNet 大规模视觉识别挑战赛(ILSVRC)中以。:通过卷积和汇聚逐步减小空间尺寸(224→55→27→13→6),同时增加通道数(3→96→256→384→256): 为目标检测(R-CNN)、语义分割(FCN)、人脸识别

#深度学习#人工智能#python +2
详解卷积神经网络中的多输入多输出通道

定义输入数据包含多个通道(例如彩色图像的 RGB 三通道)。每个通道有独立的卷积核集合,分别处理不同通道的信息。定义每个卷积层生成多个输出通道(也称为 “特征图”)。每个输出通道对应一组独立的卷积核,提取不同类型的特征。

#深度学习#神经网络#cnn +3
1-大语言模型—理论基础:详解Transformer架构的实现(1)

序列中每一个单词所在的位置对应一个向量。这一向量会与单词表示对应相加并送入后续模块中做进一步出来。在训练的过程中,模型会自动学习到如何利用这部分位置信息。2。

文章图片
#语言模型#transformer#人工智能
一文读懂现代卷积神经网络—稠密连接网络(DenseNet)

稠密连接网络(Dense Convolutional Network,简称 DenseNet)是 2017 年由 Huang 等人提出的一种深层卷积神经网络,其核心创新是“稠密连接(Dense Connection)”:网络中的每个层都会与前面所有层直接连接,即第l层的输入是前l-1层的输出的拼接(而非简单相加)。核心结构稠密块(Dense Block):由多个卷积层组成,层间通过稠密连接融合特征

#cnn#网络#人工智能 +3
    共 27 条
  • 1
  • 2
  • 3
  • 请选择