logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

论文 PTQ4ViT :采用均方误差(MSE)和余弦距离来衡量原始输出与量化输出之间的距离,并不准确。当“大小”趋近于0时,“方向”就失去了意义。

如果两个数字都很小(接近0):余弦相似度会很高(或极度不稳定),但这往往是假阳性(False Positive)。原因:除以极小值导致数值不稳定,且噪声方向随机。最佳实践始终对特征向量进行L2 归一化。设置阈值:在计算相似度前,检查特征的模长(Norm)。如果模长低于某个阈值(如1e-5),直接丢弃该样本或将其相似度设为最低值。确保模型训练良好,避免输出接近零的嵌入向量。记住:余弦相似度衡量的是“

【Qwen多模态】Qwen2-VL和Qwen3.5多模态技术区别

特性传统多模态 (如 LLaVA v1.5)原生多模态 (如 Qwen2-VL, Qwen3.5)图像输入固定分辨率,固定 Patch 数动态分辨率,动态 Patch 数位置编码1D 线性位置编码2D RoPE(空间) + 时间编码 (视频)模态融合视觉特征拼接在文本后统一嵌入空间,深度交叉注意力视频处理通常仅采样少数几帧动态帧采样,时序信息保留完整通用性主要针对图像+文本文本+图像+音频+视频统

【Qwen3.6】关键技术:线性注意力(Linear Attention/DeltaNet)和标准多头注意力(Standard Attention)混合

这是一个Hybrid Linear-Transformer MoE 模型混合架构:它结合了的高效性和的精度。MoE 稀疏激活:通过 256 选 9 的方式,实现了 35B 参数仅消耗 3B 算力。长上下文优化:DeltaNet 天然支持长上下文且内存占用低,配合少量的标准 Attention,使其在处理超长文本时比纯 Transformer 更稳定、更快。多语言/代码优化:248k 的大词表支持更

两种子词分词算法BPE (Byte-Pair Encoding) 和Unigram 区别

维度BPEUnigram简单程度⭐⭐⭐ (简单直观)⭐⭐ (复杂,需概率计算)推理速度快 (确定性匹配)稍慢 (需搜索最优分割)词表效率好通常更好 (概率驱动)生成稳定性高 (Token 序列确定)较低 (Token 数量可能波动)主要使用者结论如果使用的是Qwen2.5,你使用的是BPE。这意味着你的分词规则是固定的,模型将文本切分为子词的方式是确定性的。

#算法#人工智能
两种子词分词算法BPE (Byte-Pair Encoding) 和Unigram 区别

维度BPEUnigram简单程度⭐⭐⭐ (简单直观)⭐⭐ (复杂,需概率计算)推理速度快 (确定性匹配)稍慢 (需搜索最优分割)词表效率好通常更好 (概率驱动)生成稳定性高 (Token 序列确定)较低 (Token 数量可能波动)主要使用者结论如果使用的是Qwen2.5,你使用的是BPE。这意味着你的分词规则是固定的,模型将文本切分为子词的方式是确定性的。

#算法#人工智能
【视觉表征模型】EVA-02: A Visual Representation for Neon Genesis

这些任务主要分为**微调(Fine-tuned)任务和图像分类 (Classification)在 ImageNet-1K 上进行微调后的分类准确率。无需在 ImageNet-1K 上进行微调,直接利用预训练知识进行分类的准确率(图中标注了 1K val 数据集和 27 个数据集的平均值)。语义分割 (Semantic Segmentation)预测图像中每个像素所属的类别,但不区分同类中的不同个

【二值量化】Network Sketching: Exploiting Binary Structure in Deep CNNs 构建二值权重

网络素描:在深度卷积神经网络中利用二元结构具有深度架构的卷积神经网络(CNN)极大地推动了计算机视觉任务的最先进技术水平。然而,深度网络通常资源密集,因此在移动设备上部署困难。近年来,具有二值权重的 CNN 因其显著的效率优势引起了广泛关注,但在实际应用中,此类模型的准确性往往不尽如人意。在本文中,我们提出“网络素描”(network sketching)这一新技术,用于构建二值权重 CNN,旨在

【量化】Vision Transformer 的完全量化已经从简单的 CNN 方法移植,发展成为一个拥有丰富技术体系的独立研究方向:综述

Vision Transformer(ViT)在图像分类、目标检测、语义分割等计算机视觉任务中取得了超越卷积神经网络的卓越性能。然而,ViT 庞大的参数量和计算复杂度使其难以部署到资源受限的边缘设备上。模型量化作为一种高效的压缩技术,通过将高精密浮点参数映射到低位宽整数量级,显著降低存储与计算开销。本文围绕。

#transformer#cnn#深度学习
【量化】LRP-QViT: Explainability-Guided Mixed-Precision Quantization for Vision Transformers

视觉Transformer(ViT)在各种视觉任务中展现出了卓越的性能。然而,ViT模型需要大量的计算和内存资源,这使得将其部署到资源受限的平台具有挑战性。量化是一种广泛采用的减少模型体积的方法,但大多数研究主要关注对整个网络进行等比特宽度量化,导致次优结果。尽管已有少量关于ViT混合精度量化(MPQ)的工作,但它们通常依赖基于搜索空间的方法,或以任意方式采用混合精度。在本文中,我们提出了LRP-

【想法】LLM模型存在首字延迟,控制精度,缺乏物理直觉导致不能做快Action。人类开车,大多数是不需要思维链,是条件反射

阶段输入方式注意力计算方式速度原因处理提示词 (Prompt)一次性全部输入并行计算:所有10个字同时互相计算注意力快因为不需要依赖生成的结果,可以直接利用 GPU 并行计算能力。生成回复 (Decoding)逐个生成串行计算:每次只生成1个字,并更新 KV Cache慢因为生成第 N 个字必须依赖前 N-1 个字的结果,无法并行。你的输入(10个字)一次性进入,并行计算自注意力。模型的回复一个字

#人工智能
    共 273 条
  • 1
  • 2
  • 3
  • 28
  • 请选择