logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【光流】FlowFormer: A Transformer Architecture for Optical Flow

虽然分块为每个源像素产生了一系列代价块特征向量,但此类块特征的数量仍然很大,阻碍了不同源像素之间信息传播的效率。实际上,代价图具有高度冗余性,因为只有少数高代价最具信息量。为了获得更紧凑的代价特征,我们进一步通过。

#transformer#深度学习#人工智能
计算雅可比矩阵时,不用完整计算,采用JVP?如何理解?传统的 CNN 目标检测任务在算法本质上根本不需要JVP

JVP 计算的是J⋅vJ \cdot vJ⋅v,其中vvv是一个与输入xxx维度相同的已知向量(大小为n×1n \times 1n×1矩阵JJJ是m×nm \times nm×n,向量vvv是n×1n \times 1n×1。相乘后的结果J⋅vJ \cdot vJ⋅v是一个大小仅为m×1m \times 1m×1的向量。核心优势:JVP 允许我们绕过显式构建m×nm \times nm×n。

#矩阵#cnn#目标检测
连续性方程--> 瞬时变量变换公式。利用我们 JVP + Hutchinson 随机估计器估算图像的精确对数似然散度

在 Flow Matching 中,我们成功把无法计算的概率分布散度DivptxDivpt​x)),通过数学恒等式巧妙地转化成了极易计算的神经网络散度DivfxDivfx))。这也是为什么流匹配和连续归一化流(CNF)能够在高维图像生图领域落地的核心技术基石。这就是数学“偷梁换柱”的魅力。

MapTRv2: An End-to-End Framework for Online Vectorized HD Map Construction

高精(HD)地图提供了驾驶场景中丰富且精确的静态环境信息,是自动驾驶系统规划模块中基础且不可或缺的核心组件。本文提出 Map TRansformer,一种用于在线矢量化高精地图构建的端到端框架。我们提出一种统一的排列等价建模方法,即将地图元素建模为具有若干等价排列的点集,从而精确描述地图元素的形状并稳定学习过程。我们设计了一种层次化查询嵌入方案,以灵活编码结构化的地图信息,并采用层次化二分匹配进行

Flow Matching for Generative Models-2024 Tutorial

生成模型中,一般存在一个源分布(例如高斯分布,但可以是任何分布)source distribution p(x)目的是找到某种映射Map ,把源分布映射到未知分布q(x),数据分布(一般来说是更复杂的分布)从概率的角度是,我们从原分布(或者说是噪声分布)提取一个样本x0~p, 然后把这个推到Map上,进而得到一个样本的数据分布Uxq。实际情况我们无法获得数据分布,但是能得到一些样本数据(训练集)一

docker环境部署 Qwen2.5-72B

使用 Docker 部署 Qwen2.5-72B 能实现环境隔离、一键部署和便捷管理。结合 vLLM 推理后端,可以充分发挥您 4 张 RTX 3090 的性能。

#docker#容器#运维
【量化】ERQ: Error Reduction for Post-Training Quantization of Vision Transformers.

问题: 激活量化和权重量化之间的误差存在相互依赖性,现有方法通常独立优化两者。核心创新步骤方法作用将激活量化误差最小化建模为 Ridge Regression 问题在保持权重全精度的前提下更新激活缩放迭代优化量化权重的舍入方向,使用代理指标 + Ridge Regression进一步降低量化权重带来的误差结果: 在 W3A4(3-bit 权重,4-bit 激活)ViT-S 上,精度超过 GPTQ

【Qwen多模态】Qwen2-VL和Qwen3.5多模态技术区别

特性传统多模态 (如 LLaVA v1.5)原生多模态 (如 Qwen2-VL, Qwen3.5)图像输入固定分辨率,固定 Patch 数动态分辨率,动态 Patch 数位置编码1D 线性位置编码2D RoPE(空间) + 时间编码 (视频)模态融合视觉特征拼接在文本后统一嵌入空间,深度交叉注意力视频处理通常仅采样少数几帧动态帧采样,时序信息保留完整通用性主要针对图像+文本文本+图像+音频+视频统

【Qwen2.5】采用 RoPE、SwiGLU、RMSNorm、Attention QKV bias 和 tied word embeddings 的 transformers 结构

模块原始 Transformer (2017)Qwen2.5 / 现代 LLM 标准主要改进目的位置编码绝对位置编码 (Sin/Cos)RoPE更好的长文本外推性、相对位置感知FFN 激活GELU / ReLU (全连接)SwiGLU(门控)更强的非线性表达能力、训练更稳定层归一化(原始无,后期加 LayerNorm)RMSNorm计算更快、内存占用更少、深层训练更稳无 Bias有 QKV Bia

两种子词分词算法BPE (Byte-Pair Encoding) 和Unigram 区别

维度BPEUnigram简单程度⭐⭐⭐ (简单直观)⭐⭐ (复杂,需概率计算)推理速度快 (确定性匹配)稍慢 (需搜索最优分割)词表效率好通常更好 (概率驱动)生成稳定性高 (Token 序列确定)较低 (Token 数量可能波动)主要使用者结论如果使用的是Qwen2.5,你使用的是BPE。这意味着你的分词规则是固定的,模型将文本切分为子词的方式是确定性的。

#算法#人工智能
    共 283 条
  • 1
  • 2
  • 3
  • 29
  • 请选择