logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

QwenLong-L1-32B论文速览:大型语言模型的高效上下文窗口扩展

《YaRN: Efficient Context Window Extension of Large Language Models》是一项针对大型语言模型上下文窗口扩展的研究。论文通过改进RoPE位置编码,提出YaRN方法,结合"NTK-by-parts"插值和注意力缩放技术,仅需0.1%原始预训练数据微调即可实现有效扩展。实验表明,YaRN能将Llama 2模型的上下文窗口

文章图片
#语言模型#人工智能#自然语言处理 +3
YOLOv12解读:以注意力为中心的实时目标检测

区域注意力模块(Area Attention)区域注意力模块是一种简单高效的注意力机制,通过将特征图在垂直或水平方向上划分为多个区域,避免了复杂的窗口划分操作,仅需简单的 reshape 操作即可实现,从而提高了速度并保持了较大的感受野。该模块将注意力机制的计算复杂度从 2n²hd 降低到 1/2n²hd,同时对性能影响较小。残差高效层聚合网络(R-ELAN)R-ELAN 是为了解决注意力机制引入

文章图片
#目标检测#人工智能#算法
nanoVLM:轻量级因果语言视觉小模型速看

nanoVLM 是一个极简的视觉语言模型(VLM)训练和微调代码库,采用纯 PyTorch 实现,代码简洁易读,强调教育价值而非追求最新性能。模型结构包括视觉骨干网络、语言解码器、模态投影和 VLM 本身,总代码量约 750 行。使用 SigLIP-B/16-224 和 SmolLM2-135M 构建的 222M 参数模型在 MMStar 数据集上达到 35.3% 的准确率。项目提供了快速入门指南

文章图片
#人工智能
基于对抗性后训练的快速文本到音频生成:stable-audio-open-small 模型论文速读

《Fast Text-to-Audio Generation with Adversarial Post-Training》论文提出了一种新的文本到音频生成加速方法,旨在解决现有系统推理速度慢的问题。该方法通过对抗相对论-对比后训练(ARC)替代传统的蒸馏方法,避免了高成本和性能损失。ARC结合了对抗相对论损失和对比损失,提升了生成多样性和文本遵循性。实验表明,ARC在保持音频质量的同时,显著提升

文章图片
#音视频#人工智能#机器学习
videoprism论文速读:从图像描述中学习音频视频模式

【摘要】本文提出了一种创新的视频挖掘方法,通过将图像描述数据集中的文本转移到相似视频片段,构建出千万级规模的VideoCC3M数据集(1030万视频-描述对),解决了视频音频领域标注数据匮乏的难题。该方法采用双流模型架构,在文本-视频检索、音频检索和视频描述三大任务上取得突破性表现:在MSR-VTT数据集上检索性能超越HowTo100M预训练模型,AudioCaps音频检索达到SOTA,视频描述任

文章图片
#计算机视觉#图像处理#开源 +2
开源的面向经济高效型机器人应用的视觉-语言-行为模型速览:smolvla_base

开源的面向经济高效型机器人应用的视觉-语言-行为模型速览:smolvla_base

文章图片
#机器人#语言模型#人工智能 +2
FLUX.1-Kontext-dev模型论文速读:潜在空间中上下文图像生成与编辑的流匹配

《FLUX.1 Kontext: Flow Matching for In-Context Image Generation and Editing in Latent Space》提出了一种基于流匹配的新型图像生成与编辑模型。该研究针对现有模型在多轮编辑中的角色漂移、速度慢等问题,通过潜在空间修正流变换器架构,统一处理图像生成和编辑任务。模型采用3D RoPE位置编码和潜在对抗扩散蒸馏技术,显著

文章图片
#计算机视觉#人工智能#图像处理 +2
    共 355 条
  • 1
  • 2
  • 3
  • 36
  • 请选择