
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
端设备上的超高效大型语言模型

《YaRN: Efficient Context Window Extension of Large Language Models》是一项针对大型语言模型上下文窗口扩展的研究。论文通过改进RoPE位置编码,提出YaRN方法,结合"NTK-by-parts"插值和注意力缩放技术,仅需0.1%原始预训练数据微调即可实现有效扩展。实验表明,YaRN能将Llama 2模型的上下文窗口

区域注意力模块(Area Attention)区域注意力模块是一种简单高效的注意力机制,通过将特征图在垂直或水平方向上划分为多个区域,避免了复杂的窗口划分操作,仅需简单的 reshape 操作即可实现,从而提高了速度并保持了较大的感受野。该模块将注意力机制的计算复杂度从 2n²hd 降低到 1/2n²hd,同时对性能影响较小。残差高效层聚合网络(R-ELAN)R-ELAN 是为了解决注意力机制引入

通义万象1.3B测试(文生视频)

nanoVLM 是一个极简的视觉语言模型(VLM)训练和微调代码库,采用纯 PyTorch 实现,代码简洁易读,强调教育价值而非追求最新性能。模型结构包括视觉骨干网络、语言解码器、模态投影和 VLM 本身,总代码量约 750 行。使用 SigLIP-B/16-224 和 SmolLM2-135M 构建的 222M 参数模型在 MMStar 数据集上达到 35.3% 的准确率。项目提供了快速入门指南

Llama-3.1-Nemotron-Nano-VL-8B-V1

《Fast Text-to-Audio Generation with Adversarial Post-Training》论文提出了一种新的文本到音频生成加速方法,旨在解决现有系统推理速度慢的问题。该方法通过对抗相对论-对比后训练(ARC)替代传统的蒸馏方法,避免了高成本和性能损失。ARC结合了对抗相对论损失和对比损失,提升了生成多样性和文本遵循性。实验表明,ARC在保持音频质量的同时,显著提升

【摘要】本文提出了一种创新的视频挖掘方法,通过将图像描述数据集中的文本转移到相似视频片段,构建出千万级规模的VideoCC3M数据集(1030万视频-描述对),解决了视频音频领域标注数据匮乏的难题。该方法采用双流模型架构,在文本-视频检索、音频检索和视频描述三大任务上取得突破性表现:在MSR-VTT数据集上检索性能超越HowTo100M预训练模型,AudioCaps音频检索达到SOTA,视频描述任

开源的面向经济高效型机器人应用的视觉-语言-行为模型速览:smolvla_base

《FLUX.1 Kontext: Flow Matching for In-Context Image Generation and Editing in Latent Space》提出了一种基于流匹配的新型图像生成与编辑模型。该研究针对现有模型在多轮编辑中的角色漂移、速度慢等问题,通过潜在空间修正流变换器架构,统一处理图像生成和编辑任务。模型采用3D RoPE位置编码和潜在对抗扩散蒸馏技术,显著









