
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
ICCV 2025这篇文章提出了一种新颖的3D高斯溅射(3DGS)分组训练方法,通过将高斯基元划分为训练组和缓存组来优化训练效率。该方法采用基于不透明度的优先采样策略,有效减少冗余基元生成,在保持渲染质量的同时提升30%训练速度。实验证明该方法与现有3DGS框架兼容,显著改善场景重建效率和视图合成质量。关键创新包括循环缓存机制和数学验证的不透明度采样策略,为3DGS训练提供了高效解决方案。

本文介绍了LLaVA(Large Language and Vision Assistant),首次将指令调优扩展到多模态领域。通过GPT-4生成的视觉-语言指令数据,连接CLIP视觉编码器和Vicuna语言模型,构建了一个端到端的通用视觉助手。实验表明,LLaVA在多模态任务中表现出色,在Science QA上达到92.53%的新SOTA准确率。研究贡献包括:(1)提出GPT辅助的多模态指令数据

阿里巴巴团队提出的Qwen-VL是一系列多功能视觉语言模型,基于Qwen-7B语言模型增强视觉能力。通过创新设计的视觉接收器、三阶段训练流程(预训练-细调-指令微调)以及多语言多模态清洗数据集(14亿条数据),该模型支持图像理解、定位、文本阅读等细粒度任务。Qwen-VL系列包含基础模型Qwen-VL和对话优化版Qwen-VL-Chat,在多项视觉基准测试中刷新性能记录,具备多图像处理、多语言交互

本文系统介绍了视觉语言模型(VLM)的研究进展与应用前景。随着大型语言模型(LLM)的成功,研究者开始探索如何将视觉与语言模态有效结合,以拓展AI技术的应用边界。文章首先阐述了VLM的定义与核心挑战,指出视觉数据的高维特性与语言的离散表达之间存在显著鸿沟。随后,论文将现有VLM方法归纳为四大范式:对比学习、掩码重建、基于预训练主干网络和生成式模型,并分析了代表性工作的技术特点。此外,文章探讨了VL

Qwen2-VL:突破分辨率限制的视觉语言模型 阿里巴巴团队提出的Qwen2-VL系列模型通过创新架构显著提升了视觉语言模型的感知能力。该模型引入朴素动态分辨率机制,使不同分辨率的图像能动态转换为可变数量的视觉token,配合多模态旋转位置编码(M-RoPE)有效融合文本、图像和视频的位置信息。模型采用统一范式处理图像和视频,支持长达20分钟的视频理解。Qwen2-VL系列包含2B、8B和72B三

LoRA(Low-Rank Adaptation)是一种高效的大模型微调方法,通过冻结预训练模型权重并注入可训练的低秩矩阵,显著减少下游任务参数数量。实验表明,LoRA在GPT-3等模型上仅需0.01%的可训练参数,即可达到全量微调效果,且不增加推理延迟。相比适配器层和前缀微调等方法,LoRA在参数效率、计算开销和任务切换成本方面具有明显优势,特别适合大规模语言模型部署场景。

本文介绍了LeetCUDA中histogram算子的实现细节,包括环境配置、代码结构和两种不同实现方式。该算子通过PyTorch C++/CUDA扩展实现了GPU加速的直方图统计功能,支持单元素处理和4元素SIMD向量化优化版本。文中详细解读了Python接口调用和CUDA内核实现,重点说明了如何利用原子操作保证多线程统计的正确性,以及通过向量化加载提升内存访问效率。测试结果表明该算子在3090显

本文介绍了LeetCUDA中sigmoid算子的实现与优化。通过PyTorch C++/CUDA扩展实现了GPU加速的sigmoid函数,支持FP32和FP16精度,并提供了基础版、向量优化版等不同实现方案。文章详细说明了环境配置(针对3090显卡的调整)、代码结构(包括Python接口和CUDA内核),重点解读了性能测试函数的设计。该算子通过预热、多次迭代计时等机制,公平比较不同实现(如自定义优

本文详细介绍了Qwen3-VL-8B-Instruct多模态大模型的部署方法和显存占用测试。主要内容包括:1)通过GitHub下载代码库,使用Modelscope获取模型权重;2)配置conda虚拟环境并安装必要的Python库;3)改造推理代码以测量峰值显存占用。测试结果显示,在单张图片推理任务中,模型能准确描述图像内容(如沙滩上女子与狗的温馨场景),单卡显存占用约17GB,多卡可降低单卡负载。

LoRA(Low-Rank Adaptation)是一种高效的大模型微调方法,通过冻结预训练模型权重并注入可训练的低秩矩阵,显著减少下游任务参数数量。实验表明,LoRA在GPT-3等模型上仅需0.01%的可训练参数,即可达到全量微调效果,且不增加推理延迟。相比适配器层和前缀微调等方法,LoRA在参数效率、计算开销和任务切换成本方面具有明显优势,特别适合大规模语言模型部署场景。








