若叶€枫璨个人主页

@qq_60587145

若叶€枫璨

2023-10-26 22:40:11 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

结合代码读3DGS论文（7）——ICCV 2025 3DGS加速&压缩新工作Faster and Better 3D Splatting via Group Training论文及代码解读

ICCV 2025这篇文章提出了一种新颖的3D高斯溅射（3DGS）分组训练方法，通过将高斯基元划分为训练组和缓存组来优化训练效率。该方法采用基于不透明度的优先采样策略，有效减少冗余基元生成，在保持渲染质量的同时提升30%训练速度。实验证明该方法与现有3DGS框架兼容，显著改善场景重建效率和视图合成质量。关键创新包括循环缓存机制和数学验证的不透明度采样策略，为3DGS训练提供了高效解决方案。

#3d #图形渲染 #计算机视觉 +2

VLM经典论文阅读：【LLaVA】Visual Instruction Tuning

本文介绍了LLaVA（Large Language and Vision Assistant），首次将指令调优扩展到多模态领域。通过GPT-4生成的视觉-语言指令数据，连接CLIP视觉编码器和Vicuna语言模型，构建了一个端到端的通用视觉助手。实验表明，LLaVA在多模态任务中表现出色，在Science QA上达到92.53%的新SOTA准确率。研究贡献包括：(1)提出GPT辅助的多模态指令数据

#论文阅读 #机器学习 #人工智能 +2

VLM经典论文阅读：【Qwen-VL】A Versatile Vision-Language Model for Understanding, Localization,Text Reading...

阿里巴巴团队提出的Qwen-VL是一系列多功能视觉语言模型，基于Qwen-7B语言模型增强视觉能力。通过创新设计的视觉接收器、三阶段训练流程（预训练-细调-指令微调）以及多语言多模态清洗数据集（14亿条数据），该模型支持图像理解、定位、文本阅读等细粒度任务。Qwen-VL系列包含基础模型Qwen-VL和对话优化版Qwen-VL-Chat，在多项视觉基准测试中刷新性能记录，具备多图像处理、多语言交互

#论文阅读 #语言模型 #人工智能 +3

VLM经典论文阅读：【综述】An Introduction to Vision-Language Modeling

本文系统介绍了视觉语言模型（VLM）的研究进展与应用前景。随着大型语言模型（LLM）的成功，研究者开始探索如何将视觉与语言模态有效结合，以拓展AI技术的应用边界。文章首先阐述了VLM的定义与核心挑战，指出视觉数据的高维特性与语言的离散表达之间存在显著鸿沟。随后，论文将现有VLM方法归纳为四大范式：对比学习、掩码重建、基于预训练主干网络和生成式模型，并分析了代表性工作的技术特点。此外，文章探讨了VL

#论文阅读 #语言模型 #人工智能 +4

VLM经典论文阅读：【Qwen2-VL】Enhancing Vision-Language Model’s Perception of the World at Any Resolution

Qwen2-VL：突破分辨率限制的视觉语言模型阿里巴巴团队提出的Qwen2-VL系列模型通过创新架构显著提升了视觉语言模型的感知能力。该模型引入朴素动态分辨率机制，使不同分辨率的图像能动态转换为可变数量的视觉token，配合多模态旋转位置编码(M-RoPE)有效融合文本、图像和视频的位置信息。模型采用统一范式处理图像和视频，支持长达20分钟的视频理解。Qwen2-VL系列包含2B、8B和72B三

#论文阅读 #语言模型 #人工智能 +2

LoRA（Low-Rank Adaptation）是一种高效的大模型微调方法，通过冻结预训练模型权重并注入可训练的低秩矩阵，显著减少下游任务参数数量。实验表明，LoRA在GPT-3等模型上仅需0.01%的可训练参数，即可达到全量微调效果，且不增加推理延迟。相比适配器层和前缀微调等方法，LoRA在参数效率、计算开销和任务切换成本方面具有明显优势，特别适合大规模语言模型部署场景。

#论文阅读 #语言模型 #人工智能 +4

LeetCUDA学习记录（二）——histogram算子（直方图统计）代码实现详细解读

本文介绍了LeetCUDA中histogram算子的实现细节，包括环境配置、代码结构和两种不同实现方式。该算子通过PyTorch C++/CUDA扩展实现了GPU加速的直方图统计功能，支持单元素处理和4元素SIMD向量化优化版本。文中详细解读了Python接口调用和CUDA内核实现，重点说明了如何利用原子操作保证多线程统计的正确性，以及通过向量化加载提升内存访问效率。测试结果表明该算子在3090显

#学习 #c++#人工智能 +2

LeetCUDA学习记录（三）—— sigmoid算子代码实现详细解读

本文介绍了LeetCUDA中sigmoid算子的实现与优化。通过PyTorch C++/CUDA扩展实现了GPU加速的sigmoid函数，支持FP32和FP16精度，并提供了基础版、向量优化版等不同实现方案。文章详细说明了环境配置（针对3090显卡的调整）、代码结构（包括Python接口和CUDA内核），重点解读了性能测试函数的设计。该算子通过预热、多次迭代计时等机制，公平比较不同实现（如自定义优

#学习 #算法 #c++ +3

Qwen3-VL-8B-Instruct模型部署和峰值显存占用实测

本文详细介绍了Qwen3-VL-8B-Instruct多模态大模型的部署方法和显存占用测试。主要内容包括：1）通过GitHub下载代码库，使用Modelscope获取模型权重；2）配置conda虚拟环境并安装必要的Python库；3）改造推理代码以测量峰值显存占用。测试结果显示，在单张图片推理任务中，模型能准确描述图像内容（如沙滩上女子与狗的温馨场景），单卡显存占用约17GB，多卡可降低单卡负载。

#语言模型 #人工智能 #计算机视觉 +3

#论文阅读 #语言模型 #人工智能 +4

共 15 条

请选择