logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LLaMA论文阅读笔记

摘要:Meta发布的LLaMA系列开源大语言模型(7B-65B参数)采用完全开源数据训练(1.4万亿tokens),通过架构创新实现高效性能:1)RMSNorm预归一化提升稳定性;2)SwiGLU激活函数增强表达能力;3)RoPE位置编码优化长文本处理。实验显示,13B模型超越GPT-3(175B),65B模型达到SOTA水平。该研究证明小模型+大数据策略的有效性,其技术方案(如SwiGLU、Ro

#论文阅读
qwen2论文阅读笔记

摘要:Qwen2系列开源模型(0.5B-72B参数)通过多项技术创新显著提升性能。采用分组查询注意力(GQA)优化推理速度,双分块注意力(DCA)与改进的RoPE位置编码增强长文本处理(支持131K tokens),混合专家模型(MoE)通过共享/专用专家设计提升效率。预训练数据从3万亿扩展到7万亿token,配合高质量后训练(SFT+DPO)实现指令对齐。实验表明Qwen2超越现有开源模型并接近

#论文阅读
qwen2-vl论文阅读笔记

Qwen2-VL系列模型引入了朴素动态分辨率机制(Naive Dynamic Resolution mechanism),可以把不同分辨率的图像处理成不同数目的视觉token,进而实现更加准确和高效的表达,比较贴合人类的感知系统。此外,还引入了多模态旋转位置编码(M-RoPE),有利于将文本、图像及视频的位置信息进行高效的融合,在处理图像和视频输入的时候,采用统一的处理范式,增强了模型的视觉感知能

#论文阅读
qwen2.5论文阅读笔记

qwen2.5相对qwen2在预训练后后训练阶段有较大优化。在预训练阶段数据规模从qwen2的7万亿token增加到18万亿。后训练阶段,实现了sft之后进行离线DPO强化学习和在线GRPO强化学习(从deepseek学来的)。

#论文阅读
qwen2-vl论文阅读笔记

Qwen2-VL系列模型引入了朴素动态分辨率机制(Naive Dynamic Resolution mechanism),可以把不同分辨率的图像处理成不同数目的视觉token,进而实现更加准确和高效的表达,比较贴合人类的感知系统。此外,还引入了多模态旋转位置编码(M-RoPE),有利于将文本、图像及视频的位置信息进行高效的融合,在处理图像和视频输入的时候,采用统一的处理范式,增强了模型的视觉感知能

#论文阅读
qwen2论文阅读笔记

摘要:Qwen2系列开源模型(0.5B-72B参数)通过多项技术创新显著提升性能。采用分组查询注意力(GQA)优化推理速度,双分块注意力(DCA)与改进的RoPE位置编码增强长文本处理(支持131K tokens),混合专家模型(MoE)通过共享/专用专家设计提升效率。预训练数据从3万亿扩展到7万亿token,配合高质量后训练(SFT+DPO)实现指令对齐。实验表明Qwen2超越现有开源模型并接近

#论文阅读
【3D目标检测】PointPillars: Fast Encoders for Object Detection from Point Clouds论文解读(2019)

1、 为什么要做这个研究(理论走向和目前缺陷) ?VoxelNet只有4.4fps,SECOND虽然能达到20fps,但还有提升空间。2、 他们怎么做这个研究 (方法,尤其是与之前不同之处) ?算是对SECOND的加速版,将原来3D 体素网格的编码方式改为2D立柱方式,且改用2D 卷积而非3D 卷积处理。还有一些其他的加速操作,比如特征降维,tensorRT等。3、 发现了什么(总结结果,补充和理

【3D目标检测】Deep Continuous Fusion for Multi-Sensor 3D Object Detection论文综述(2018)

1、为什么要做这个研究(理论走向和目前缺陷) ?这是一篇比较早的做点云和图像融合做3D目标检测的论文,以前的融合没有做多层融合的,融合过程也过于单一,这篇论文提出了比较有新意的融合思路。2、他们怎么做这个研究 (方法,尤其是与之前不同之处) ?双流,一个处理点云的鸟瞰图,一个处理图像,这里的关键是如何将鸟瞰图特征和图像特征对应起来然后融合(对应元素特征相加),3D点云恰好就是这个负责联系鸟瞰图特征

qwen论文阅读笔记

发布Qwen系列首款产品,包括基础预训练模型Qwen, 使用人工对齐机器微调出来的聊天模型qwen-chat, 聊天模型在agent应用时的工具使用能力和规划能力也是相当优化。还发布了针对变成的模型code-qwen和code-qwen-chat,以及专注于数学的模型math-qwen-chat。这些模型比现有的开源模型都要强,但是比闭源模型略弱。

#论文阅读
Deepstack论文阅读笔记

摘要 传统多模态大模型通常将所有视觉tokens串联输入LLM第一层,导致高分辨率图像下计算量和内存占用激增。本文提出DeepStack方法,将高分辨率视觉tokens分层注入LLM的不同层中,在不增加输入tokens数量的前提下,显著提升模型性能,尤其在OCR、图表分析等依赖细节的任务上表现优异。实验表明,该方法在文本导向任务(如DocVQA、TextVQA)和视频QA任务中均优于基线模型,且计

#论文阅读
    共 16 条
  • 1
  • 2
  • 请选择