logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

qwen2vl 训练记录

image_grid_thw’: tensor([[1,98, 146]], device=‘cuda:0’)}}三个维度的大小时间、高度、宽度grid_t, grid_h, grid_w。4、qwen2vl lora训练时,可以设置 freeze_vision_tower为false、增加的参数量大概在0.06%(图片限制在 512token时)/ 0.4%(图片在3300token时)因为 图

多模态模型基础

ViT的位置编码:https://blog.csdn.net/qq_44166630/article/details/127429697QwenVL发布:https://qwenlm.github.io/zh/blog/qwen-vl/

#论文阅读
Qwen2来了

级别二:为了减少 因关键词重叠度不足导致的 上下文错过 的问题,用LLM来判断块和query的相关度,用相关块的相关句子 而不是 query当中的 关键词来检索 最相关的块。级别一:先用LLM来对user query进行“信息”和“指令”的抽取,然后用LLM对信息进行翻译,多语言的角度用BM25来提取相关块…「大量精力:如何扩展多语言预训练 和指令微调数据的规模并提升质量,提升模型的多语言能力」级

Qwen2-VL论文阅读笔记

Naive Dynamic Resolution - 用2D-RoPE取代绝对位置编码推理阶段的序列长度是可控的【推理阶段的不定长的vision tokens是怎么处理的?遵从qwenvl的三阶段:用image-text单独训练ViT、解冻所有参数训练理解能力、最后冻住ViT只训练LLM遵循格式化数据。预训练阶段目的: 学习 图文关系、通过ocr的图像文本上下文识别、图片分类任务。平衡长视频处理的

文章图片
Qwen 开源标杆

1、Qwen1.5 110B:相同的Transformer解码器架构、GQA、支持32K tokens的上下文长度、支持多语言。性能和LLama-3-70B媲美。不算量化、已经开源的Qwen1.5 版本有9个: 0.5B、1.8B、4B、7B、14B、32B、72B、110B、MoE-A2.7B。闭源已经发展到 Qwen-Max-0428、网页端从2.1升级到2.5。

git和docker部分命令

Gitgit config --global user.name " "git config --global user.email " "git remote add origin git@ :git statusgit add README.mdgit commit -m “修改readme.md”git push -u origin masterDockerdocker b...

AI2的mosaic和Aristo项目简介

Mosaic项目common sense for AIthe mosaic team seeks to define,develop,and improve common sense for ai-an important, fundamental skill required to go beyond the narrow and brittle ai applications we hav..

CCF A类!!!

人工智能方向国际学术刊物AI: Artificial IntelligenceTPAMI:IEEE Trans on Pattern Analysis and Machine IntelligenceIJCV:International Journal of Computer VisionJMLR:Journal of Machine Learning Research国际学术会议...

到底了