logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

目标检测:yolo格式txt转换成COCO格式json

修改对应文件路径即可,其他根据txt或者希望生成的json做轻微调整。

#目标检测#json
浅谈视觉与语言中的多模态研究,究竟都研究什么

前言随着人工智能的整体进步,计算机视觉和自然语言处理已经有了巨大的。有了如此强大的算法和自主系统的综合能力,就需要合并知识领域,实现跨模态兼容,视觉语言(VisLang)研究具有更复杂的任务和交互式和可解释系统的需要。这已经浮出了各种具有挑战性的任务,如视觉语言导航,机器人的自主功能与环境的全面了解,视觉字幕生成丰富和有意义的语言描述等等,本篇就浅谈视觉语言多模态研究究竟在研究什么。VisLang

#python#开发语言
论文笔记:Beyond a Pre-Trained Object Detector:Cross-Modal Textual and Visual Context for Image Caption

Xmodal-Ctx 建议在以往的架构中添加一个辅助输入,用于表示缺失的信息(例如对象关系)。Xmodal-Ctx 对每个组件和预训练多模态模型的重要性进行了全面分析,验证了其在图像描述生成任务上的有效性

#python#人工智能#深度学习
目标检测:yolo格式txt转换成COCO格式json

修改对应文件路径即可,其他根据txt或者希望生成的json做轻微调整。

#目标检测#json
论文记录:图像描述技术综述

文章目录前言一、什么是image caption?二、基于深度学习的图像描述方法1.基于编码器-解码器的方法2.基于注意力机制的方法3.基于生成对抗网络的方法4.基于强化学习的方法5.基于密集描述的方法总结前言因为实验室研究方向是image caption,所以最近开始阅读一些image caption的综述。一、什么是image caption?图像描述技术,就是以图像为输入,通过数学模型和计算

#python#开发语言
通义千问(Qwen-VL)本地微调

官方上给的对话是一次对话给一个框的信息,但是如果一张图有多个框就需要多次对话。经过测试发现对话轮数越多训练时间也越长,并且测试后发现貌似一个id好像仅限6轮对话(不确定),所以需要根据自己的数据进行修改。修改finetune/finetune_qlora_single_gpu.sh中的一些设置,其中主要修改标红部分,其他参数自己设当调整。在这里可以选择多种下载方式,然后根据自己的显存选择合适的,我

#python#AIGC
将自己的数据集格式(xml)转化成通义千问的微调格式(json)

根据自己的xml文件进行相应修改里头的属性。

文章图片
#xml#json
到底了