詹姆斯德1 个人主页

@Guet142021

詹姆斯德1

2023-09-15 11:00:46 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

目标检测:VOC xml标注格式转换成COCOjson格式(从一整个存放xml(txt)的文件夹到一个json文件)

可以将xml或者txt转换成coco标注格式,即一整个json文件。

#目标检测 #xml #json

目标检测:yolo格式txt转换成COCO格式json

修改对应文件路径即可,其他根据txt或者希望生成的json做轻微调整。

#目标检测 #json

浅谈视觉与语言中的多模态研究，究竟都研究什么

前言随着人工智能的整体进步，计算机视觉和自然语言处理已经有了巨大的。有了如此强大的算法和自主系统的综合能力，就需要合并知识领域，实现跨模态兼容，视觉语言(VisLang)研究具有更复杂的任务和交互式和可解释系统的需要。这已经浮出了各种具有挑战性的任务，如视觉语言导航，机器人的自主功能与环境的全面了解，视觉字幕生成丰富和有意义的语言描述等等，本篇就浅谈视觉语言多模态研究究竟在研究什么。VisLang

#python #开发语言

论文笔记：Beyond a Pre-Trained Object Detector:Cross-Modal Textual and Visual Context for Image Caption

Xmodal-Ctx 建议在以往的架构中添加一个辅助输入，用于表示缺失的信息（例如对象关系）。Xmodal-Ctx 对每个组件和预训练多模态模型的重要性进行了全面分析，验证了其在图像描述生成任务上的有效性

#python #人工智能 #深度学习

目标检测:yolo格式txt转换成COCO格式json

修改对应文件路径即可,其他根据txt或者希望生成的json做轻微调整。

#目标检测 #json

目标检测:VOC xml标注格式转换成COCOjson格式(从一整个存放xml(txt)的文件夹到一个json文件)

可以将xml或者txt转换成coco标注格式,即一整个json文件。

#目标检测 #xml #json

论文记录：图像描述技术综述

文章目录前言一、什么是image caption？二、基于深度学习的图像描述方法1.基于编码器-解码器的方法2.基于注意力机制的方法3.基于生成对抗网络的方法4.基于强化学习的方法5.基于密集描述的方法总结前言因为实验室研究方向是image caption，所以最近开始阅读一些image caption的综述。一、什么是image caption？图像描述技术,就是以图像为输入,通过数学模型和计算

#python #开发语言

通义千问（Qwen-VL）本地微调

官方上给的对话是一次对话给一个框的信息，但是如果一张图有多个框就需要多次对话。经过测试发现对话轮数越多训练时间也越长，并且测试后发现貌似一个id好像仅限6轮对话（不确定），所以需要根据自己的数据进行修改。修改finetune/finetune_qlora_single_gpu.sh中的一些设置，其中主要修改标红部分，其他参数自己设当调整。在这里可以选择多种下载方式，然后根据自己的显存选择合适的，我

#python #AIGC

将自己的数据集格式（xml）转化成通义千问的微调格式（json）

根据自己的xml文件进行相应修改里头的属性。

#xml #json

到底了