lx741602698 个人主页

@lx741602698

lx741602698

2022-10-24 12:11:03 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Table as Thought论文精读

llm的推理能力可以通过某些组织其思维过程的方法得到提升。比如cot，这种方法采用顺序结构来一步一步引导推理过程。「Q：什么是cot A：chain of thought链式思维提示，不是让模型直接给答案而是引导模型一步一步思考」然而，目前方法主要专注于组织思维的顺序，每一步内部的结构还缺乏深入研究。因此我们提出了table as thought，受认知神经科学的启发。该方法将推理过程组织在

#人工智能

百度网盘bypy使用

出现几百 MB 就说明成功，程序再也不会报 “No such file or directory”。非会员大概 100 KB/s，2 GB 文件要 5-6 小时；临时用可借会员号，或睡前挂着。→ 登录你的百度账号 → 点“授权” → 把页面里那串。+直链，但得自己抓 cookie，最稳还是让它慢慢跑。只要分享页还能打开，就重新保存再移动一次即可。（全程不用图形界面，服务器里搞定。→ 点“保存到网盘

直接照做，实测成功。

一个规划：1.15把大概的框架想好，写完第一章想想怎么让AI写。那让cursor写？毕竟能看见代码，也许写得好一点。哦不过cursor是写代码比较好吧，写文章换个ai。哦对，还要充一下gemini会员。到时候图也要重新画。那画图放在最后吧，我觉得画图也要一两天的。先把代码传一下github吧。。晚点再看看上一届画的图是什么风格的prompt：我的毕业论文，第三章内容是@MMchange-main

#计算机视觉

文章精读篇——OMG-Seg

其中视频分割提到了tube mask，但是我不太理解tube mask是什么样子的。大概就是每一帧都有mask吧。interactive segmentation中，编码过程是将每个visual prompt（比如一个点坐标或一个矩形框）转化为一个对象查询向量。Open-Vocabulary and Multi-Dataset Segmentation中，在视觉任务中使用CLIP 文本嵌入。

#人工智能

SkyEyeGPT论文精读

llm快速发展，扩展到vlm领域。shikra、miniGPT-v2在多粒度视觉-语言任务上达到sota水平。llava通过构造指令跟随数据集进行微调，为mllms提供了新的训练方式。RSGPT仅支持图像描述和 VQA 任务，无法进行多任务对话。需要针对不同任务训练独立的模型，导致泛化能力受限。GeoChat具备基于区域的问答和视觉定位能力，但无法处理多图像任务。「多图像任务是什么？比如跨时间序列

#人工智能

rs-agent论文精读

rs-agent集成四大核心组件：基于llm的中央控制器、动态工具包用于工具执行、面向任务专家指导的解决方案空间以及支持领域级推理的知识空间，使其能解析用户查询并协调工具完成精准遥感任务。本文提出rs-agent包含四大核心组件：中央控制器（基于llm解析用户查询、规划任务、执行工具、记忆交互历史并检索相关知识）动态工具包（集成遥感领域sota方法）解决方案空间（提供任务专家指导优化工具选择与

#人工智能

MMAD论文精读

另一些研究专门训练mllms去理解传统iad模型的输出，但采用的是传统模型输出评价标准，并不反映mllms本身的能力。数据生成：由于现有的开源IAD数据集缺乏语义标注，我们无法直接用于mllm评估，为此我们设计了一条新的流水线来为每张IAD图像生成评估问题。本文提出了一个专门针对IAD任务的RAG方法，专家在大模型的辅助下，首先对现有的IAD数据集进行总结。这类模型只能完成特定的训练检测任务，无法

#人工智能

change-agent源码阅读

change-agent中用的是多分类的指标：miou（所有类别iou的平均值）、acc（像素准确率）、acc_cls（对每个类别的准确率取平均）、FWIoU_seg（频率加权的交并比，根据类别出现的频率取平均）、类别交并比IoU (Class-wise)[0.9810, 0.7954, 0.8200]1. thought: dict = dict(role='THOUGHT', begin='T

#计算机视觉

rs-agent论文精读

#人工智能

共 15 条

请选择