kabuto_hui 个人主页

@kabuto_hui

kabuto_hui

2023-08-28 15:53:56 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【大模型系列】MultiUI(2024.11)

先基于text-based LLMs获取网页的accessibility tree(辅助功能树，)，然后再与网页截图一起作为多模态数据，训练多模态模型。公开了MultiUI数据集，从1M网页中收集了7.3M的样本，包含多种UI任务（3类，9种任务）和界面。

#人工智能 #深度学习

【大模型系列】CogAgent(2024.12)

值得注意的是，在给定相同的截图、用户指令、历史操作的情况下，可能会有多个正确的输入，例如点击“发送”按钮和按下回车键都可以发送消息。高分辨率的图像编码参与到visual language decoder的过程中，在每层MSA(Multi-Self-Attention)层之后，再添加一个cross-attn层，原MSA的输出作为q，高分辨率的图像编码作为k-v，参与运算，最后cross-attn的输

#深度学习 #人工智能

【大模型系列】Mobile-Agent(2024.04)

文本检测模型：文本定位，OCR toolsOCR没有检测到指定文本：agent重新选择文本或者选择替代操作OCR检测到一个包含指定文本的实例：直接点击文本框的中心OCR检测到多个包含指定文本的实例：如果检测到的实例特别多，则需要重新选择文本实例；如果实例数量比较少，根据检测据区域外扩后截图，再将检测框画在截图上，最后让agent决策点击哪一个图标检测模型：图标定位，icon检测工具+CLIP；首先

#人工智能 #深度学习

安卓学习笔记(21)-flutter doctor时显示X Unable to locate Android SDK的解决方案

安卓学习笔记(21)-flutter doctor时显示X Unable to locate Android SDK的解决方案在安装flutter之后，打算开启一个demo测试一下，结果出现了这么一句话：Unable to locate a development device; please run ‘flutter doctor’ for information abou...

#android #学习

STM32问题集之头函数路径报错

报错现象：error: #5: cannot open source input file "usb_conf.h": No such file or directory这是因为没有设置 STM32 固件库的目录，编译器就默认到 “Keil”根目录下的某某目录找去了。如果现在编译程序，会报错的解决方法：引用固件库文件所在的目录需要在顶层的 “C/C++” 页中进行设置。。。

【大模型系列】Mini-InternVL(2024.10)

核心1：通过蒸馏的方式得到Visual encoder(InternViT-6B -> InternViT-300M)，与InternVL2-76B对比，mini-InternVL-4B仅用5%参数实现90%的性能核心2：提出一个迁移到不同下游任务学习框架。

#深度学习 #人工智能

【大模型系列】Mobile-Agent(2024.04)

#人工智能 #深度学习

【大模型系列】Video-XL(2024.10)

提出了一个Video-XL模型，可以有效地对小时级别的视频进行理解，在A100-80G GPU上可以处理2024帧，大海捞针任务(Needle-in-haystack)中取得100%的准确率；引入一个长视频数据集(2min~10min)VICO(Visual Clue Ordering)

#人工智能

【大模型系列】Grounded-VideoLLM(2024.10)

针对长视频，均有抽取96帧还是否有效？关键帧选取每个片段的中间帧是否合理？理想情况下每个片段场景应该类似，但是实际中，每个片段可能出现不同的镜头拍摄角度。以关键帧作为间隔来分割会更合理但是会出现不均匀分割的现象。

#人工智能

【大模型系列】Mobile-Agent(2024.04)

#人工智能 #深度学习

共 25 条

请选择