logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【大模型系列】MultiUI(2024.11)

先基于text-based LLMs获取网页的accessibility tree(辅助功能树,),然后再与网页截图一起作为多模态数据,训练多模态模型。公开了MultiUI数据集,从1M网页中收集了7.3M的样本,包含多种UI任务(3类,9种任务)和界面。

文章图片
#人工智能#深度学习
【大模型系列】CogAgent(2024.12)

值得注意的是,在给定相同的截图、用户指令、历史操作的情况下,可能会有多个正确的输入,例如点击“发送”按钮和按下回车键都可以发送消息。高分辨率的图像编码参与到visual language decoder的过程中,在每层MSA(Multi-Self-Attention)层之后,再添加一个cross-attn层,原MSA的输出作为q,高分辨率的图像编码作为k-v,参与运算,最后cross-attn的输

文章图片
#深度学习#人工智能
【大模型系列】Mobile-Agent(2024.04)

文本检测模型:文本定位,OCR toolsOCR没有检测到指定文本:agent重新选择文本或者选择替代操作OCR检测到一个包含指定文本的实例:直接点击文本框的中心OCR检测到多个包含指定文本的实例:如果检测到的实例特别多,则需要重新选择文本实例;如果实例数量比较少,根据检测据区域外扩后截图,再将检测框画在截图上,最后让agent决策点击哪一个图标检测模型:图标定位,icon检测工具+CLIP;首先

文章图片
#人工智能#深度学习
安卓学习笔记(21)-flutter doctor时显示X Unable to locate Android SDK的解决方案

安卓学习笔记(21)-flutter doctor时显示X Unable to locate Android SDK的解决方案​在安装flutter之后,打算开启一个demo测试一下,结果出现了这么一句话:Unable to locate a development device; please run ‘flutter doctor’ for information abou...

文章图片
#android#学习
STM32问题集之头函数路径报错

报错现象:error:  #5: cannot open source input file "usb_conf.h": No such file or directory这是因为没有设置 STM32 固件库的目录, 编译器就默认到 “Keil”根目录下的某某目录找去了。如果现在编译程序,会报错的解决方法:引用固件库文件所在的目录需要在顶层的 “C/C++” 页中进行设置。。。

【大模型系列】Mini-InternVL(2024.10)

核心1:通过蒸馏的方式得到Visual encoder(InternViT-6B -> InternViT-300M),与InternVL2-76B对比,mini-InternVL-4B仅用5%参数实现90%的性能核心2:提出一个迁移到不同下游任务学习框架。

文章图片
#深度学习#人工智能
【大模型系列】Mobile-Agent(2024.04)

文本检测模型:文本定位,OCR toolsOCR没有检测到指定文本:agent重新选择文本或者选择替代操作OCR检测到一个包含指定文本的实例:直接点击文本框的中心OCR检测到多个包含指定文本的实例:如果检测到的实例特别多,则需要重新选择文本实例;如果实例数量比较少,根据检测据区域外扩后截图,再将检测框画在截图上,最后让agent决策点击哪一个图标检测模型:图标定位,icon检测工具+CLIP;首先

文章图片
#人工智能#深度学习
【大模型系列】Video-XL(2024.10)

提出了一个Video-XL模型,可以有效地对小时级别的视频进行理解,在A100-80G GPU上可以处理2024帧,大海捞针任务(Needle-in-haystack)中取得100%的准确率;引入一个长视频数据集(2min~10min)VICO(Visual Clue Ordering)

文章图片
#人工智能
【大模型系列】Mobile-Agent(2024.04)

文本检测模型:文本定位,OCR toolsOCR没有检测到指定文本:agent重新选择文本或者选择替代操作OCR检测到一个包含指定文本的实例:直接点击文本框的中心OCR检测到多个包含指定文本的实例:如果检测到的实例特别多,则需要重新选择文本实例;如果实例数量比较少,根据检测据区域外扩后截图,再将检测框画在截图上,最后让agent决策点击哪一个图标检测模型:图标定位,icon检测工具+CLIP;首先

文章图片
#人工智能#深度学习
【大模型系列】Grounded-VideoLLM(2024.10)

针对长视频,均有抽取96帧还是否有效?关键帧选取每个片段的中间帧是否合理?理想情况下每个片段场景应该类似,但是实际中,每个片段可能出现不同的镜头拍摄角度。以关键帧作为间隔来分割会更合理但是会出现不均匀分割的现象。

文章图片
#人工智能
    共 27 条
  • 1
  • 2
  • 3
  • 请选择