logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【大模型系列】AgentCPM-GUI(2025.06)

AgentCPM-GUI基于构建,具备很好的视觉感知和指令跟随能力。LLM:Llama3。

文章图片
#人工智能
【大模型系列】DLLM与Block Diffusion的区别与联系

摘要 扩散语言模型(DLLM)是一种新型文本生成方法,突破了传统自回归模型逐token生成的限制。DLLM借鉴图像扩散模型思想,通过离散扩散方式处理文本:1)从全序列噪声开始;2)逐步迭代去噪还原文本;3)支持全局并行处理。训练采用前向加噪(随机替换为掩码或无关token)和反向去噪学习策略。文中给出了问答任务的具体实现,包括数据编码、噪声调度、模型架构(基于BERT)和训练过程,重点展示了如何对

#人工智能
循环神经网络(RNN)学习笔记

文章目录0 前言1 RNN结构2 手动实现一个RNN3 RNN的推导参考资料0 前言  循环神经网络(Recurrent Neural Network, RNN)的主要用途是处理和预测序列数据。无论是全连接神经网络还是卷积神经网络,其网络结构都是从输入层到隐藏层再到输出层,层与层之间是全连接或者部分连接,层之间的节点是无连接的。而循环神经网络隐藏层之间的结点是有连接的,隐藏层的输入不仅包括输入..

【大模型系列】Mini-InternVL(2024.10)

核心1:通过蒸馏的方式得到Visual encoder(InternViT-6B -> InternViT-300M),与InternVL2-76B对比,mini-InternVL-4B仅用5%参数实现90%的性能核心2:提出一个迁移到不同下游任务学习框架。

文章图片
#深度学习#人工智能
【大模型系列】Mobile-Agent(2024.04)

文本检测模型:文本定位,OCR toolsOCR没有检测到指定文本:agent重新选择文本或者选择替代操作OCR检测到一个包含指定文本的实例:直接点击文本框的中心OCR检测到多个包含指定文本的实例:如果检测到的实例特别多,则需要重新选择文本实例;如果实例数量比较少,根据检测据区域外扩后截图,再将检测框画在截图上,最后让agent决策点击哪一个图标检测模型:图标定位,icon检测工具+CLIP;首先

文章图片
#人工智能#深度学习
【大模型系列】Video-XL(2024.10)

提出了一个Video-XL模型,可以有效地对小时级别的视频进行理解,在A100-80G GPU上可以处理2024帧,大海捞针任务(Needle-in-haystack)中取得100%的准确率;引入一个长视频数据集(2min~10min)VICO(Visual Clue Ordering)

文章图片
#人工智能
【大模型系列】mPLUG-Owl3(2024.08)

增强了处理长图片序列的能力提出了一种hyper attention blocks,有效地将视觉和余元集中到一个共同的由语言引导的语义空间提出了一个长视觉序列评估基准:Distractor Resistance核心创新点:visual feature不直接作为LLM的输入,而是在LLM中间几层参与计算,再与文本特征融合到一起,因此不会因为输入的图片多而导致超出LLM的最大输入限制。mPLUG-Owl

文章图片
#人工智能#深度学习
【大模型系列】CogAgent(2024.12)

值得注意的是,在给定相同的截图、用户指令、历史操作的情况下,可能会有多个正确的输入,例如点击“发送”按钮和按下回车键都可以发送消息。高分辨率的图像编码参与到visual language decoder的过程中,在每层MSA(Multi-Self-Attention)层之后,再添加一个cross-attn层,原MSA的输出作为q,高分辨率的图像编码作为k-v,参与运算,最后cross-attn的输

文章图片
#深度学习#人工智能
【大模型系列】MultiUI(2024.11)

先基于text-based LLMs获取网页的accessibility tree(辅助功能树,),然后再与网页截图一起作为多模态数据,训练多模态模型。公开了MultiUI数据集,从1M网页中收集了7.3M的样本,包含多种UI任务(3类,9种任务)和界面。

文章图片
#人工智能#深度学习
【大模型系列】CogAgent(2024.12)

值得注意的是,在给定相同的截图、用户指令、历史操作的情况下,可能会有多个正确的输入,例如点击“发送”按钮和按下回车键都可以发送消息。高分辨率的图像编码参与到visual language decoder的过程中,在每层MSA(Multi-Self-Attention)层之后,再添加一个cross-attn层,原MSA的输出作为q,高分辨率的图像编码作为k-v,参与运算,最后cross-attn的输

文章图片
#深度学习#人工智能
    共 29 条
  • 1
  • 2
  • 3
  • 请选择