logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【AI大模型前沿】UniPixel:香港理工大学联合腾讯推出的像素级多模态大模型

UniPixel是一个由香港理工大学和腾讯ARC Lab团队开发的统一像素级多模态大模型,专注于图像/视频的精细理解与交互。它能够在单个模型中完成对象指代、像素级分割和区域推理三大任务,通过创新设计的“对象记忆机制”和统一视觉编码方式,实现了对视频中目标的精准追踪与语义理解。基于Qwen2.5-VL框架构建的UniPixel,支持点、框、掩码三种交互方式,在9项视觉任务基准测试中超越了72B参数的

文章图片
#人工智能#语言模型#AIGC +1
【AI大模型前沿】UniPixel:香港理工大学联合腾讯推出的像素级多模态大模型

UniPixel是一个由香港理工大学和腾讯ARC Lab团队开发的统一像素级多模态大模型,专注于图像/视频的精细理解与交互。它能够在单个模型中完成对象指代、像素级分割和区域推理三大任务,通过创新设计的“对象记忆机制”和统一视觉编码方式,实现了对视频中目标的精准追踪与语义理解。基于Qwen2.5-VL框架构建的UniPixel,支持点、框、掩码三种交互方式,在9项视觉任务基准测试中超越了72B参数的

文章图片
#人工智能#语言模型#AIGC +1
【AI大模型前沿】Youtu-Embedding:腾讯优图开源的高性能通用文本表示模型

Youtu-Embedding 是腾讯优图实验室开发的面向企业级应用的通用文本表示模型。该模型通过大规模语料预训练和创新的微调框架,具备强大的语义理解能力,能够胜任文本检索、意图理解、相似度判断等六大任务。它在中文语义评测基准 CMTEB 上表现优异,广泛适用于企业客服、知识管理、智能问答等场景。

文章图片
#人工智能#开源#AIGC +1
【AI大模型前沿】Youtu-Embedding:腾讯优图开源的高性能通用文本表示模型

Youtu-Embedding 是腾讯优图实验室开发的面向企业级应用的通用文本表示模型。该模型通过大规模语料预训练和创新的微调框架,具备强大的语义理解能力,能够胜任文本检索、意图理解、相似度判断等六大任务。它在中文语义评测基准 CMTEB 上表现优异,广泛适用于企业客服、知识管理、智能问答等场景。

文章图片
#人工智能#开源#AIGC +1
【GitHub开源AI精选】Glyph:智谱与清华开源的视觉文本压缩框架,突破大模型上下文限制

Glyph 是一个通过视觉 - 文本压缩扩展上下文窗口的框架,它将长文本渲染为图像,利用视觉语言模型(VLM)处理图像,从而在不增加模型实际上下文长度的前提下实现上下文的高效扩展。这种方法不仅大幅降低了计算成本和显存占用,还显著提升了推理速度,同时在多模态任务中展现出强大的泛化能力。

文章图片
#开源#人工智能#AIGC +1
【GitHub开源AI精选】LLaVA-OneVision-1.5:面向多模态训练大众化的全开源框架

LLaVA-OneVision-1.5 是由 EvolvingLMMS-Lab 开发的全开源多模态框架,旨在通过高效训练和高质量数据实现多模态任务的高性能和低成本。该模型采用自研的 RICE-ViT 作为视觉编码器,结合 2D 旋转位置编码和区域感知注意力机制,支持可变输入分辨率。基于 Qwen3 的语言模型,通过三阶段训练流程(语言–图像对齐、高质量知识中期预训练和视觉指令对齐)进行优化。它在多

文章图片
#开源#人工智能#语言模型 +2
【GitHub开源AI精选】MineContext:字节开源的主动式上下文感知 AI 工具,助力高效信息管理

MineContext 是一个主动式上下文感知 AI 工具,它通过每 5 秒截取一次屏幕,经过处理后,批量发送给视觉语言模型(VLM)分析,提取出人物、产品、公司档案等六种结构化上下文,主动生成日报、待办、洞察等高质量信息,而非被动等待用户提问。它采用存储本地、分析云端的混合架构,包含元模型、采集器、存储层、更新引擎和接口层五个核心组件,以隐私优先,所有数据存储在本地,确保用户信息安全。

文章图片
#开源#人工智能#AIGC +1
【GitHub开源AI精选】StableAvatar:复旦大学联合微软亚洲研究院推出的无限时长音频驱动虚拟形象视频生成技术框架

StableAvatar 是一个基于扩散变换器(Diffusion Transformer)的音频驱动视频生成技术框架。它能够根据一张人物图片和一段音频生成与音频高度同步的人物口型和表情的视频,且视频长度理论上可以无限延长。该技术框架通过其独特的架构和创新机制,解决了以往技术在生成长视频时的关键问题,显著提升了生成视频的自然度和连贯性。

文章图片
#开源#人工智能#语言模型 +2
【2025具身智能大模型·系列18】RoboBrain-X0:智源研究院开源的跨本体泛化具身模型,开启机器人新时代

RoboBrain-X0是由北京智源人工智能研究院开源的全球首个支持零样本跨本体泛化的具身模型。它能够在无需针对不同机器人进行微调的情况下,驱动多种不同构造的真实机器人完成基础操作任务,突破了传统机器人模型对单一硬件形态的依赖。在少量样本(如50条)微调后,还能进一步提升对复杂任务的跨本体适配性。该模型通过统一建模视觉、语言与动作,将任务分解为通用语义动作序列,再实时翻译为具体机器人的可执行指令,

文章图片
#开源#机器人#语言模型 +1
【2025具身智能大模型·系列18】RoboBrain-X0:智源研究院开源的跨本体泛化具身模型,开启机器人新时代

RoboBrain-X0是由北京智源人工智能研究院开源的全球首个支持零样本跨本体泛化的具身模型。它能够在无需针对不同机器人进行微调的情况下,驱动多种不同构造的真实机器人完成基础操作任务,突破了传统机器人模型对单一硬件形态的依赖。在少量样本(如50条)微调后,还能进一步提升对复杂任务的跨本体适配性。该模型通过统一建模视觉、语言与动作,将任务分解为通用语义动作序列,再实时翻译为具体机器人的可执行指令,

文章图片
#开源#机器人#语言模型 +1
    共 106 条
  • 1
  • 2
  • 3
  • 11
  • 请选择