
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
提出的VideoLLaMA 3通过以视觉为中心的训练范式和框架设计,显著提高了图像和视频理解的性能。该模型在大多数图像和视频理解基准测试中表现出色,特别是在图表理解和数学问题上。Any-resolution Vision Tokenization (AVT):采用AVT技术,动态处理不同分辨率的图像和视频,保留了更多细节痛点:视频数据质量太差,但作者认为视频等于一系列的图片,所以可以先学看图再看视

一、E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMsE-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs链接:https://arxiv.org/abs/2602.08355开源:https://github.com/Taoba

Openai开源两个模型:gpt-oss-120b,对标 o4-mini,117B 参数,5.1B 激活量,运行该模型,需要 80G 内存,单卡 H100 GPU 可运行。gpt-oss-20b,对标 o4-mini,21B 参数,3.6B 激活量,运行该模型,需要 16G 内存,单卡 4060 Ti 可运行。原生MXFP4量化,模型采用原生MXFP4精度训练MoE层。关于部署,https://g

今天的生成式模型已经远不止“文本输入、文本输出”:新的模型可以同时理解和生成文本、图像、音频、视频,背后也不再是单一自回归架构,而是由编码器、语言模型、扩散模型等异构组件拼接而成。随着模型进化为可以“看、听、说”的全能代理(omni agents),底层推理系统也不得不同时面对:真·全模态:一条请求里既有文本,又有图片、音频甚至视频,输出形式也不再单一。超越自回归:扩散 Transformer(D

【Deepresearch用于图像生成思路】思路是用于图像生成的多模态深度搜索智能体,进行多跳推理与搜索,以获取图像生成所需的文本知识和参考图像,结论是在KnowGen上使Qwen-Image性能提高约16分,在WISE上提高约15分。GraphWalker: Agentic Knowledge Graph Question Answer-ing via Synthetic Trajectory

Google DeepMind 正式发布了其迄今为止最强大的开放模型家族 Gemma 4。该系列基于与 Gemini 3 相同的研究成果和技术构建,专门为高级推理和 Agent 工作流设计,Gemma 4 包含 E2B、E4B、26B-A4B 和 31B Dense 四种尺寸,全面支持跨文本、图像和视频的多模态处理,其中较小尺寸模型(E2B 和 E4B)还原生支持音频输入。https://blog

这篇论文介绍了LLaDA,一种从头开始训练的大规模扩散语言模型。LLaDA展示了强大的可扩展性、上下文学习能力和指令跟随能力,达到了与领先的LLMs相当的性能。此外,LLaDA提供了双向建模和增强的鲁棒性,有效解决了现有LLMs的一些局限性。- LLaDA不是像 GPT/LLaMA 那样 从左到右一个 token 一个 token 生成,而是:先把句子里的 token 随机 mask 掉,模型去预

基于Qwen3-VL-32B-Thinking做的面向数学、物理、化学、天文、地理、生物六大学科的科学多模态推理模型,主要特点是Python 沙箱执行图像裁剪、缩放、标注等代码,多轮迭代推理数据源整合【开源轨迹Thyme/V-Thinker+内部高分辨率图表/几何推理数据,Thyme(hinkBeyondImages,让模型自己写Python代码裁剪、放大、旋转、调对比度、做计算,在沙箱里执行,再

DeepSeek-V4优化点:1、混合注意力架构:我们设计了一种结合压缩稀疏注意力(Compressed Sparse Attention, CSA)与重度压缩注意力(Heavily Compressed Attention, HCA)的混合注意力机制,显著提升长上下文处理效率。在百万 Token 上下文场景下,DeepSeek-V4-Pro 相较于 DeepSeek-V3.2,单 Token 推

JoyAI,实时视频 Agent(Streaming Video Agent):Video Understanding + Agent Policy Learning输入:连续的视频流(每秒若干帧)+ 用户上下文;输出:每秒做一个动作决策——说话(response)、沉默(silence)或者委托后台 Agent(delegate)。文章目录note一、研究背景二、JoyAI-VL-Interac








