
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Z-Image是一个具有60亿参数的高效图像生成基础模型,通过系统优化,在照片级真实感图像生成和中英双语文本渲染方面表现出色,其性能可与顶级商业模型相媲美。它包含三个主要变体:Z-Image-Turbo、Z-Image-Base和Z-Image-Edit,分别专注于快速推理、基础开发和图像编辑。

MiMo-Embodied是由小米具身智能团队开发的开创性跨领域具身基础模型,是首个成功整合自动驾驶和具身智能两大领域的开源视觉语言模型(VLM)。该模型在环境感知、任务规划、空间理解等多方面展现出卓越性能,覆盖了17个具身智能基准测试和12个自动驾驶基准测试,显著超越了现有的开源、闭源以及领域专用模型。

MiMo-Embodied是由小米具身智能团队开发的开创性跨领域具身基础模型,是首个成功整合自动驾驶和具身智能两大领域的开源视觉语言模型(VLM)。该模型在环境感知、任务规划、空间理解等多方面展现出卓越性能,覆盖了17个具身智能基准测试和12个自动驾驶基准测试,显著超越了现有的开源、闭源以及领域专用模型。

MiMo-Embodied是由小米具身智能团队开发的开创性跨领域具身基础模型,是首个成功整合自动驾驶和具身智能两大领域的开源视觉语言模型(VLM)。该模型在环境感知、任务规划、空间理解等多方面展现出卓越性能,覆盖了17个具身智能基准测试和12个自动驾驶基准测试,显著超越了现有的开源、闭源以及领域专用模型。

HunyuanOCR 是腾讯混元团队推出的一款开源端到端OCR视觉语言模型,专为高效处理复杂文档和多语言文本设计。它依托混元原生多模态架构,仅用1B参数量就实现了多项OCR任务的SOTA性能。HunyuanOCR 支持文本检测与识别、复杂文档解析、开放字段信息抽取、视频字幕抽取以及图像文本翻译等功能,覆盖了经典OCR任务的全场景应用。其轻量化设计和强大的多语言支持能力,使其在实际应用中表现出色,广

Fara-7B 是微软推出的一款专注于计算机使用的代理型小语言模型(SLM),拥有 70 亿参数。它通过视觉感知网页内容,直接操作鼠标、键盘等界面元素来帮助用户完成任务。该模型基于 Qwen2.5-VL-7B 构建,采用“观察 - 思考 - 行动”的循环方式执行任务。其训练数据由微软开发的合成数据生成管道 FaraGen 生成,包含 145K 条轨迹,覆盖多种任务片段。

Fara-7B 是微软推出的一款专注于计算机使用的代理型小语言模型(SLM),拥有 70 亿参数。它通过视觉感知网页内容,直接操作鼠标、键盘等界面元素来帮助用户完成任务。该模型基于 Qwen2.5-VL-7B 构建,采用“观察 - 思考 - 行动”的循环方式执行任务。其训练数据由微软开发的合成数据生成管道 FaraGen 生成,包含 145K 条轨迹,覆盖多种任务片段。

Olmo 3是一系列开源大型语言模型,由AI2开发,旨在通过提供完整的模型开发流程,推动AI的可解释性、协作创新和负责任的发展。该系列模型包括多个版本,如Olmo 3-Base(基础模型,7B和32B参数)、Olmo 3-Think(推理模型)、Olmo 3-Instruct(对话模型)以及Olmo 3-RL Zero(强化学习路径)。Olmo 3-Base在编程、阅读理解和数学解题等方面表现出色

HunyuanVideo-1.5 是腾讯混元团队开源的轻量级视频生成模型,参数规模为 8.3B。该模型基于 Diffusion Transformer 架构,支持通过文字描述或图片生成 5-10 秒的高清视频,具备强大的指令理解能力,能精准实现多样化场景生成,包括写实、动画等多种风格。其创新采用 SSTA 稀疏注意力机制,显著提升推理效率,可在 14G 显存的消费级显卡上流畅运行,降低了使用门槛。

Segment Anything Model 3(SAM 3)是由 Meta 开发的最新一代视觉分割模型,能够基于文本、图像示例或视觉提示(如点、框)在图像和视频中检测、分割和跟踪对象。与前代模型相比,SAM 3 引入了可提示概念分割(Promptable Concept Segmentation, PCS)功能,能够处理开放词汇的概念提示,一次性返回所有匹配对象实例的分割掩码和唯一身份标识。该模








