logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

SAIL-VL2本地部署教程:2B/8B参数媲美大规模模型,为轻量级设备量身打造的多模态大脑

SAIL-VL2 是由抖音 SAIL 团队与新加坡国立大学 LV-NUS 实验室联合推出的一个多模态大模型,它在保持较小参数规模的同时,实现了媲美甚至超越部分大规模模型的性能。SAIL-VL2 框架概述。该架构由一个视觉编码器组成,将视觉输入对齐到 LLM 的表示空间。轻量级适配器进一步将视觉嵌入转换为标记化表示,这些表示与语言嵌入一起进行多模态推理和预测。SAIL-VL2 支持多种 LLM 主干

文章图片
#开源
ComfyUI-MultiTalk本地部署教程:创新L-RoPE机制破解多音频流绑定难题,定义多人对话视频生成新SOTA!

MultiTalk 是由联合研发的一款。它能够根据多路音频输入、参考图像和文本提示,生成包含且的视频内容。简单来说,它能让静态图片中的人物“开口说话”,并且还能进行“对话”。其特点为:💬 逼真的对话 - 支持单人和多人生成👥 交互式角色控制 - 通过提示指导虚拟人🎤 泛化表演 - 支持卡通人物和歌唱的生成📺 分辨率灵活性:任意纵横比下的 480p 和 720p 输出⏱️ 长视频生成:支持长

文章图片
#人工智能
全球首个真实物理环境机器人基准测试发布,具身智能迎来统一评测标准

当机器人在演示视频中表现完美,却在真实环境中频频失误,该如何客观评估它们的真实能力?RoboChallenge的出现正在改变这一现状。

文章图片
开源量子模拟引擎:Quantum ESPRESSO本地部署教程,第一性原理计算轻松入门!

Quantum ESPRESSO 是一个用于电子结构计算和纳米尺度材料建模的开源计算机代码集成套件,专门用于进行第一性原理(第一性原理)计算,涵盖了电子结构、晶体学和材料性能的模拟。Quantum ESPRESSO GPU 版本支持GPU加速,该部署版本为q-e-7.4.1。发布 · QEF - Quantum ESPRESSO Foundation / q-e · GitLab。

文章图片
#开源
机器人迎来转折点!智源的新发布,让具身智能从单机迈向群体

智源研究院发布跨本体协作框架RoboOS与开源具身大脑RoboBrain,打破机器人单机孤岛,这对未来的具身智能有何影响?

文章图片
#机器人#人工智能
Gemma-3n-E4B-it本地部署教程:谷歌开源轻量级多模态大模型,碾压 17B 级同类模型!

Gemma-3n-E4B-it(简称 E4B-IT)是 Google 于 2025 年 6 月 26 日推出的轻量级开源多模态 AI 模型,属于 Gemma 3n 系列的高阶版本(E4B 指“有效参数 4B”),专为移动设备和边缘计算场景设计,支持本地处理文本、图像和音频输入,并生成文本输出。E4B-IT 的音频功能支持设备端语音转文本和翻译(英法/英西翻译准确率超 92%),视觉功能由 Mobi

文章图片
RAGFlow本地部署教程 :多模态检索+动态生成,用AI重构企业知识生产力

RagFlow是一款基于检索增强生成(RAG)技术的智能工作流平台,通过整合多源数据检索与生成式AI模型,优化企业知识管理、智能问答及自动化报告生成,核心功能包括:多源数据融合:支持数据库、文档库、API接口的实时检索,兼容文本、图像、音视频等多模态数据;动态知识增强:生成内容时自动关联最新业务数据,避免模型“幻觉”,支持自定义规则链(如财务报告合规校验);低代码流程编排:可视化设计工作流(如“客

文章图片
#人工智能
MiniCPM-o 2.6本地部署教程——面壁智能推出的全新多模态大模型,性能媲美GPT-40

MiniCPM-o 2.6是面壁智能推出的全新端侧全模态模型,拥有强大的端到端多模态架构,是MiniCPM-0系列最新、性能最佳的多模态大模型,具有8B参数量。在视觉、语音和多模态直播等多个领域,MiniCPM-o 2.6达到了与GPT-40相当的性能水平。模型还支持实时双语语音识别,超越了 GPT-40实时识别的表现。值得一提的是,MiniCPM-o 2.6在保持强大能力的同时,还针对边缘设备的

文章图片
ERNIE-4.5-21B-A3B-Paddle 本地部署教程:百度飞桨出品,下一代多模态大模型标杆

是百度推出的新一代多模态大模型,属于,采用,总参数规模达,激活参数。该模型基于开发,支持文本与视觉的联合训练,具备强大的多模态理解和生成能力。1.2.3.

文章图片
#人工智能
DeepSeek 创新力作—— Janus-Pro 本地部署教程 ,解锁多模态 AI 新境界!

Janus-Pro 是由 DeepSeek 推出的一种新颖的自回归框架,它将多模态理解和生成统一起来。通过将视觉编码解耦为单独的路径来解决以前方法的局限性,同时使用单一、统一的转换器架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus-Pro 超越了之前的统一模型,并且达到或超过了特定任务模型的性能。凭借简单性、高灵活性和有效性,Janus-Pro

文章图片
#人工智能#DeepSeek
    共 317 条
  • 1
  • 2
  • 3
  • 32
  • 请选择