logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

仅凭视频输入,30秒生成物理正确3D布局!群核科技开源空间理解模型SpatialLM

SpatialLM作为一款开源空间智能模型,具备处理多源三维数据并生成结构化场景理解结果的能力,在具身智能等领域具有广阔前景]。其开源特性将促进社区的共同发展,加速空间智能技术的创新和应用。

文章图片
#3d#科技
英伟达发布 VILA 视觉语言模型,实现多图像推理、增强型上下文学习,性能超越 LLaVA-1.5

近年来,大型语言模型 (LLM) 的发展取得了显著的成果,并逐渐应用于多模态领域,例如视觉语言模型 (VLM)。VLM 旨在将 LLM 的强大能力扩展到视觉领域,使其能够理解和处理图像和文本信息,并完成诸如视觉问答、图像描述生成等任务。然而,现有的 VLM 通常缺乏对视觉语言预训练过程的深入研究,导致模型在多模态任务上的性能和泛化能力受限。

文章图片
#语言模型#学习#人工智能 +4
LLaVA-v1.5-7B:实现先进多模态学习的开源AI

此外,该模型利用多种不同来源的数据,包括lmsys-chat-1M、ShareGPT和Antropic/hh-rlhf等,通过综合这些数据,模型能够理解和生成针对广泛话题的响应。LLaVA-v1.5-7B的最终13B检查点仅使用了1.2M公开可用的数据,并在单个8-A100节点上仅用约1天完成全部训练,这彰显了其出色的训练效率和轻量级架构。模型通过对CLIP-ViT-L-336px和MLP投影层的

文章图片
#学习#人工智能#自然语言处理 +1
上海 AI Lab放大招!InternVL3开源:1B到78B全尺寸覆盖,工具使用/GUI代理/工业分析一网打尽

InternVL3 的开源发布,无疑为多模态大模型领域注入了强大的新活力。其全尺寸的模型覆盖、领先的性能指标,特别是工具使用、GUI 代理、工业分析等实用高级能力的突破,以及完全开放的姿态,使其成为当下开发者和研究者不容错过的重量级选手。

文章图片
#人工智能#大数据#开源 +1
Sora视频水印终极解决方案:这款AI工具让你实现精准去除、高清无痕!

Sora2WatermarkRemover工具为AI视频创作者提供了专业级去水印解决方案。该工具通过"手动蒙版+AI智能修复"技术,支持用户精准标记水印区域,利用ComfyUI引擎智能填充内容,在保持原画质的同时完美去除水印。操作简单仅需"上传-框选-提交"三步,适用于影视制作、社交媒体创作等场景,为Sora视频的商业应用扫清障碍。云端处理不占用本地资源,是

文章图片
#人工智能#音视频
双卡 RTX 5090 深度体验:AI 推理框架选择与性能限制实测

本次双 RTX 5090 的深度体验为我们带来了不少有价值的信息。硬件本身性能强大,双卡并行潜力巨大,但务必重视散热方案和电源配置,以确保稳定运行。在推理框架选择上,Ollama 是当前最方便、开箱即用的选择,适合快速上手和实验。需要特别注意的是,像 SGLang 和 vLLM 这类广泛用于高并发、低延迟生产环境的推理框架,目前对 RTX 5090 的官方支持存在明显滞后。SGLang 因 CUD

文章图片
#人工智能#开源#服务器
多模态大模型CogVLM:智谱AI的新篇章

整体性能超越或匹配谷歌的PaLI-X 55B。CogVLM-17B模型在多模态权威学术榜单上取得了综合成绩第一的成绩,在14个数据集上取得了state-of-the-art或者第二名的成绩。此外,为了减少模型的幻觉现象,CogVLM通过特定的微调和更大的参数量,显著降低了幻觉出现的频次。该模型使用了5B参数的视觉编码器和6B参数的视觉专家模块,总共11B参数建模图像特征,这甚至多于文本的7B参数量

文章图片
#人工智能#深度学习#计算机视觉
阿里首个MoE大模型Qwen1.5 MoE A2.7B:27亿参数MoE性能媲美70亿参数,推理速度提升74%

近期,阿里巴巴宣布开源其首个MoE(混合专家)技术大模型——Qwen1.5-MoE-A2.7B,这标志着阿里在人工智能领域的又一重大进展。Qwen1.5-MoE-A2.7B不仅在技术上有所创新,更在性能上实现了突破,其27亿参数的MoE模型在多个基准测试中的性能可以媲美传统的70亿参数模型,同时推理速度提升达到74%。Huggingface模型下载:QwenAI快站模型免费加速下载:Qwen。

文章图片
#数据库#人工智能#gpt-3
阿里发布最强开源大模型通义千问Qwen2,国产最好用的LLM

近年来,大模型技术发展迅速,开源模型的出现为AI研究和应用带来了新的活力。在这一背景下,阿里云通义千问团队发布了全新升级的Qwen2系列开源模型,为国内外开发者提供了更强大的工具和更丰富的选择。Huggingface模型下载:AI快站模型免费加速下载:QwenQwen2的发布标志着阿里在开源大模型领域的又一次重要突破,展现了其在模型研发和应用方面的领先实力。

文章图片
#人工智能#深度学习#开源 +1
全流程透明双语大语言模型MAP-Neo,4.5T 高质量数据训练

近年来,大语言模型 (LLM) 已经成为人工智能领域最热门的研究方向之一,并在各种任务中展现出前所未有的性能。然而,由于商业利益的驱动,许多最具竞争力的模型,例如 GPT、Gemini 和 Claude,其训练细节和数据来源往往被隐藏在专有接口背后。这限制了学术界对 LLM 的深入研究和应用。为了解决这一问题,研究团队开源了MAP-Neo,一个高性能、透明的双语大语言模型,旨在推动 LLM 研究的

文章图片
#语言模型#人工智能#自然语言处理 +2
    共 148 条
  • 1
  • 2
  • 3
  • 15
  • 请选择