logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LLaVA-1.5:强大的多模态大模型(包含论文代码详解)

LLaVA,这个大型语言和视觉助手,以其卓越的多模态能力在人工智能领域脱颖而出。它不仅集成了视觉编码器和语言模型,还通过端到端训练的方式,实现了对视觉和语言信息的深度融合与理解,这在多模态交互领域是一个巨大的飞跃。LLaVA的核心优势在于其能够处理和理解复杂的视觉和语言数据,提供更为精准和丰富的信息处理能力。它的设计允许模型在保持高性能的同时,对高分辨率图像进行有效处理,这一点在LLaVA-1.5

文章图片
#python#AIGC#人工智能 +1
AI大模型面试题集锦:(1)基础入门题

本文系统性地介绍了大语言模型(LLM)的核心概念与技术要点。首先对比了BERT(双向编码)和GPT(自回归解码)两类主流模型的差异,包括架构特点(MLM vs CLM)、应用场景(理解任务 vs 生成任务)及预训练方式。重点解析了ChatGPT的四阶段训练流程:无监督预训练→监督微调→奖励模型训练→PPO强化学习优化。针对模型关键机制,详细阐述了Transformer的自注意力优势、token化处

文章图片
#人工智能#改行学it#跳槽 +3
AI大模型面试题集锦:(1)基础入门题

本文系统性地介绍了大语言模型(LLM)的核心概念与技术要点。首先对比了BERT(双向编码)和GPT(自回归解码)两类主流模型的差异,包括架构特点(MLM vs CLM)、应用场景(理解任务 vs 生成任务)及预训练方式。重点解析了ChatGPT的四阶段训练流程:无监督预训练→监督微调→奖励模型训练→PPO强化学习优化。针对模型关键机制,详细阐述了Transformer的自注意力优势、token化处

文章图片
#人工智能#改行学it#跳槽 +3
DeepSeek-Math-V2:自验证数学推理大模型(论文详解)

DeepSeekMath-V2是由DeepSeek-AI开发的自验证数学推理大语言模型,通过验证器-生成器;协同架构解决传统强化学习在数学推理中的局限性。该模型在数学竞赛中表现卓越,并在多项基准测试中优于GPT-5-Thinking-High等主流模型,展现了自验证数学推理的可行性。

文章图片
#人工智能#深度学习#自然语言处理 +1
GT-RL:首个让机器人学会系鞋带的VLA

字节跳动Seed团队提出GR-RL框架,解决了机器人长程精密操作难题。该框架通过强化学习增强的多阶段训练流程,将通用视觉-语言-动作模型转化为专家型政策,成功实现机器人自主系鞋带任务,成功率高达83.3%。GR-RL采用混合Transformer架构,包含策略网络和评论家网络,通过数据过滤、形态对称性增强和在线强化学习优化,有效解决了人类演示数据噪声、训练-部署不匹配等问题。实验表明,GR-RL在

文章图片
#机器人#人工智能#计算机视觉 +1
Qwen3-VL:开源最强多模态大模型(架构解析及使用代码)

Qwen3-VL是阿里巴巴开发的新一代视觉语言模型,支持256K tokens的交错上下文处理,包含稠密型和混合专家型变体。其核心优势包括强大的文本理解能力、稳健的长上下文处理以及先进的多模态推理能力。模型通过增强型交错MRoPE、DeepStack集成和文本基视频时间对齐三大升级优化时空建模。训练采用四阶段预训练和SFT、知识蒸馏、RL后训练流程,在多模态任务中表现卓越。评估显示Qwen3-VL

文章图片
#人工智能#深度学习#语言模型 +2
Qwen3-VL:开源最强多模态大模型(架构解析及使用代码)

Qwen3-VL是阿里巴巴开发的新一代视觉语言模型,支持256K tokens的交错上下文处理,包含稠密型和混合专家型变体。其核心优势包括强大的文本理解能力、稳健的长上下文处理以及先进的多模态推理能力。模型通过增强型交错MRoPE、DeepStack集成和文本基视频时间对齐三大升级优化时空建模。训练采用四阶段预训练和SFT、知识蒸馏、RL后训练流程,在多模态任务中表现卓越。评估显示Qwen3-VL

文章图片
#人工智能#深度学习#语言模型 +2
CosyVoice2:阿里开源语音合成模型,模仿、生成、细粒度控制,全部拿下!(附使用方法、论文代码详解)

CosyVoice 2是由阿里巴巴集团开发的先进流式语音合成模型,它不仅继承了前代模型的优秀基因,更通过一系列创新性的技术优化,实现了在保持极低延迟的同时,生成质量几乎与人类发音无异的语音。CosyVoice 2模型的核心优势在于其能够提供接近人类发音自然度的合成语音。

文章图片
#语音识别#人工智能#音视频 +2
字节跳动GR-3:可泛化、支持长序列复杂操作任务的机器人操作大模型(技术报告解读)

GR-3是一个大规模视觉-语言-动作(VLA)模型,具备强大的泛化能力,能够处理新物体、新环境和抽象指令。通过协同训练大规模视觉-语言数据和机器人轨迹数据,GR-3实现了对复杂语义的理解和动作预测。其高效的小样本学习能力仅需少量人类轨迹即可快速适配新任务。实验表明,GR-3在可泛化抓取放置、长跨度桌面整理和灵巧布料操作等任务中表现优异,显著超越基线方法。结合专为灵巧操作设计的双臂移动机器人Byte

文章图片
#人工智能#计算机视觉#语言模型 +2
    共 60 条
  • 1
  • 2
  • 3
  • 6
  • 请选择