
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
LLaVA,这个大型语言和视觉助手,以其卓越的多模态能力在人工智能领域脱颖而出。它不仅集成了视觉编码器和语言模型,还通过端到端训练的方式,实现了对视觉和语言信息的深度融合与理解,这在多模态交互领域是一个巨大的飞跃。LLaVA的核心优势在于其能够处理和理解复杂的视觉和语言数据,提供更为精准和丰富的信息处理能力。它的设计允许模型在保持高性能的同时,对高分辨率图像进行有效处理,这一点在LLaVA-1.5

本文系统性地介绍了大语言模型(LLM)的核心概念与技术要点。首先对比了BERT(双向编码)和GPT(自回归解码)两类主流模型的差异,包括架构特点(MLM vs CLM)、应用场景(理解任务 vs 生成任务)及预训练方式。重点解析了ChatGPT的四阶段训练流程:无监督预训练→监督微调→奖励模型训练→PPO强化学习优化。针对模型关键机制,详细阐述了Transformer的自注意力优势、token化处

本文系统性地介绍了大语言模型(LLM)的核心概念与技术要点。首先对比了BERT(双向编码)和GPT(自回归解码)两类主流模型的差异,包括架构特点(MLM vs CLM)、应用场景(理解任务 vs 生成任务)及预训练方式。重点解析了ChatGPT的四阶段训练流程:无监督预训练→监督微调→奖励模型训练→PPO强化学习优化。针对模型关键机制,详细阐述了Transformer的自注意力优势、token化处

DeepSeekMath-V2是由DeepSeek-AI开发的自验证数学推理大语言模型,通过验证器-生成器;协同架构解决传统强化学习在数学推理中的局限性。该模型在数学竞赛中表现卓越,并在多项基准测试中优于GPT-5-Thinking-High等主流模型,展现了自验证数学推理的可行性。

字节跳动Seed团队提出GR-RL框架,解决了机器人长程精密操作难题。该框架通过强化学习增强的多阶段训练流程,将通用视觉-语言-动作模型转化为专家型政策,成功实现机器人自主系鞋带任务,成功率高达83.3%。GR-RL采用混合Transformer架构,包含策略网络和评论家网络,通过数据过滤、形态对称性增强和在线强化学习优化,有效解决了人类演示数据噪声、训练-部署不匹配等问题。实验表明,GR-RL在

Qwen3-VL是阿里巴巴开发的新一代视觉语言模型,支持256K tokens的交错上下文处理,包含稠密型和混合专家型变体。其核心优势包括强大的文本理解能力、稳健的长上下文处理以及先进的多模态推理能力。模型通过增强型交错MRoPE、DeepStack集成和文本基视频时间对齐三大升级优化时空建模。训练采用四阶段预训练和SFT、知识蒸馏、RL后训练流程,在多模态任务中表现卓越。评估显示Qwen3-VL

Qwen3-VL是阿里巴巴开发的新一代视觉语言模型,支持256K tokens的交错上下文处理,包含稠密型和混合专家型变体。其核心优势包括强大的文本理解能力、稳健的长上下文处理以及先进的多模态推理能力。模型通过增强型交错MRoPE、DeepStack集成和文本基视频时间对齐三大升级优化时空建模。训练采用四阶段预训练和SFT、知识蒸馏、RL后训练流程,在多模态任务中表现卓越。评估显示Qwen3-VL

CosyVoice 2是由阿里巴巴集团开发的先进流式语音合成模型,它不仅继承了前代模型的优秀基因,更通过一系列创新性的技术优化,实现了在保持极低延迟的同时,生成质量几乎与人类发音无异的语音。CosyVoice 2模型的核心优势在于其能够提供接近人类发音自然度的合成语音。

GR-3是一个大规模视觉-语言-动作(VLA)模型,具备强大的泛化能力,能够处理新物体、新环境和抽象指令。通过协同训练大规模视觉-语言数据和机器人轨迹数据,GR-3实现了对复杂语义的理解和动作预测。其高效的小样本学习能力仅需少量人类轨迹即可快速适配新任务。实验表明,GR-3在可泛化抓取放置、长跨度桌面整理和灵巧布料操作等任务中表现优异,显著超越基线方法。结合专为灵巧操作设计的双臂移动机器人Byte

周志华西瓜书机器学习第二章








