logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【论文解读】 VLA模型全面综述:当视觉、语言与行动融合 — embodied AI 的突破口

摘要: 本文综述了视觉-语言-动作(VLA)模型在具身智能(Embodied AI)领域的研究进展,系统梳理了其架构、分类与关键技术。VLA模型通过融合视觉、语言与动作模态,支持机器人完成复杂任务,其核心架构包含视觉编码器、语言编码器、模态对齐与动作解码器。论文提出三层分类体系:1)关键组件(如强化学习、世界模型);2)低层控制策略(包括扩散模型与大规模VLA);3)高层任务规划方法(单体式与模块

文章图片
#人工智能#AIGC
一文详解Claude Code所有用途与本地配置教程

摘要: Claude Code是Anthropic推出的终端原生AI编程代理工具,专注于本地项目深度协作开发。它支持本地运行,拥有文件读写、终端执行、Git操作等权限,依托百万级超长上下文窗口,能全面理解并操作整个代码仓库。核心功能包括:项目架构拆解、全链路代码生成、跨文件重构、深度排错、自动化测试、文档生成、Git流程管理、运维脚本执行和安全审计等。相比同类工具,Claude Code在全局理解

文章图片
【AIGC行业前沿】2026年3月AIGC行业模型发布以及主要前沿资讯

近期AI领域迎来密集开源与模型更新潮。Cognition发布SWE-1.6预览版,性能提升11%;千问团队开源Qwen3.5系列四款小型模型;阶跃星辰开源Step 3.5 Flash及训练框架;小红书推出FireRed-OCR模型,文档处理准确率达92.94%。此外,通义实验室发布两款语音模型,IQuestLab开源代码模型系列,Jan团队推出轻量级编程助手Jan-Code-4B。OpenClaw

#AIGC
【大语言模型学习】2026年十大LLM训练数据集汇总

本文梳理了2026年十大核心LLM训练数据集,涵盖网络语料、知识库、指令集等类型。重点数据集包括:Common Crawl(多PB级原始网络数据)、C4(750GB清洗英文语料)、RedPajama(1000亿词元复现LLaMA数据)、RefinedWeb(6000亿词元高质量网络文本)和The Pile(825GB多样化综合语料)。这些数据集支持从基础预训练到指令微调的全流程,多数采用开源许可,

#语言模型#学习#人工智能 +1
【大语言模型学习】2026年最适合新手的小型LLM训练项目全指南:从26M到1B,3块钱就能从头训练

2026年小型LLM训练项目指南精选了14个适合不同学习阶段的模型,从入门级的26M参数MiniMind(仅需3元成本)到实用的1B级别模型。推荐学习路径:先通过nanoGPT理解基础架构,再用MiniMind体验全流程训练,最后进阶到TinyLlama等更大模型。特别推荐中文专用方案如baby-llama2-chinese,并提供了项目对比表帮助选择。这些小型LLM训练成本低、速度快,是掌握大模

文章图片
#AIGC
【AIGC行业前沿】2026年6月AIGC行业前沿模型发布动态(6月8日-6月14日)

近期AI领域迎来密集更新,涵盖视频生成、智能体、3D建模、编程辅助等方向。剪映Seedance 2.0提升生成效率,云知声U2大模型以任务闭环能力见长。技术突破方面,高德ABot-Earth-0.5实现文本生成3D城市场景,智谱SCAIL-2革新角色动画流程。开源生态持续繁荣,Cohere、腾讯、月之暗面等机构分别释放编程、多模态强化学习等领域的开源模型与框架。实时交互成新趋势,谷歌Gemini

#AIGC
【AIGC行业前沿】2026年6月AIGC行业前沿模型发布动态(6月8日-6月14日)

近期AI领域迎来密集更新,涵盖视频生成、智能体、3D建模、编程辅助等方向。剪映Seedance 2.0提升生成效率,云知声U2大模型以任务闭环能力见长。技术突破方面,高德ABot-Earth-0.5实现文本生成3D城市场景,智谱SCAIL-2革新角色动画流程。开源生态持续繁荣,Cohere、腾讯、月之暗面等机构分别释放编程、多模态强化学习等领域的开源模型与框架。实时交互成新趋势,谷歌Gemini

#AIGC
【论文解读】Dexora_ Open-source VLA for High-DoF Bimanual Dexterity

系统创新:Dexora 是首个开源的原生支持双臂、双手、36-DoF 高自由度灵巧操作的 VLA 系统,填补了现有 VLA 模型的能力空白。数据管线创新:提出 “外骨骼 + Apple Vision Pro” 混合遥操作,结合 MuJoCo 虚实孪生,高效构建虚实互补的大规模双臂灵巧操作数据集。训练算法创新:设计数据质量判别器 + 加权损失的训练方案,有效解决遥操作数据噪声问题,提升动作平滑度与任

文章图片
【AIGC面试面经第八期】AI多模态理论基础高频考点

本文摘要:多模态大模型(MLLM)与语言大模型(LLM)的核心区别在于架构、数据和应用能力。架构上,MLLM在LLM基础上新增模态编码器和投影器,支持文本、图像、音频等多模态输入;训练数据上,MLLM依赖跨模态配对数据(如图文对),并需平衡多模态与纯文本数据比例;应用能力上,MLLM擅长跨模态信息整合任务(如医学影像诊断、OCR理解),但在纯文本任务和单点视觉任务上可能弱于LLM和专用模型。MLL

文章图片
#AIGC#面试#人工智能
【AIGC面试面经第七期】多模态大模型Qwen-Vl系列面试问题汇总

Qwen-VL系列模型在多模态领域持续创新,其演进路径涵盖视觉编码器优化、位置编码统一、训练范式改进等关键技术。Qwen2-VL引入M-RoPE统一处理文本/图像/视频位置编码,采用三阶段训练(预训练+多任务+指令微调)。Qwen2.5-VL通过绝对坐标提升检测精度,动态FPS采样增强视频理解,并融合SFT与DPO优化。Qwen3-VL进一步创新,提出MRoPE-Interleave和DeepSt

文章图片
#AIGC
    共 22 条
  • 1
  • 2
  • 3
  • 请选择