logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI学习笔记整理(70)——AI+CAE

这种直接生成的方式,效率比人实际去做要快的多,也能模拟很多极端情况,能大大丰富机器人模型训练所需的数据,加速机器人抓取模型的训练过程。李飞飞旗下的World Labs推出的首款商用世界模型Marble,生成的是持久的、可下载的3D环境,可以融入现有3D影视、游戏等工作流,创建视觉上逼真的3D世界,但是模型完全不掌握物理规律。数字孪生本身也是一个有争议的概念,但大体对应2个方向,设备产品层面的数字孪

#人工智能#学习
AI学习笔记整理(70)——AI+CAE

这种直接生成的方式,效率比人实际去做要快的多,也能模拟很多极端情况,能大大丰富机器人模型训练所需的数据,加速机器人抓取模型的训练过程。李飞飞旗下的World Labs推出的首款商用世界模型Marble,生成的是持久的、可下载的3D环境,可以融入现有3D影视、游戏等工作流,创建视觉上逼真的3D世界,但是模型完全不掌握物理规律。数字孪生本身也是一个有争议的概念,但大体对应2个方向,设备产品层面的数字孪

#人工智能#学习
AI学习笔记整理(69)——物理AI中世界模型

物理AI(Physical AI)”——一种具身、可感知、能推理、会行动的智能体形态,它不再只是数据上的算力堆叠,而是能走入现实世界,与真实物理环境交互的智能生命。2025年,被誉为“智能体元年”。无数新创业项目围绕AI Agent展开:从智能助手、AI外呼系统,到大模型驱动的机器人、自动化工厂、AI仓储系统。但当这些智能体真正被拉入“现实场景”,问题接踵而至。AI要想具身,首先要“看”世界。但现

#人工智能#学习
AI学习笔记整理(69)——物理AI中世界模型

物理AI(Physical AI)”——一种具身、可感知、能推理、会行动的智能体形态,它不再只是数据上的算力堆叠,而是能走入现实世界,与真实物理环境交互的智能生命。2025年,被誉为“智能体元年”。无数新创业项目围绕AI Agent展开:从智能助手、AI外呼系统,到大模型驱动的机器人、自动化工厂、AI仓储系统。但当这些智能体真正被拉入“现实场景”,问题接踵而至。AI要想具身,首先要“看”世界。但现

#人工智能#学习
AI学习笔记整理(68)——AI大模型与物理AI

用户通过语言交互界面与后端交互,无需或者少量通过图形界面与后端交互,最终呈现GUI(图形用户界面)和LUI(语言用户界面)混合的交互形式,以实现用户从有限的输入跃迁到无限的输入,既提供高频、固定的功能,也具备对低频、定制化需求的理解与处理能力。物理仿真引擎则负责实时计算物理交互,这不是简单的预设规则,而是基于偏微分方程求解器的动态计算系统,需要处理刚体动力学、流体力学、软体变形等复杂物理现象,系统

#人工智能#学习
AI学习笔记整理(67)——大模型的Benchmark(基准测试)

以上我们介绍的推理测试,主要还是建立在一类已有的知识学可上的(如数学、物理、生物),要攻克这些题目,模型既要非常博学(掌握大量的学术知识)还得非常聪明(推理能力很强)。那有没有专注于考模型聪不聪明,而不考模型的知识积累的基准呢?就像对于一个人的评价,我们看他聪不聪明,可能从小学能看出来了,不一定要等到他上完大学之后再做评价。对模型的测试也是一样,下面我们讲的对于模型 “抽象推理” 能力的测评,就属

#人工智能#学习
AI学习笔记整理(66)——多模态大模型MOE-LLAVA

1.语言模型LLM· 定义:在超大规模文本数据上训练,以理解和生成自然语言为核心目标的模型。· 本质: “文本专家”。它将世界知识、逻辑和任务抽象为符号(语言)进行处理。· 输入/输出: 文本 ——文本。· 例子: GPT-4(纯文本版)、Llama、Claude。2.视觉语言模型VLM· 定义:在图像-文本对数据上训练,能够同时理解视觉内容和语言,并在两者间建立联系的模型。· 本质: “视觉翻译

#人工智能#学习
AI学习笔记整理(65)——多模态大模型

1)跨模态模型跨模态指的是在不同模态之间进行信息转换或关联的过程。跨模态处理在人工智能中非常重要,因为它涉及到如何让机器理解和处理不同类型数据的问题。例如我们最常见的语音识别,就是一个听觉模态到文本模态的转换,还有最近很火的AIGC大模型文生图,就是文本模态到视觉模态的转换。跨模态的关键在于如何识别不同模态之间的语义差异,并准确地在它们之间进行信息映射。‌模态定义‌。

#人工智能#学习
AI学习笔记整理(64)——大模型对齐方法

在RLHF中,我们首先训练一个奖励模型(Reward Model, RM)来预测人类的偏好,然后使用这个奖励模型来指导策略的优化。而 ‌RLHF‌ 仍是性能上限的标杆;此外,还需要监控训练过程中的各种指标,如奖励值、KL散度、模型输出质量等,以确保训练的稳定性和有效性。简而言之,RLHF通过“人类评估 -> 训练奖励模型 -> 用奖励模型指导模型优化”的闭环,让模型学会“讨好”人类的偏好。总而言之

#人工智能#学习
AI学习笔记整理(63)——大模型对齐与强化学习

策略的行动空间(action space)是LM的词表对应的所有词元(一般在50k的数量级),观察空间(observation space)是可能的输入词元序列(词汇量^输入token的数量),奖励函数是偏好模型哦那个i和策略转变约束(Policy shift constraint)的结合。与RRHF中所提到的一样,RLHF需要超参数以及四个模型,本文提出新的范式,支持以封闭的形式提取响应的最优策

#人工智能#学习
    共 68 条
  • 1
  • 2
  • 3
  • 7
  • 请选择