logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【具身智能】ConRFT:基于一致性策略的 VLA 强化微调方法

ConRFT 是一种高效、安全、实用的VLA模型强化微调方法,只需 20 个演示+ 1 小时在线训练,就能让机器人在复杂真实任务中达到 96% 成功率,比传统方法快、稳、强。后续可探索 “更智能的奖励设计”“感知 - 动作联合微调”,进一步提升 VLA 模型的通用操控能力。

文章图片
#人工智能
【具身智能】RoboBench:面向具身智能体的 VLM 综合评估基准

RoboBench是一个面向具身智能的多模态大语言模型评估基准,旨在系统性评估 MLLMs 作为机器人"具身大脑"的认知能力。该基准针对动态非结构化环境中的操作任务,定义了五个核心评估维度:指令理解、感知推理、广义规划、可操作性预测和失败分析,覆盖 14 项能力、25 项任务和 6092 个问答对。1)构建真实场景数据集,整合大规模真实机器人数据与自采数据,涵盖单臂/双臂/移动操作、多视角遮挡场景

文章图片
#人工智能#机器人
【具身智能】Evo-1:超越 SmolVLA,让具身萌新也能简单上手

轻量化:0.77B 参数,大幅降低训练 / 部署成本;免预训练:无需大规模机器人数据,数据收集成本骤降;强泛化:两阶段训练保护语义表征,面对干扰(如背景变化、目标移位)仍稳定;高实用:实时推理 + 低显存,适配消费级 GPU 和真实机器人场景。为推动未来研究,作者团队公开了代码、训练数据和模型权重,以鼓励轻量级高性能 VLA 模型的进一步研究与实际开发。

文章图片
#人工智能#机器人#语言模型
【RAG 论文】Self-RAG:引入自我反思的大模型 RAG 框架

Self-RAG:在 RAG 框架中引入自我反思机制,提高检索增强的效果

文章图片
#人工智能#语言模型#RAG +2
【具身智能】ConRFT:基于一致性策略的 VLA 强化微调方法

ConRFT 是一种高效、安全、实用的VLA模型强化微调方法,只需 20 个演示+ 1 小时在线训练,就能让机器人在复杂真实任务中达到 96% 成功率,比传统方法快、稳、强。后续可探索 “更智能的奖励设计”“感知 - 动作联合微调”,进一步提升 VLA 模型的通用操控能力。

文章图片
#人工智能
【Basic】机器学习算法的性能衡量指标:TP/TN/FN/FP 生动解释

根据 “没有免费午餐定律” ,在所有机器学习算法中,并不存在最厉害的算法。没有最好的模型,只有最合适的模型。机器学习算法虽然只有几种,但需要解决的问题千千万万,哪种模型适合你所需要解决的问题,还需要具体的问题具体分析。性能衡量指标就是一种常用的分析标准。在分类问题中,将机器学习模型的预测与实际情况进行对比后,结果可以分为四种:TP、TN、FN 和 FP。每一种结果由两个字母组成,第一个字母为T或F

#机器学习
【大模型强化学习】GRAM:一个生成式的预训练 reward model

GRAM 是第一个“生成式基础奖励模型”,通过无监督预训练 + 有监督微调 + 标签平滑,显著提升了奖励模型在多个任务上的泛化能力,且只需极少标注数据。场景用法没有标注数据直接用 GRAM 做奖励模型有少量标注数据微调 GRAM,快速适配做 RLHF用 GRAM 替代传统判别式 RM做评估用 GRAM 做自动评价器(代替 GPT-4)

文章图片
#人工智能#语言模型
【LLM 论文】OpenAI 基于对比学习微调 LLM 得到嵌入模型

这篇论文表明,基于 GPT 系列的 LLM,在足够大的批处理的无监督数据上进行对比预训练,可以获得高质量的文本和代码的 embedding 表示,并可以应用于其他的下游任务中得到不错的表现。

文章图片
#自然语言处理#人工智能#语言模型 +1
【LLM 论文】UPRISE:使用 prompt retriever 检索 prompt 来让 LLM 实现 zero-shot 解决 task

总的来说,这篇论文提出了一个很新颖的思路:prompt retriever,从而提高 LLM 的 zero-shot 的能力。同时还研究了 prompt retriever 从训练的任务类型推广到其他未见过的任务类型,以及从小的 LLM 推广到更大规模的。

文章图片
#RAG#自然语言处理#语言模型 +2
    共 28 条
  • 1
  • 2
  • 3
  • 请选择