
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
当前我们在训练通用的机器人模型的时候,面临的主要问题在于数据的异构性。现在市面上各家机器人都会针对各自的机器人采集数据进行模型的训练,但是不同的数据采集实施形式和机器人平台的差异性导致数据很难具有通用性。这篇论文主要从通用性出发,研究如何实现将不同的潜在空间对齐,并研究策略学习中的扩展行为。将可扩展的置于策略中间,无需从头开始训练!HPT 模型Stem(输入)、Trunk(骨干)、Head(输出)
UltraRAG 框架由清华大学THUNLP联合东北大学NEUIR面壁智能团队及9#AISoft团队共同提出,基于敏捷化部署与模块化构造,引入了自动化的“数据构建-模型微调-推理评测”知识适配技术体系,提供了一站式、科研与开发双重友好的 RAG 系统解决方案。零编程经验用户亦可上手操作全链路搭建和优化过程,包括多模态RAG方案VisRAG;以自研KBAlign、RAG-DDR等方法为核心,一键式系
知乎名为AItransformer,8年AI老兵,从事NLP、大语言模型、多模态大模型等相关算法的研发和落地,拥有丰富的算法经验,先后在百度、平安、小鹏汽车从事算法落地的工作,借助平台将个人的一些算法研究和经验分享出来,一起推动技术的进步!
Qwen3是一系列大规模语言模型(LLMs),旨在提升性能、效率和多语言能力。Qwen3系列包含密集(Dense)模型和混合专家(MoE)模型,参数规模覆盖0.6B至235B。思考模式(用于复杂多步推理)和非思考模式(基于上下文的快速响应)。这一设计无需切换模型(比如对话优化模型 GPT-4o 和专用推理模型 QwQ-32B),而是在同一个模型内根据用户查询或对话模板进行动态模式切换。同时,Qwe
本文提出草图引导约束解码(SGCD)方法,用于解决黑盒大模型生成结构化内容时的格式约束问题。该方法采用两阶段处理:首先由黑盒大模型生成初步草图,再由本地辅助模型进行约束细化。实验表明,SGCD在信息提取和句法分析任务中显著提升性能(精确度最高提升32.1%)。虽然该方法存在额外开销、依赖模型指令跟随能力等局限,但为不修改模型参数实现约束生成提供了新思路,尤其适用于需要严格格式保证的应用场景。
相对优势:让模型生成高奖励的输出。策略比率和裁剪:控制新策略的变化幅度,防止偏离旧策略太远。KL 散度:进一步确保新策略与旧策略的相似性。个人介绍:技术博客名为YUTransformer,8年AI老兵,从事NLP、大语言模型、多模态大模型等相关算法的研发和落地,拥有丰富的算法经验,先后在百度、平安、小鹏汽车从事算法落地的工作,借助平台将个人的一些算法研究和经验分享出来,一起推动技术的进步!加我vx







