logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

OpenVLA论文精读

大型策略(AI模型)预先在互联网规模的视觉-语言数据和多样机器人演示上训练,有潜力改变我们教机器人新技能的方式:而不是从零训练新行为,我们可以微调这样的视觉-语言-动作(VLA)模型,得到 robust(稳健的)、generalizable(能泛化的)策略,用于视觉运动控制。然而,VLA在机器人领域的广泛采用面临挑战,因为。

文章图片
OpenVLA论文精读

大型策略(AI模型)预先在互联网规模的视觉-语言数据和多样机器人演示上训练,有潜力改变我们教机器人新技能的方式:而不是从零训练新行为,我们可以微调这样的视觉-语言-动作(VLA)模型,得到 robust(稳健的)、generalizable(能泛化的)策略,用于视觉运动控制。然而,VLA在机器人领域的广泛采用面临挑战,因为。

文章图片
视频内容智能解析(ASR+LLM)完整学习笔记

项目名称:视频内容智能解析参赛背景:2024年DataWOW大模型应用开发比赛作品,团队约10人(在校大学生 + 在职人员),通过开源社区结识,共创开发。开发周期:约2周,最终获“卓越作品奖”(上百参赛者、70+作品中排名前10%)。开源地址核心目标:利用大模型提升视频/音频学习效率,解决:学生跟不上课堂节奏、记笔记慢;在职人员无大块时间看会议/直播/长视频(B站、知乎上百集长系列常见);大模型早

#音视频#学习
RAG(检索增强生成)学习笔记总结

RAG 定义:Retrieval Augmented Generation,通过引入外部知识库检索相关信息,增强大模型生成过程,生成更准确、符合上下文的答案。解决基础大模型痛点知识局限性:模型知识限于训练数据,无法掌握实时或非公开知识。数据安全性:无需将私有数据纳入训练集,避免泄露风险。大模型幻觉:基于概率生成易产生错误内容,尤其在未知领域。优势:简单有效,已成为主流大模型应用方案之一,显著减少幻

#人工智能#RAG
大模型应用开发必知必会笔记

语言模型核心目标:预测词序列中下一个词或缺失词的概率,对人类语言内在规律建模。四代语言模型演化统计语言模型(SLM):基于马尔可夫假设的n-gram模型。神经语言模型(NLM):神经网络(如RNN)+分布式词向量(Word Embedding)。代表:word2vec。预训练语言模型(PLM):海量无标注数据预训练(biLSTM或Transformer)+下游任务微调。代表:ELMo、BERT、G

#人工智能
到底了