
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
强化学习入门:奖励函数篇
在强化学习(RL)中,奖励函数的设计是决定智能体行为的关键因素。它不仅定义了任务的目标,还塑造了智能体学习的路径。本文将以导航问题为背景,深入探讨奖励函数的设计过程,从基本原理到高级技巧,全面分析如何构建有效的奖励函数。

深入掌握Transformer模型
编码器处理整篇文章解码器生成摘要,每次生成一个词。

始理解NLP:我的第一章学习心得
本文分享了学习NLP基础概念的体会,从最初认为NLP仅是"让机器懂人话"的简单理解,到认识到其多学科交叉的本质。文章梳理了NLP从1940年代图灵测试到现代大语言模型的发展历程,重点分析了中文分词、实体识别等核心任务的技术难点,以及文本表示从稀疏向量到Word2Vec、ELMo的演进突破。作者总结出NLP发展遵循"发现问题-创新方法-验证效果-发现新问题"的循环模式,强调理解技术历史对掌握现代AI
到底了







