
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文深入解析近端策略优化(PPO)算法的核心原理与工程实现:从背景出发,对比策略梯度、TRPO 的局限性,阐明 PPO 通过带概率比截断的代理目标函数,在样本效率、实现复杂度与计算耗时间实现平衡;拆解 GAE 优势估计等关键模块,并给出 agent 代码架构。并以 Walker2d-v5 连续动作环境为例,提供基于 Stable Baselines3 的完整实现。
本文介绍了如何使用Leela Zero开源项目实现AI围棋对弈。通过下载Leela Zero引擎、权重文件和Lizzie图形界面,用户可以在命令行和GUI中运行AI围棋程序。文章详细说明了配置步骤,包括权重文件处理、OpenCL性能调优等,并展示了Lizzie界面的实时胜率分析和推荐落子功能。最后提供了命令行调试方法和GUI配置参数,帮助用户快速体验AI围棋对弈功能。
本文探讨AI时代软件工程(SE)与AI的协同发展(SE4AI与AI4SE),分析传统软件开发与AI系统的差异。重点包括:1)AI系统质量的多维评估(准确性、公平性、鲁棒性等);2)归纳思维与演绎思维的对比;3)领域自适应与扩散模型在自动驾驶测试中的应用;4)LLM生成用户故事的质量评估;5)安全设计原则(如非ML代码约束AI输出)。强调人机协作与系统化风险控制,提出通过分层保障机制(如物理熔断器)
本文介绍了如何微调大型语言模型(LLM)使其能够创作唐诗。作者使用MediaTek的Breeze-7B-Instruct模型,通过4-bit量化技术降低内存消耗,并采用LoRA方法进行高效微调。关键步骤包括:1)准备包含1040首唐诗的训练数据;2)设置特定格式的prompt模板;3)训练模型理解并续写唐诗。结果显示,微调后的模型能生成连贯的唐诗,相比微调前仅重复输入词汇的表现有明显提升。这种方法
本文介绍了在Kaggle上解决文本作者分类任务的完整流程。首先对数据进行预处理,使用TF-IDF和Count两种向量化方法,并尝试逻辑回归、朴素贝叶斯和SVM等传统机器学习模型。随后通过网格搜索进行参数调优,并引入GloVe词向量结合XGBoost的方法。最后展示了深度学习解决方案,包括构建嵌入矩阵、使用LSTM/GRU等循环神经网络结构,以及模型训练和预测提交过程。整个流程涵盖了从基础特征工程到
图数据作为表示实体间复杂关系的天然模型,其相似性度量是图聚类、分类与检索等任务的核心基础。本文系统综述了图距离计算的关键方法。主要路径分为两类:其一为基于结构的精确匹配,包括子图同构算法(如Ullmann)以及衍生的最大公共子图和图编辑距离,该方法精确但计算复杂度高;其二为基于特征的近似度量,通过提取图拓扑指数或利用图核函数,将图结构转化为数值特征进行高效比较。本文分析了各类方法的优劣与适用场景,
大语言模型在常识推理中表现出色,却在复杂的数学与逻辑问题上频频“失手”。它们善于分解问题,却常在精确计算和推导上犯错。为了攻克这一瓶颈,“代码辅助推理” 范式应运而生,它将大模型的规划能力与程序解释器的精确性相结合,开启了AI推理的新篇章。本文系统梳理了这一领域的三大经典工作:PAL 开创了“模型写代码,解释器做计算”的分工模式;PaD 通过程序蒸馏,将强大的推理能力高效迁移至小模型;CSV 则引
本文聚焦深度确定性策略梯度(DDPG) 在连续控制任务(倒立摆)中的理论与实践。对比离散 / 连续动作强化学习差异,并阐释 DDPG 作为 Actor-Critic 框架,通过确定性策略突破连续动作空间局限的核心机制。代码层面,一方面基于 Stable-Baselines3 快速实现 DDPG 训练、测试及可视化;另一方面手动构建 DDPG 核心组件,包括经验回放、Actor/Critic 网络(
这篇博客精解了两大深度学习里程碑:Transformer与GAN。Transformer凭借自注意力机制,取代RNN/CNN,解决了长程依赖与并行化的核心难题,成为当今大模型的基础。GAN开创了生成器与判别器对抗的训练范式,无需复杂概率计算,直接生成高质量样本,定义了生成模型的新方向。文章对比了二者的核心创新、优势(并行/高质生成)与缺陷(自回归瓶颈/训练不稳定),并概述了其深远影响。
当前,大语言模型的核心瓶颈已从“知识储备”转向“推理能力”。Tree-of-Thoughts (ToT) 与 ReAct 框架代表了突破此瓶颈的两种革命性路径。ToT 通过模拟人类“三思而后行”的决策过程,将线性推理链拓展为树状结构,引入了生成多种思路、评估其前景、并通过搜索算法进行前瞻与回溯的机制,从而在数学推理、创意写作等需要战略规划的任务中取得质的飞跃。 ReAct 则通过交织“推理”与“行







