weixin_54010404 个人主页

@weixin_54010404

weixin_54010404

2022-11-27 01:09:43 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【机器学习】31-32 强化学习介绍 & 状态-动作值函数

本文介绍了强化学习的基本概念与关键要素。强化学习是一种通过智能体与环境交互来学习最优策略的方法，其核心目标是最大化长期累计奖励。文章详细阐述了状态、动作、奖励、策略和价值函数等基本概念，并以火星探测器为例说明强化学习的应用。重点讨论了回报（Return）和折扣因子的作用，以及策略的定义与马尔科夫决策过程。随后介绍了状态-动作值函数（Q函数）及其计算工具贝尔曼方程，最后扩展到随机环境下的Q函数调整。

#机器学习 #人工智能

【机器学习】31-32 强化学习介绍 & 状态-动作值函数

#机器学习 #人工智能

OpenRouter Deepseek 使用MCP服务的问题

今天用Langchain写了一个ReAct Agent的Demo，用OpenRouter的Deepseek-V3模型，发现MCP工具失灵时不灵，有时候可以正常调用工具，有时候直接返回空。另外，还发现一个奇怪的问题：OpenRouter的OpenAI系列模型，不用MCP服务，不会提示国家地区限制，设计Function Calling就提示了，奇怪。OpenRouter的Deepseek系列模型提供商

#人工智能

AI编程工具 Claude Code 国内使用最佳实践

由于众所周知的原因，Claude官方已经禁止国内使用了，所以Claude Code CLI也就无法直接使用了。所以我们需要使用中转服务调用Claude API，或者换成咱们国产的LLM API，比如Deepseek V3.1, Qwen-Coder, Kimi K2等等。有点标题党了，勉强算是“最佳实践”吧。

【机器学习】31-32 强化学习介绍 & 状态-动作值函数

#机器学习 #人工智能

【机器学习】7-9 分类任务 & 逻辑回归的成本函数 & 逻辑回归的梯度下降

本文介绍了逻辑回归的基本原理及其实现方法。首先指出线性回归不适用于分类任务，进而引入逻辑回归模型，使用Sigmoid函数将输出限制在0-1之间作为概率预测。讨论了决策边界的线性与非线性形式，并重点推导了逻辑回归的成本函数，采用对数损失函数替代平方误差以解决非凸优化问题。最后给出了梯度下降算法的具体实现公式，包括权重和偏置项的更新规则。虽然形式上与线性回归相似，但本质差异在于预测函数f的不同。整个推

#机器学习 #分类

AI编程工具 Claude Code 国内使用最佳实践

C & C++ 中int和long long的最大值与最小值

对于有符号整形变量int来说，第一个bit位为符号位，0表示整数，1表示负数，后面的31位，正数用原码表示，最大值为。负数用补码表示，特别的，为了避免同时出现正0和负0的情况，如果是0x80000000，规定为。对于unsigned无符号整型变量来说，最小值即为0，最大值即为0xffffffff，即。int和long类型变量占用字节数与编译器有关，一般默认占用4个字节，即32个bit。也就是说，负

#c语言 #c++

到底了