logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

2025.10.21-强化学习入门

此外,我们还注意到:在训练初期,随机初始化的奖励预测器(reward predictor)与批评家网络(critic networks)可能产生较大的预测奖励值,从而延迟学习的启动。由于批评家(critic)的回归目标依赖于其自身的预测值,我们通过正则化手段将其预测结果约束为趋近于其自身参数的指数移动平均(exponentially moving average)所输出的结果,从而稳定训练过程。在

#人工智能
2025.10.21-强化学习入门

此外,我们还注意到:在训练初期,随机初始化的奖励预测器(reward predictor)与批评家网络(critic networks)可能产生较大的预测奖励值,从而延迟学习的启动。由于批评家(critic)的回归目标依赖于其自身的预测值,我们通过正则化手段将其预测结果约束为趋近于其自身参数的指数移动平均(exponentially moving average)所输出的结果,从而稳定训练过程。在

#人工智能
cursor配置mcp并使用

分析一下最短路径问题,会自动调用。方法一:直接在设置里配置。cursor会自动调用。在项目目录中创建一个。思维导图式规划代码结构。在cursor中配置。显示绿色说明连接成功。

#python
本地部署模型 --vLLM + Docker 部署+封装接口

vLLM的核心特性:最先进的服务吞吐量使用PageAttention高效管理注意力键和值的内存量化:GPTQ,AWQ,INT4,INT8和FP8VLLM的灵活性和易用性体现在以下方面:具有高吞吐量服务以及各种解码算法,包括并行采样,束搜索等支持张量并行和流水线并行的分布式推理提供与OpenAI兼容的API服务器支持很多显卡:NVIDIA GPU、AMD CPU和GPU、Intel GPU和CPU、

#docker#容器#运维
解决:cannot import name ‘Literal‘ from ‘typing‘

解决二:换为from typing_extensions import Literal。类型提示是在 Python 3.8 中引入的。在 Python 3.7 中,解决一:升级python。

文章图片
#python#开发语言
本地部署模型 --vLLM + Docker 部署+封装接口

vLLM的核心特性:最先进的服务吞吐量使用PageAttention高效管理注意力键和值的内存量化:GPTQ,AWQ,INT4,INT8和FP8VLLM的灵活性和易用性体现在以下方面:具有高吞吐量服务以及各种解码算法,包括并行采样,束搜索等支持张量并行和流水线并行的分布式推理提供与OpenAI兼容的API服务器支持很多显卡:NVIDIA GPU、AMD CPU和GPU、Intel GPU和CPU、

#docker#容器#运维
【VSCode报错】 Error while fetching extensions : XHR failed

设置-->网络和internet-->代理-->使用代理服务器。

#vscode#ide#编辑器
RuntimeError: CUDA error: no kernel image is available for execution on the device

如果有多个版本的cuda,虚拟环境中指定特定的cuda版本,在/venv/bin/activate中添加自己cuda所在的路径,添加后重新激活虚拟环境。开始使用的cuda版本是10.1,CUDA 10.1 版本不支持 RTX 3080,先升级cuda版本。原因应该是 cuda或pytorch 与显卡算力不区配。2. 配置cuda相对应的环境版本,详情见另一篇博客。1. 将cuda版本升级到11.6

文章图片
#python#开发语言
    共 17 条
  • 1
  • 2
  • 请选择