logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

在mac m1基于llama.cpp运行deepseek

/bin/llama-cli -m ../../DeepSeek-R1-Distill-Qwen-7B/model-q4_0.gguf -p "你好?转化后GGUF模型文件../DeepSeek-R1-Distill-Qwen-7B/DeepSeek-R1-Distill-Qwen-7B-F16.gguf。量化后的gguf int4文件../../DeepSeek-R1-Distill-Qwen-

#人工智能#语言模型#macos
代码知识库开源方案的整理和探索

传统代码知识库如Confluence、GitBook长期面临一系列问题,比如文档与代码不同步。LLM介入后这些可能不再是问题,LLM直接在代码层面完成架构图、调用链、模块说明的自动生成与更新。通过离线向量化与在线推理,可将代码转化成可检索知识,精准回答和优化编程。目前代码知识库正从一个辅助工具演进为研发体系的核心基础设施,如KoalaWiki、Deepwiki等。这里尝试从技术架构、方案对比、实践

#人工智能
Elasticsearch获取文档总数的方法示例

使用Elasticsearch客户端获取索引中文档总数,主要有两种方法Count API和 Search API。这里尝试基于网络资料,分别给出两种方法的使用示例。

#全文检索
git获取远程github仓库指定commit版本

git clone -b branch git@github/$username/$project.gitgit checkout commitid

#git#github
强化学习SAC算法探索和学习

根据上述目标,定义软动作价值函数和软状态价值函数注意到第二式可改写为:这正是最大熵目标下软状态价值的定义。将两式结合可得到软贝尔曼方程:这个方程用于后续Q函数的迭代更新。

#学习
强化学习算法TD3的探索和学习

TD3算法通过精巧的设计,将探索与学习两个过程有机结合。在探索时依赖噪声驱动,在学习时通过三项关键机制,即双Q网络、延迟更新、目标策略平滑来确保稳定高效地利用探索收集的数据。为了清晰地展现其核心思想,下表对比了它在不同阶段的探索策略:1)训练阶段核心探索机制是动作噪声扰动,具体为在Actor网络输出的确定性动作上,添加随机噪声(如高斯噪声)。从而在动作空间中进行广泛的试探,收集多样的经验数据,避免

#算法
基于策略梯度的高效强化学习算法-GRPO

GRPO推导揭示了其如何巧妙地将分组统计与相对比较的思想融入策略梯度框架。GRPO通过简洁公式实现了基线削减方差和标准化稳定更新的双重目的。从而整体形成了一种高效、简洁且稳定的策略优化算法。

#人工智能
python环境pip安装包存放位置

"/path/to/python_env/lib/python3.11/site-packages"即为python环境pip安装包存放位置。site-packages是python包存放默认位置,包括Python标准库、pip安装的第三方组件等。linux系统环境定位python site-packages位置方法如下。pip包一般情况下存放在python安装目录site-packages中。

#python#开发语言
dify docker compose操作命令指南

假设目前已经位于项目dify docker配置目录,包含.env文件。比如以下示例中的dify,很多核心配置在.env中。以下是dify docker常用的操作指令。

#docker#容器#运维
VS Code + Continue编程插件示例

Continue 是一款完全开源的 VS Code 插件。它采用 Apache 2.0 许可证进行分发。Continue开源、高度可定制化的AI编程助手,可以无缝集成多种AI模型。用户可以在对话界面中提及某个文件或代码块,让LLM更好滴理解上下文。

#人工智能
    共 274 条
  • 1
  • 2
  • 3
  • 28
  • 请选择