
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
“大龙虾” OpenClaw 引爆全球互联网,以其面向本地与私有化场景的架构设计、对工具调用与自动化执行的良好支持,在技术社区引发广泛关注,逐步成为开发者和技术团队构建“可长期运行的个人助理”的重要选择。本文将围绕 OpenClaw 的实际落地场景,系统分析其对模型底座与算力平台的核心要求,并结合本地部署实践,给出最适配的参考方案(截止到26年2月)。

Claude Code 对接本地大模型

如果你反向代理之后,模型/智能体没有流式输出(打字机效果),请参考如下NGINX配置文件写法。OpenAI 等其他平台亦如此。

“大龙虾” OpenClaw 引爆全球互联网,以其面向本地与私有化场景的架构设计、对工具调用与自动化执行的良好支持,在技术社区引发广泛关注,逐步成为开发者和技术团队构建“可长期运行的个人助理”的重要选择。本文将围绕 OpenClaw 的实际落地场景,系统分析其对模型底座与算力平台的核心要求,并结合本地部署实践,给出最适配的参考方案(截止到26年2月)。

拆解 MCP 运行的底层原理

最近频繁压测大模型,需要下载多种不同类型的模型推理框架镜像,比如 vLLM、TensorRTLLM、SGLang,每个镜像文件都非常大,10G 起步,直接下载经常断开,一些新的镜像层加速源没有缓存,也会下载失败。直接挂梯子下载,也非常不稳定,经常中断。

本文探讨了在RAG场景下使用公有大模型时的数据脱敏方案。提出两种工程化解决方案:方案一通过自定义函数预定义字典替换敏感词,具有速度快、准确度高、成本低的优势,但维护复杂;方案二利用私有小模型动态识别和替换敏感信息,灵活性更高但返回速度较慢且准确度中等。两种方案均采用工作流编排方式实现,能够有效防止企业敏感数据被大模型厂商利用,同时保持语义完整性。实际应用中可根据对速度、准确度和灵活性的需求选择合适

在双卡L20 GPU环境下(操作系统为欧拉OpenEuler或FusionOS-23)部署vLLM大模型推理服务的完整流程。主要内容包括:1)环境检查确认GPU和操作系统;2)安装Anaconda并配置Python虚拟环境;3)安装NVIDIA驱动和CUDA Toolkit 12.9;4)部署PyTorch框架;5)通过modelscope下载30B参数的大模型;6)安装vLLM推理框架;7)最终

NVIDIA推出基于Grace Blackwell超级芯片的GB10主机,搭载20核ARM CPU(10大核+10小核)和6144 CUDA核的Blackwell GPU,FP4算力达11PetaFLOPS。本文详细记录了在NVIDIA DGX Spark上部署Qwen3-30B-A3B-FP4模型的过程:使用TensorRT LLM推理框架(比vLLM快10%),通过Docker启动服务。测试显

本文探讨了在RAG场景下使用公有大模型时的数据脱敏方案。提出两种工程化解决方案:方案一通过自定义函数预定义字典替换敏感词,具有速度快、准确度高、成本低的优势,但维护复杂;方案二利用私有小模型动态识别和替换敏感信息,灵活性更高但返回速度较慢且准确度中等。两种方案均采用工作流编排方式实现,能够有效防止企业敏感数据被大模型厂商利用,同时保持语义完整性。实际应用中可根据对速度、准确度和灵活性的需求选择合适








