川冰ICE 个人主页

@chreehero

川冰ICE

2026-04-24 10:13:13 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

本地部署大模型完全指南①：硬件选型与环境搭建

本地部署大模型指南：硬件选型与环境搭建本文提供本地部署大模型的完整入门指南，重点解决硬件选型与环境配置问题。本地部署具有数据安全、零延迟、离线可用等优势，适合企业和高频用户。硬件选型：核心指标是显存（VRAM），7B模型需4GB（Int4量化），14B需8GB。RTX 3060可跑7B~14B模型，RTX 4090支持32B模型，企业级部署需多卡A100/H100。显存不足时可采用CPU运行、

#人工智能 #ide

本地部署大模型完全指南③：私有知识库搭建（Ollama + Dify）

本文介绍了如何利用 Dify 和 Ollama 在本地搭建私有知识库，解决大模型对业务文档理解不足的问题。内容涵盖：为什么需要知识库：大模型无法获取企业内部文档和最新信息，RAG（检索增强生成）技术通过搜索本地文档补充上下文。 Dify 的核心功能：知识库管理（文档上传/向量化/检索）多模型支持（Ollama/OpenAI等）可视化工作流编排部署步骤：通过 Docker Compose

#人工智能

本地部署大模型完全指南②：Ollama一键部署DeepSeek与Qwen

本文是本地部署大模型的第二篇实战指南，重点介绍如何使用Ollama一键部署国内两大热门开源大模型DeepSeek和通义千问(Qwen)。文章首先对比了两者的特点：DeepSeek在数学推理和编程方面表现突出，而Qwen则在综合任务和函数调用生态上更具优势。接着详细讲解了Ollama的核心操作命令，包括模型管理、存储位置调整等，并给出了不同硬件配置下的模型选择建议。实战部分分别展示了DeepSee

#人工智能

本地部署大模型完全指南④：API服务化与远程访问

本文是本地大模型部署指南的第四部分，重点讲解如何将本地模型API服务化以实现远程访问。文章首先指出API服务化的重要性，包括团队协作、系统集成和弹性扩展等优势。主要内容分为两部分： Ollama原生API详解：介绍了Ollama内置的HTTP API端点（如文本生成、对话、向量化等），并提供了流式/非流式调用的Python示例代码和多轮对话实现方法。 API网关构建方案：提出使用Nginx作为反

#人工智能

本地部署大模型完全指南⑤：搭建美观的对话界面（Open WebUI）

本地大模型对话界面部署指南本文介绍了如何为本地部署的大语言模型搭建美观易用的Web对话界面，重点推荐Open WebUI方案：功能优势：提供类似ChatGPT的交互体验支持多模型切换、文件上传、对话历史管理配备提示词模板库和响应式设计部署方式：推荐Docker一键部署（3000端口映射）详细说明容器参数和持久化配置提供原生安装备用方案核心配置：连接Ollama的两种方法管理

#人工智能

本地部署大模型完全指南⑧：实战应用——本地AI编程助手

本地AI编程助手实战指南本文介绍如何在VS Code中部署本地大模型作为编程助手，解决云端助手的隐私、离线使用和成本问题。提供两种集成方案： Continue插件 - 推荐方案，支持代码补全、审查、重构等功能，配置简单 CodeGPT插件 - 功能更全面，支持多模型切换详细指导包括： Ollama连接配置自定义代码审查工作流提示词模板设计 Git提交消息自动生成项目级代码理解（RAG技术

#性能优化

本地部署大模型完全指南⑥：多模型管理与智能切换

本文将介绍如何高效管理本地部署的多个大语言模型，实现智能切换和按需调取。主要内容包括：模型分层策略：根据任务需求将模型分为轻量级（1.5B-3B）、中量级（7B-14B）和重量级（32B-72B）三个层级，并给出推荐模型分工矩阵。 Ollama进阶管理：模型自动加载与卸载控制设置模型保持时间（从30秒到24小时不等）并发请求处理配置（最多支持4个并发）智能调度系统：基于Python的自动

#人工智能 #大数据 #机器学习

本地部署大模型完全指南⑦：性能优化与资源控制

本地大模型性能优化指南：显存、速度与内存管理本文提供了本地部署大模型时的实用性能优化方案，重点解决三大核心问题：显存优化：通过量化技术（Int4/Int8）可减少75%显存占用，推荐q4_0或q4_k_m量化方案；合理控制上下文窗口大小（问答2048，文档分析8192）；设置环境变量管理显存碎片化速度提升：确保GPU加速生效，采用批处理请求和预热机制，通过并发设置（OLLAMA_NUM_PA

#性能优化

本地部署大模型完全指南③：私有知识库搭建（Ollama + Dify）

#人工智能

AI Agent开发实战⑬｜向量数据库选型实战：Chroma vs Milvus vs Qdrant百万级数据性能对比

本文对比了三款主流向量数据库（Chroma、Milvus、Qdrant）在不同数据规模下的性能表现。测试结果显示，在小规模数据（<10万向量）下，Chroma简单易用且性能足够；中等规模（10万-100万）推荐Qdrant，其内存效率高且支持元数据过滤；大规模数据（100万以上）则Milvus表现最优，具备最强的写入和并发能力。关键结论：选型需考虑未来数据规模，避免中途迁移成本，小数据用Chrom

#人工智能

共 180 条

请选择