大语言模型运行工具及格式 Ollama操作大模型 LangChain应用开发框架【2026】

hello-future

233人浏览 · 2026-05-18 16:31:10

hello-future · 2026-05-18 16:31:10 发布

大语言模型运行工具及格式

运行工具（软件）：

1、LM Studio：最推荐新手。

2、Ollama：开发者。

3、llama.cpp：底层引擎，性能天花板、可深度调优。

4、vLLM：高并发/生产环境，企业级高性能推理服务。

大模型的格式，GGUF = Generic Graph Update Format：

.gguf，目前通用标准，取代旧格式，Ollama、llama.cpp、vLLM、所有本地部署首选。

.ggml，老版本格式，已淘汰，不再用；旧版 llama.cpp 遗留

.bin/.safetensors，原生PyTorch/HuggingFace原模型，训练、微调、HuggingFace下载原版模型。

.gptq，GPU量化专用旧版量化、部分显卡专属。
.

awq，另一种 GPU 量化格式，高性能显卡推理。

Ollama操作大模型

Ollama = 本地大模型的「Docker」+「HTTP 服务器」+「模型管家」

Ollama环境变量：OLLAMA_MODELS=F:\ProgramData\Ollama_Models，模型存储目录。

OLLAMA_MODELS/
├── blobs/【真实模型文件，核心权重文件】
├── manifests/【清单 & 索引】
│   └── registry.ollama.ai/
│       └── library/
└── models/【软链接/分层映射】

Ollama提供的Web 服务： http://localhost:11434

# 启动&停止
net stop ollama
net start ollama

# 拉取模型
ollama pull qwen2.5:7b-instruct
ollama pull qwen2.5:14b-instruct
ollama pull deepseek-coder:14b

# 启动并进入对话窗口
ollama run qwen2:7b
# 退出对话
/bye

# 单纯加载驻留内存，不进终端
ollama run qwen2.5:7b-instruct ""

# 启动设置保活，加载后一直不释放
ollama run qwen2.5:7b-instruct && ollama keepalive -1

# 后台静默启动（纯 API 服务用）
ollama serve

# 启动，限制上下文长度（num_ctx）、CPU线程（num_thread）
ollama run qwen2:7b --num_ctx 8192 --num_thread 16

# 查看状态
tasklist | findstr ollama
netstat -ano | findstr 11434

# 查看本地已下载的模型
ollama list
# 查看正在运行占用内存的模型
ollama ps

# 停止指定模型
ollama stop qwen2:7b
# 停止所有运行模型
ollama stop all

# 清理不用的模型
ollama rm 模型全名

LangChain应用开发框架

LangChain 是一个「大模型应用开发框架」，它不是大模型，不训练模型，不生成权重，旨在快速、低成本、用代码搭建大模型应用。

LangChain家族（三大版本）：LangChain (Python) — 最成熟、功能最全；LangChain.js (JavaScript/TS) — 前端/Node用；LangChain4j (Java) — Java / SpringBoot后端用。

LangChain，功能对等的最佳匹配版本：

Python端：langchain==1.2.17，地址：https://www.langchain.com.cn/。

前端/Node端：LangChain.js==1.2.35，地址：https://docs.langchain.com/oss/javascript/langchain/overview。

Java端：langchain4j==1.13.0，地址：https://docs.langchain4j.dev/，中文官网：https://langchain4j.cn/。

亚马逊云科技技术品牌专区

更多推荐

53.1.智能投喂器-硬件定时-基于STM32嵌入式物联网单片机软硬件毕业生系统设计【硬件+APP+云平台】

亚马逊云科技技术品牌专区

TVA、VLM与世界模型协同的通用智能架构（17）

亚马逊云科技技术品牌专区

CMU 11-785 深度学习导论笔记（一）

神经网络是人工智能中的一种方法，它教会计算机以受人类大脑启发的方式处理数据。近年来，它已成为各种模式识别、预测和分析问题的主要研究方向之一。神经网络在许多问题上确立了最先进的技术水平，并且常常大幅超越之前的基准。上一节我们介绍了神经网络的基本定义，本节中我们来看看神经网络带来的一些突破性应用。语音助手：例如 Siri、Alexa、Google Assistant。视觉与感知：例如人脸检测、人脸识别