logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

ollama的所有参数的解读

适用于启动长期运行的模型服务。ollama run:适用于执行一次性请求,适合简单的模型推理。:用于模型的创建、上传和下载。ollama ps:用于查看已安装或正在运行的模型。你可以根据需要选择合适的命令来管理你的模型服务。

部署open webui 调用ollama启动的deepseek

在模型选择框输入时,可通过。

文章图片
#eureka#云原生
Ollama 使用指南

【代码】Ollama 使用指南。

ollama的set parameter的参数的注解

num_gpu参数允许你设置模型使用的 GPU 数量,在多 GPU 环境中尤为重要。其他参数控制模型生成文本的方式,如生成的文本长度、重复惩罚、生成的创造性等。根据你的硬件和需求配置这些参数可以显著影响生成的效率和质量。

文章图片
#算法#人工智能
ollama怎么升级版本

要升级ollama的版本,你可以根据最初的安装方式来选择升级的方法。

Ollama搭建的模型,怎么使用fastapi项目调用

要查看实际的本地 Ollama API 端点,首先需要确认 Ollama 的本地服务是如何配置和运行的。通常情况下,部署 Ollama 时会有配置文件或日志文件显示服务的运行端口和 API 端点信息。

文章图片
#fastapi#网络
vLLM-Omni部署Z-Image

vLLM-Omni支持通过OpenAI兼容API调用自建的Z-Image-Turbo图像生成服务。主要特点包括:1)使用--omni参数启动服务;2)支持DALL·E风格的/v1/images/generations接口进行文生图;3)可直接使用OpenAI官方SDK调用自建服务。注意事项:需区分文生图与图生图功能,后者建议使用Qwen-Image-Edit服务实现。该方案使开发者能够以标准化方式

启动监控页面监控vllm,大模型,显存的占用情况

摘要:本文介绍使用Prometheus+Grafana构建vLLM服务的全栈监控方案。通过DCGM Exporter采集GPU指标,cAdvisor收集容器/主机资源,配合vLLM原生指标,实现从模型请求、GPU显存到系统资源的统一监控。提供Docker Compose一键部署脚本,包含PromQL查询示例和告警规则配置,支持可视化运行状态、资源使用率和性能瓶颈分析。方案还支持通过OpenTele

vllm server 启动的模型的日志输出解析

vLLM服务日志显示,API接口(/v1/chat/completions)成功处理了多个请求(200 OK)。引擎性能指标显示:预热后生成吞吐量提升至24.9 tokens/s;系统空闲时KV缓存和前缀缓存命中率为0%;建议固定提示词前缀以提升缓存命中率。日志反映了典型的请求处理周期和性能特征,可通过调整参数获取更详细的请求级统计信息。

    共 461 条
  • 1
  • 2
  • 3
  • 47
  • 请选择