logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vLLM-Omni 分别起 3 个推理服务(文生图 / 单图改图 / 多图改图)

本文介绍了一个基于vLLM-Omni和FastAPI的图像生成与编辑服务架构方案。该方案包含三个独立的推理服务:文生图(Z-Image-Turbo)、单图编辑和多图编辑(Qwen-Image-Edit模型),通过FastAPI网关统一提供OpenAI风格的API接口。部署建议使用Docker Compose,最小配置需要16GB VRAM GPU和32GB内存,推荐使用24GB VRAM以上配置以

vLLM-Omni 分别起 3 个推理服务(文生图 / 单图改图 / 多图改图)

本文介绍了一个基于vLLM-Omni和FastAPI的图像生成与编辑服务架构方案。该方案包含三个独立的推理服务:文生图(Z-Image-Turbo)、单图编辑和多图编辑(Qwen-Image-Edit模型),通过FastAPI网关统一提供OpenAI风格的API接口。部署建议使用Docker Compose,最小配置需要16GB VRAM GPU和32GB内存,推荐使用24GB VRAM以上配置以

CANN是什么,他的版本都代码什么意思?

摘要: CANN是华为昇腾NPU的官方软件栈,相当于"昇腾版CUDA",负责连接AI框架与硬件。8.2.RC1中,8.2为版本号,RC1代表候选发布版。关键点: vLLM-Ascend需CANN≥8.2.RC1,且必须严格匹配PyTorch、torch-npu版本(如PyTorch 2.5.1对应torch-npu 2.5.1.post1)。 使用前需执行source set_

#CANN
什么是NPU,怎么使用国产npu卡部署模型

摘要:NPU(神经网络处理器)是专为AI任务设计的加速芯片,如华为Ascend系列,相比GPU具有更低功耗。部署流程包括:1)安装NPU驱动和CANN工具链;2)适配PyTorch/MindSpore框架;3)下载模型权重;4)通过vLLM-Ascend或MindSpore插件启动推理服务;5)用npu-smi监控运行状态。整个过程实现国产芯片的高效AI模型部署。

主流GPU机型比较

本文对比了四款AI计算卡的性能差异:NVIDIA 3090(消费级深度学习卡)、A100(数据中心训练卡)、L20(推理/中等训练卡)和华为910B(NPU专用卡)。从FP16/BF16算力看,910B≈A100>L20>3090;显存容量排序为A100 80G≥910B>L20>3090;显存带宽A100最优(1.9-2TB/s),910B次之(400GB/s-1.2TB/s)。能效方面,L20

什么是 PoS(权益证明)

PoS 是一种基于“持有代币数量”的区块链共识机制,持币越多、持币越久,获得打包新区块机会的概率越高。换句话说,不是靠算力挖矿,而是靠“你拥有多少币”来竞争记账权。

什么是fastmcp 2.0,怎么使用它构建mcp项目

fastmcp 2.0是一个Python框架,用于构建和集成MCP(Model Context Protocol)服务器与客户端,简化LLM应用开发。它通过装饰器快速声明工具/资源/提示模板,自动生成schema,支持多种传输协议(STDIO/HTTP/SSE)。2.0版新增客户端功能、服务组合/代理、OpenAPI转换及内存测试等生产级特性。典型应用包括:20行代码构建MCP服务,通过客户端调用

模型类型:文本生成和嵌入存在什么区别

文本生成(Text Generation)和嵌入(Embedding)是两种不同的自然语言处理(NLP)模型类型,它们的作用、用途和内部机制都有很大的区别。你可以根据你的具体需求选择合适的模型类型。如果你的需求涉及自然语言 SQL 生成、知识检索、语义匹配等,可以使用嵌入模型+生成模型结合的方法。,这些向量可以用于语义相似度计算、搜索、推荐系统、知识检索等任务。:[0.12, -0.34, 0.5

用 fastmcp 2.0 做一个“短期记忆(Redis)”的 MCP 服务器(Server)+ 一个简单的 Client 例子

本文介绍了一个基于fastmcp 2.0和Redis的短期记忆(MCP)系统实现方案。系统提供5个核心工具函数:mem_put(设置KV)、mem_get(读取KV)、mem_append(追加时间线)、mem_recent(获取最近记录)和mem_clear(清理会话)。设计特点包括会话隔离存储、TTL自动续期、时间线裁剪等。文章包含完整的服务端实现代码(server.py)和客户端调用示例(c

#redis#服务器#bootstrap
模型置信度在实际中的应用

摘要:大语言模型(LLM)中的置信度本质上是基于token生成概率的评估指标,可通过logprobs字段获取。具体实现上,Qwen/DeepSeek/vLLM等框架提供了置信度计算功能,工程应用包括:1)答案可靠性判定(RAG/多Agent系统);2)多模型投票;3)拒答机制;4)提示词优化。置信度与温度参数共同控制生成质量,在实际系统中(如法律检索问答)可设置阈值来保证输出可靠性。该机制能有效降

    共 348 条
  • 1
  • 2
  • 3
  • 35
  • 请选择