logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

开源医疗大模型哪家强?Baichuan-M2-32B全面评测

本文介绍了如何在星图GPU平台上自动化部署【vllm】Baichuan-M2-32B-GPTQ-Int4镜像,高效支撑医疗场景下的智能问诊与检验报告解读。该镜像基于vLLM推理引擎与4位量化技术,可在单卡RTX4090上流畅运行,适用于基层医院辅助诊断、医生AI智囊及医学内容生成等典型应用。

Qwen3-0.6B-FP8开箱即用:vllm+chainlit强强联合,文本生成超简单

本文介绍了如何在星图GPU平台上自动化部署Qwen3-0.6B-FP8镜像,快速搭建一个开箱即用的AI文本生成助手。该方案结合了vllm的高效推理引擎与chainlit的友好Web界面,用户无需复杂配置即可通过对话界面进行代码生成、内容创作和问题解答等任务。

vLLM部署GLM-4-9B-Chat-1M:支持OpenTelemetry的分布式链路追踪接入教程

本文介绍了如何在星图GPU平台上自动化部署【vllm】glm-4-9b-chat-1m镜像,快速构建支持100万上下文的长文本问答服务。通过预置环境与OpenTelemetry链路追踪集成,可实时监控推理全流程,典型应用于高精度古籍检索、多轮技术文档分析等复杂语义理解场景。

coze-loop部署案例:国产昇腾910B服务器上Ollama+Llama3适配实录

本文介绍了如何在星图GPU平台上自动化部署coze-loop - AI代码循环优化器镜像,实现本地化AI代码分析与优化。该平台简化了部署流程,用户可快速搭建环境,将工具应用于实际开发中,例如自动优化Python代码以提高其运行效率与可读性,为程序员提供高效的辅助编程体验。

Qwen3-Embedding-0.6B指令微调功能实测,灵活易用

本文介绍了如何在星图GPU平台上自动化部署Qwen3-Embedding-0.6B镜像,实现指令驱动的语义嵌入定制。通过预置环境与sglang一键服务,用户可快速构建高精度检索系统,典型应用于电商客服工单与知识库条目的精准匹配场景,显著提升业务语义理解能力。

DeepSeek-OCR-2性能测试:vLLM推理加速实测,处理速度对比

本文介绍了如何在星图GPU平台上自动化部署DeepSeek-OCR-2镜像,实现高效OCR文档处理。通过vLLM推理加速框架,该方案显著提升批量文档识别速度,特别适用于企业级文档数字化、表格数据提取等场景,处理效率最高可提升161%。

GLM-4-9B-Chat-1M部署案例:高校AI实验室低成本搭建1M上下文教学实验平台

本文介绍了如何在星图GPU平台上自动化部署【vllm】glm-4-9b-chat-1m镜像,为高校AI实验室提供低成本的长文本教学实验解决方案。该镜像支持1M tokens超长上下文处理,适用于学术论文分析、编程教学辅助等场景,显著提升教学效率与科研能力。

GLM-4-9B-Chat-1M实战:用Function Call自动调用Python脚本处理数据

本文介绍了如何在星图GPU平台自动化部署【vllm】glm-4-9b-chat-1m镜像,实现Function Call功能自动调用Python脚本处理数据。该镜像支持超长文本理解与多语言交互,典型应用于销售数据分析、报表生成等自动化数据处理场景,大幅提升工作效率。

通义千问2.5-7B-Instruct商用合规部署:开源协议与镜像使用指南

本文介绍了基于星图GPU平台自动化部署通义千问2.5-7B-Instruct镜像的完整方案。该平台支持高效部署这一商用合规的大语言模型,适用于模型微调、AI应用开发等场景,结合vLLM与Open WebUI可快速构建类ChatGPT的私有化对话系统,助力企业低门槛落地高性能AI服务。

基于vLLM的Dify智能体平台性能优化实战

本文探讨如何利用vLLM的PagedAttention和连续批处理技术优化Dify智能体平台的推理性能,显著提升显存利用率与并发能力,降低延迟并支持长上下文处理,实现5–10倍吞吐提升,同时保持与OpenAI API兼容,简化部署。

    共 199 条
  • 1
  • 2
  • 3
  • 20
  • 请选择