logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

SGLang-v0.5.6功能详解:RadixAttention如何降低延迟提升吞吐

本文介绍了如何在星图GPU平台上自动化部署SGLang-v0.5.6镜像,利用其RadixAttention技术优化大模型推理性能。该技术通过基数树实现KV缓存共享,显著降低多轮对话和批量处理场景下的延迟,提升吞吐量2-3倍,适用于聊天机器人、批量问答等高并发AI应用。

为Hermes Agent配置自定义供应商接入Taotoken多模型服务

Hermes Agent是一个流行的AI智能体开发框架,它支持通过自定义供应商(custom provider)来接入不同的模型服务。如果你希望让Hermes Agent使用Taotoken平台提供的多样化大模型,只需按照其官方规范进行几步简单的配置即可。本文将引导你完成整个过程。Hermes Agent在设计上允许开发者灵活地指定模型服务的后端。当选择provider为custom时,框架将不再

教育机构构建AI编程实验室的Taotoken多模型接入方案

教育机构在构建AI编程实验室时,通常有几个核心诉求。首先是模型多样性,课程设计可能需要学生对比不同模型的代码生成、逻辑推理或自然语言理解能力,单一模型无法满足教学需求。其次是权限与成本管控,需要为每位学生分配独立的访问凭证,并设置合理的用量上限,防止资源滥用或意外高额账单。再者是环境统一与简化接入,学生应能使用熟悉的开发工具(如Python、Node.js)和标准的SDK进行调用,无需为每个模型学

在Node.js后端服务中接入Taotoken调用大语言模型

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。👉。

使用Python和AI工具处理现实世界数据集

本章介绍了Python在处理现实世界数据集中的应用,涵盖从数据获取、清洗到分析和可视化的全流程。特别强调了Python库如Pandas、NumPy、Matplotlib、Seaborn、scikit-learn和SciPy在数据分析中的作用,以及如何通过集成AI工具Julius来增强数据分析的效率和效果。此外,还探讨了无代码和低代码工具如Mito、Draw Data、PyGWalker在数据分析项

仿京东商城图片轮播效果实战开发

图片轮播组件是一种常见的网页交互模块,广泛应用于电商首页、广告展示、新闻头条等场景。其核心功能是通过有限的页面空间,动态展示多张图片内容,提升信息密度和用户浏览体验。轮播组件通常支持手动切换、自动播放、导航按钮、指示器等多种交互方式。通过本章的学习,读者掌握了轮播组件中 CSS 样式与动画的完整实现流程。从容器布局设计到动画切换机制,再到导航按钮与指示器的交互设计,最终通过性能优化和兼容性处理确保

PyTorch-CUDA-v2.9镜像是否支持vLLM加速推理?可集成!

基于PyTorch-CUDA-v2.9镜像可无缝集成vLLM,实现高效大模型推理。利用PagedAttention与连续批处理技术,显著提升吞吐量并降低显存浪费,无需底层重构,仅需简单安装即可发挥GPU极致性能,适合科研与生产环境快速部署。

LoRA微调详解:Llama Factory如何用10%内存实现90%效果,附配置参数

本文介绍了如何在星图GPU平台上自动化部署Llama Factory镜像,以极低的资源消耗实现大语言模型的高效微调。通过LoRA技术,用户仅需少量GPU内存即可定制模型,典型应用如快速训练一个能理解特定领域知识并生成专业回复的智能客服助手。

LLama-Factory + HuggingFace镜像网站:解决模型下载慢的终极方案

本文介绍如何结合LLama-Factory与HuggingFace镜像网站,解决大模型下载慢、微调复杂的问题。通过镜像实现模型秒级下载,利用LLama-Factory的WebUI和API支持零代码微调,降低网络、技术与硬件门槛,助力个人开发者与企业高效落地大模型应用。

Qwen2.5在线服务监控:响应延迟与吞吐量统计方法

本文介绍了如何在星图GPU平台上自动化部署通义千问2.5-7B-Instruct大型语言模型镜像,并实现对该模型在线服务的响应延迟与吞吐量监控。通过内置的性能统计和实时仪表板功能,用户可快速搭建智能对话系统,应用于客服机器人、内容生成等场景,确保服务稳定高效运行。

#性能优化
    共 362 条
  • 1
  • 2
  • 3
  • 37
  • 请选择