logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

使用tunasync部署企业内部开源软件镜像站-Centos Stream 9

tunasync 是清华大学 TUNA 镜像源目前使用的镜像方案,本文将介绍如何使用 tunasync 部署企业内部开源软件镜像站。基于进行镜像站点搭建。

LLMPerf-为LLM提供可重现的性能指标

例如,一个在p4de实例上运行的CodeLlama 34B模型可以配置为8个每个使用1个GPU的副本,4个每个使用2个GPU的副本,2个每个使用4个GPU的副本,或者1个使用所有8个GPU的副本。实际上,我们确实尝试通过比较550个输入令牌和3500个输入令牌的输出并估计梯度来用回归法估算这个关系,发现每增加一个输入令牌会增加0.3-0.7毫秒的端到端时间,而每增加一个输出令牌会增加30-60毫秒

文章图片
#后端
Python 关卡

书生大模型实战营

文章图片
#python
ChaosBlade混沌测试实践

ChaosBlade 是阿里巴巴开源的一款遵循混沌工程原理和混沌实验模型的实验注入工具,帮助企业提升分布式系统的容错能力,并且在企业上云或往云原生系统迁移过程中业务连续性保障。Chaosblade 是内部 MonkeyKing 对外开源的项目,其建立在阿里巴巴近十年故障测试和演练实践基础上,结合了集团各业务的最佳创意和实践。基础资源:比如 CPU、内存、网络、磁盘、进程等实验场景;Java 应用:

文章图片
#测试工具
vdbench测试存储性能

线程数(thread)一般设置为客户端CPU线程数总大小 grep ‘processor’ /proc/cpuinfo | sort -u | wc -l测试总数据量需要为客户端内存大小两倍测试读模型时需要清理客户端缓存信息 sync;

ModelScope系列之开发环境安装

ModelScope Library目前支持tensorflow,pytorch深度学习框架进行模型训练、推理, 在Python 3.8+, Pytorch 1.11+, Tensorflow上测试可运行。但如果需要进一步具体使用ModelScope平台上承载的,包括多模态,NLP,CV,语音等不同领域的模型,来进行模型推理以及模型训练、微调等能力,则需要安装各个领域上不同的依赖。安装依赖,以NL

#后端
LM Studio本地离线部署大语言模型

使用LM Studio快速体验大模型工具,免除Python环境及众多依赖组件的安装。可以切换不同类型的大语言模型,同时支持在windows、linux、mac等PC端部署。除了UI界面的chat对话使用之外,也可以在本地启动服务器,使用接口进行调试。本地路径查询如下,LM Studio-Mymodel-show in File Explorer。直接使用lmstudio下载模型会失败,本文采用离线

文章图片
#后端
基于Ollama+AnythingLLM快速搭建本地RAG系统

从chat对话中可以看出基于上传的文档,可以回答简单的问题;对于中文文档推理的效果较差。安装后搜索AnythingLLM或在桌面快捷方式打开程序,兼容多种LLM模型。执行上述命令会在本地的114343端口启动服务,可以供外部调用。基于Ollama+AnythingLLM快速搭建本地RAG系统。embedding模型: nomic-embed-text。下载windows安装包,双击下一步安装即可。

#后端
Qwen大模型实践之初体验

模型下载有两种方式,一种是直接运行大模型demo程序,模型会自动下载,该种方式默认会从huggingface进行下载,国内网络无法直接下载或者速度较慢;demo程序有多个可以进行测试,一种是官方readme文件中给出的实例程序,直接运行,prompt直接写在程序中,打印大模型的回复内容,这种方式没有交互方式;除了可以进行交互外,另外就是运行demo程序后,模型文件会一直加载到GPU中,不用每次推理

文章图片
#后端
llmperf测试大模型API性能

输出令牌吞吐量(令牌/秒):输出令牌吞吐量以每秒返回的平均输出令牌数来衡量。输出令牌吞吐量越高,表示 LLM 推理提供程序的吞吐量越高。输出令牌吞吐量,表示每秒返回的平均输出令牌数。第一个令牌的时间 (TTFT),表示 LLM 返回第一个令牌的持续时间。第一个令牌的时间(秒):对于流式处理应用程序,TTFT 是 LLM 返回第一个令牌之前的时间。测试案例,以本地部署的大模型为例,测试baichua

#后端
    共 26 条
  • 1
  • 2
  • 3
  • 请选择