logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vllm本地台式机运行(3070显存8G)与模型量化

本文对比了ollama与vllm两种大语言模型推理框架的部署差异。在RTX 3070(8G显存)环境下,ollama部署更简便且资源占用低,但性能较弱;而vllm需要额外配置量化方案才能运行。文章详细记录了vllm的安装过程(使用CUDA 12.8版本)和API服务器启动参数说明,重点展示了如何通过BitsAndBytesConfig对Qwen3-4B模型进行4bit量化以降低显存占用,并提供了量

#python
scrapy管理多个spider,共用settings问题

背景说明这段时间需要用到scrapy来获取一些数据,其中涉及到多个任务,之间对scrapy不太熟悉,于是一个任务一个scrapy,感觉对复用方面很不友好,于是我们在想,怎么在一个scrapy project中搞多个spider, 这样对各方面的复用会好很多.系统使用了redis,和kafka,代理逻辑, 还有散落在很多代码里的log一般这种抽象,我会采用策略模式来做,同时兼顾单例,根据fl...

#scrapy#策略模式#设计模式 +1
kafka设置外网消费者

kafka 的默认配置比较简单,但想把其端口暴露给外网(指定端口),则有一些额外的注意情况kafka 的版本,0.8和0.10 的配置不同,这里以0.10.0.0 为主,没有用集群,一台机做测试zookeeper安装与启动kafka 的安装包里自带有zookeeper,不过这里还是自行下载.这里采用3.4.8版本下载及安装请参考http://zookeeper.ap...

#kafka
到底了