logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

rag向量知识库不同检索方式如何区分?

向量化用户输入的问题并生成查询文本的数学向量,比较查询向量与知识库内对应的文本向量间的距离,寻找相邻的分段内容。

#python#开发语言
Docke启动Ktransformers部署Qwen3MOE模型实战与性能测试

本文介绍了使用Docker部署Qwen3MOE大模型并测试性能的过程。由于CPU不支持AVX512指令集,改用AVX2版本的ktransformers镜像。通过Docker容器运行模型,详细说明了启动命令和参数配置,包括模型路径、优化配置等。重点测试了模型响应性能,结果显示预填充阶段速度为58.34 tokens/s,解码阶段为19.09 tokens/s,揭示了模型在不同处理阶段的性能特征,为优

文章图片
#docker#容器#运维
7.15踩坑记录-缺失 CUDA 库报错解决方案

解决LLM项目CUDA库缺失报错的简明指南 当运行llm-guard项目时遇到libcudnn.so.9、libcusparseLt.so.0等动态链接库缺失问题,可按以下步骤解决: 全局库处理(如libcudnn.so.9) 使用find命令定位库文件路径 创建软链接到/usr/local/lib 更新/etc/profile设置全局环境变量 Conda环境库处理(如libcusparseLt.

文章图片
#linux#运维#服务器
如何调用dify工作流api,代码格式如下

本文展示了如何使用Python的requests库与一个本地API进行交互。首先,配置了API的URL和认证密钥,并设置了请求头,包括授权信息和内容类型。请求体包含输入文本和响应模式等参数。通过requests.post方法发送请求,并设置了超时时间。如果响应状态码为200,且返回的数据状态为“succeeded”,则解析并打印输出数据。此过程展示了如何通过API进行数据交互并处理响应结果。

#人工智能#python#开发语言
通过vllm部署qwen3大模型以及基于 vLLM 的 OpenAI 兼容 API 接口调用方法总结

第一句是关于春节,中国家庭做饺子,长辈讲关于年兽的故事。这里要注意“make dumplings”翻译成“包饺子”比较合适,而“Nian”是年兽,应该音译为“年兽”或者“年兽”,但通常用“年兽”更常见。model="/home/xugq/qwen3-1.7b/",# 使用模型路径,如通过--served-model-name指定名称需与 vLLM 服务启动时指定的名称一致。:指定使用的推理解析器,

文章图片
#人工智能#算法#linux
通过vllm部署qwen3大模型以及基于 vLLM 的 OpenAI 兼容 API 接口调用方法总结

该报错说明KV缓存所需的内存超过了可用的显存,KV缓存的计算涉及模型层数、序列长度和批次大小等因素,模型默认设置的max_seq_len是40960,这大大超过了服务器的负载上限,应该降低通过调整–max_model_len参数以减少KV缓存需求。接口必须确认实际加载的模型名称,避免因名称不匹配导致404错误。适用场景:非对话式文本生成(如问答、续写)适用场景:多轮对话(如聊天机器人)

文章图片
#网络#linux#运维 +1
对llm-guard模型护栏实现敏感词过滤和敏感主题检测的源码分析?包括研究问题和具体实现原理。

LLM Guard敏感词过滤系统实现分析 Ban Substrings Scanner采用两种匹配方式: STR模式:简单字符串包含检查 WORD模式:正则表达式单词边界匹配 支持大小写敏感配置和敏感词替换功能 Ban Topics Scanner基于零样本分类技术: 使用预训练Transformer模型(如RoBERTa)进行主题分类 通过概率分数与人工设定阈值比较判断敏感内容 支持替换为中文模

#linux
如何在一台环境中同时安装ragflow和ragflow-plus

进入根目录和management/server/中执行。原因是宿主机和容器映射端口都被改成了6333。在已激活的 conda 环境中。

文章图片
#工作流
通过vllm部署qwen3大模型以及基于 vLLM 的 OpenAI 兼容 API 接口调用方法总结

该报错说明KV缓存所需的内存超过了可用的显存,KV缓存的计算涉及模型层数、序列长度和批次大小等因素,模型默认设置的max_seq_len是40960,这大大超过了服务器的负载上限,应该降低通过调整–max_model_len参数以减少KV缓存需求。接口必须确认实际加载的模型名称,避免因名称不匹配导致404错误。适用场景:非对话式文本生成(如问答、续写)适用场景:多轮对话(如聊天机器人)

文章图片
#网络#linux#运维 +1
    共 20 条
  • 1
  • 2
  • 请选择