wangqiaowq 个人主页

@wangqiaowq

wangqiaowq

2023-03-08 14:24:03 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

GGUF 量化格式命名规则

K符号含义Q量化（Quantized）44-bit 精度K使用先进的分组量化（K-quant）MMedium 配置 ——最佳性价比🎯所以Q4_K_M= “使用 K-quant 方法的 4-bit 中等配置量化模型”👉这是目前本地部署大模型的黄金标准。

#人工智能

AuthorizationPolicy 是一个重要的配置对象，用于定义服务间的访问控制和权限管理。

在 Istio 服务网格中，是一个重要的配置对象，用于定义服务间的访问控制和权限管理。它允许管理员根据一系列规则来决定服务间的访问权限，从而增强系统的安全性。

#数据库 #ios

主流大模型推理框架对比

企业需求推荐方案快速上线、高吞吐、开源免费vLLM与 Hugging Face 生态深度集成TGINVIDIA GPU + 极致性能跨平台 / 资源受限llama.cpp超大模型（100B+）统一 AI 服务中台💡 实际选型建议结合GPU 型号、模型大小、QPS 要求、运维能力、是否需要量化等因素综合评估。可先用 vLLM 或 TGI 快速验证，再根据性能瓶颈迁移到 TensorRT-LLM。

#人工智能

主流大模型推理框架对比

#人工智能

阿里云服务器环境部署二 ES集群+Kibana部署

ES部署一、准备工作提前开放三台服务器的9200、9300端口，需要配置的服务器额外开放5601端口。只需要配置一个kibana即可连接es集群。创建es网卡二、安装 elasticsearch 8.14创建目录1、docker 拉取ES镜像3个节点都要拉取。

#服务器 #阿里云 #运维

mysql 数据导出到文件

mysql -u 用户名 -p --batch --silent 数据库名 -e "SELECT kid, title, question FROM knowledge_base_faq_batch WHERE label = '帮助中心FAQ' LIMIT 1000;mysql -u 用户名 -p 数据库名 -e "SELECT kid, title, question FROM knowled

#mysql

ES 参数调优

【代码】ES 参数调优。

#elasticsearch #大数据 #搜索引擎

百度智能云发布3款轻量级+2款场景大模型

相比ERNIE Speed，ERNIE Lite的参数量则更小，也更加适合搭载在低算力的AI加速卡上处理推理任务，在兼顾模型效果与推理性能的同时，大幅降低客户落地应用成本。ERNIE Speed作为三款轻量级大模型中的“大个子”，推理场景下拥有最高128k的上下文长度，在处理知识问答等任务时，能够更好的处理上下文的依赖关系，生成更加连贯和准确的预测或回答。同时，针对特定场景可以将ERNIE Spe

#百度 #人工智能

Ollama、Dify和vLLM是大语言模型生态系统中的关键组件

vLLM 则采用‌模块化分层架构‌，核心创新包括‌动态批处理引擎‌（通过预测请求模式弹性分配计算资源，提升 GPU 利用率）和 ‌PagedAttention 内存管理‌（将注意力计算分解为可变大小内存块，降低长文本处理时的内存占用）；Ollama‌ 适合边缘设备部署（支持 CPU 模式，在 MacBook M2 上可运行 4B 模型）、快速原型开发（单命令部署）及研究实验（提供详细日志），但‌不

#语言模型

Hanlp 配置

HanLP 1.x 使用。下载时间比较慢，耐心等待。文件夹放在指定目录。

#nlp

共 48 条

请选择