logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

gpt-oss 全量技术解读

全文覆盖 gpt-oss(120b/20b)的能力与落地方案:Harmony 与 Agent、各推理后端的启动方式、环境与权重下载、单卡 80GB 运行要点、Clients 接入与安全实践,助力从验证到部署的高效实施。

#人工智能#python
Ollama + 4090(48GB)推理性能榨干从“显存占满但 GPU-Util=0”到“速度/吞吐可控拉满”

本文针对Ollama推理性能优化提供了系统性指导。首先强调必须明确优化目标:吞吐优先(提高并发处理能力)或速度优先(降低单请求延迟)。文章详细解析了GPU使用误区(显存占用≠推理负载),提出了tokens/s为核心的性能评估方法。针对双4090显卡配置,建议吞吐优先采用双实例负载均衡,速度优先则使用单卡单实例。提供了systemd的吞吐型和速度型配置模板,并给出GPU性能调优命令。最后指出请求参数

BERT 和 GPT 为什么结构不同?——Encoder 与 Decoder 图解

Transformer架构分为编码器(Encoder)和解码器(Decoder)两部分。编码器采用双向自注意力机制,可同时理解整句语义,代表模型如BERT;解码器使用带掩码的自注意力,逐词单向生成输出,代表模型如GPT。现代大语言模型多采用纯解码器架构,因其兼具理解与生成能力。核心组件包括自注意力机制、残差连接、层归一化和前馈网络,共同实现高效的序列建模。不同架构适用于不同任务:编码器擅长理解任务

文章图片
#bert#人工智能
一个人不够,那就开八场会——Multi-Head Attention 图解

本文深入浅出地解释了Transformer中的多头注意力机制(Multi-Head Attention)。通过将词向量维度分割为多个子空间,每个注意力头可以专注于学习不同类型的语义关系(如指代、句法、局部/全局信息等),最后将各头结果拼接融合。相比单头注意力,多头机制能更全面地捕捉复杂语义关系,且计算效率相当。研究表明,各头在训练过程中会自发形成专业分工。这种机制已成为现代大模型(如BERT、GP

文章图片
GPT 每次说话都在“掷骰子“——生成策略图解

本文介绍了大型语言模型(如GPT)的几种主要生成策略及其特点。首先解释模型输出概率分布的基本原理,然后详细分析了贪心搜索(确定性高但缺乏多样性)、束搜索(保留多条路径但计算量大)、随机采样(多样性强但可能不合理)、Top-k采样(限定候选词范围)和Top-p采样(动态调整候选集)等方法的优缺点。文章还说明了Temperature参数的作用机制,它能调节输出的随机程度。最后指出不同应用场景下的策略选

文章图片
理解大语言模型Transformer 架构、GPT 详解(二)

LLM 改变了 NLP 领域,之前主要依赖于显式的基于规则的系统和更简单的统计方法。LLM 的出现引入了新的深度学习驱动方法,带来了理解、生成和翻译人类语言方面的进步。现代 LLM 的两步训练:首先,在大型无标签文本语料库上预训练,使用句子中下一个词的预测作为"标签"。然后,在较小的标注目标数据集上微调,以遵循指令或执行分类任务。LLM 基于 Transformer 架构。关键思想是注意力机制,它

#语言模型#transformer#架构
双卡 A100 + Ollama 生产交付文档

本文档提供了在Ubuntu 20.04系统下部署双卡A100的Ollama服务指南,包含服务部署、资源分配、调用方法和运维管理。通过创建两个独立实例(ollama-gpu0和ollama-gpu1)分别绑定GPU0和GPU1,监听不同端口(11434和11435),实现双卡并行推理。文档详细说明了目录规划、环境检查、服务配置、预热脚本编写等步骤,并提供了健康检查、故障切换和升级回滚方案。最终目标是

#网络#人工智能#python
双卡 A100 + Ollama 的 Python 生产调用轮询分发、失败重试、健康检查与吞吐压测

文章摘要: 本文探讨了如何有效利用双GPU实例提升Ollama本地推理服务的性能。作者指出仅配置双实例端口(11434/11435)并不足够,关键在于调用层需要实现请求分流、故障切换、实例探活和性能监控四大功能。文章提供了两种调用方案:直接调用原生HTTP API实现精细控制,或使用OpenAI兼容接口简化迁移。重点介绍了如何构建Python客户端,包括基础请求类、实例轮询池和容错重试机制,并强调

#python#网络#开发语言
双卡 A100 + Ollama 吞吐调优`OLLAMA_NUM_PARALLEL`、上下文长度、KV Cache 与压测结果怎么一起看

本文针对双卡A100部署Ollama本地推理服务的调优策略展开分析,重点探讨如何最大化整体吞吐而非单个请求性能。核心观点包括:1)明确吞吐优先的调优目标,建议采用双实例分流而非单实例跨卡;2)并发参数与上下文长度呈乘法关系影响显存占用,需合理平衡;3)推荐适度设置并发数(2-4),避免过度放大导致显存压力;4)根据业务场景选择上下文长度,短文本任务建议控制在8k-16k;5)启用模型常驻(keep

#人工智能#大数据#数据库
双卡 A100 + Ollama 生产部署从安装、踩坑、调优到最终可上线方案

本文探讨了双卡A100服务器在生产环境中的部署优化方案。通过实践发现,单纯依靠硬件性能无法保证服务稳定性,必须从系统架构层面进行整体设计。文章总结了五个关键问题点:服务文件创建、进程启动失败、端口占用、目录权限和流量分配不均。最终提出了一套生产级解决方案,采用双实例双端口分流架构,每个GPU绑定独立实例和端口,配合完善的参数配置、调用层分流机制和观测系统。方案强调将复杂调度问题拆解为两个简单实例问

#人工智能#算法#linux
    共 419 条
  • 1
  • 2
  • 3
  • 42
  • 请选择