logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深入探索 x-transformers:一个全功能 Transformer 实现库的实战指南

本文深入探讨了PyTorch库x-transformers的核心特性与应用,该库集成了Transformer架构的前沿改进。文章通过9个训练脚本分析,展示了从基础自回归语言模型到高级变体的实现方法,重点介绍了旋转位置编码(RoPE)、动态位置偏置、编码器-解码器架构等关键技术。特别探讨了创新性的信念状态模型实现双向生成,以及将Transformer与变分自编码器结合的GPT-VAE架构。此外,还介

文章图片
#python#人工智能#深度学习
DeepSpeed-RewardModel-Qwen3 实战:从零构建奖励模型

本文深入解析了基于DeepSpeed-Chat框架的Reward Model训练流程,主要包含以下内容: Reward Model在RLHF中的核心定位,作为学习人类偏好的"裁判"模型,为PPO训练提供奖励信号 数据处理流程: 构建偏好对比数据集,同时处理chosen和rejected响应 添加EOS标记并确保样本长度对齐 特殊的DataCollator实现成对batch组装

文章图片
#人工智能#机器学习#深度学习
从 GPT 到 GPT-2:解密生成式预训练模型的架构演进

摘要: GPT 和 GPT-2 是基于 Transformer 解码器的生成式语言模型,通过单向自回归方式实现文本生成。GPT-2 在 GPT 基础上通过扩大模型规模(最高 48 层)和训练数据(40GB),验证了缩放法则的有效性。两者采用 Masked Self-Attention 保证生成因果性,并通过预训练+微调两阶段训练,其中 GPT-2 引入 Top-K 采样提升生成多样性。这些创新为后

文章图片
LLaMA-Factory PPO 训练实战:从 SFT 到 RLHF 完整指南

本文介绍了基于LLaMA-Factory框架的RLHF三阶段训练流程,重点演示了从SFT到PPO的完整过程。首先通过监督微调(SFT)让模型具备指令遵循能力,然后构建偏好数据训练奖励模型(RM)学习人类偏好,最后使用PPO算法优化模型输出。文中详细提供了各阶段的配置文件和关键训练步骤,包括LoRA权重的合并方法。该流程可将基础语言模型逐步优化为符合人类期望的AI助手,特别强调了PPO在RLHF中的

文章图片
魔搭(ModelScope)下载 ChatGLM3 模型时 tokenizer.model 仅 132B?

摘要:在使用阿里云魔搭(ModelScope)下载ChatGLM3模型时,部分用户遇到tokenizer.model文件仅132字节的问题。该问题通常是由于未正确认证或手动下载导致的错误页面(如403/404响应),而非真实模型文件。解决方案是使用官方modelscope SDK的snapshot_download方法,自动处理认证、协议同意及文件校验。关键注意事项包括:确保登录魔搭账号、同意模型

文章图片
#语言模型
本地部署Qwen3-32B

Qwen3-32B部署指南摘要:该文档详细介绍了32B参数Qwen3大模型的三种部署方式。推荐使用Docker部署(vLLM>=0.8.5),支持4卡并行(最低2×RTX3090/4090,推荐4×RTX4090),提供BF16精度和10并发能力。部署步骤包括环境准备、模型下载(支持modelscope/huggingface)和容器启动,关键参数包括tensor-parallel-size、ma

文章图片
#python
SGLang 本地部署 Qwen3-8B 大模型实战指南

本文介绍了如何在本地服务器上使用SGLang框架部署Qwen3-8B大语言模型。SGLang作为专为LLM/VLM设计的高性能推理框架,具有RadixAttention机制、FlashInfer后端优化等优势。文章详细说明了环境配置(Python 3.10+、Torch 2.6.0等)、通过ModelScope下载模型、服务启动参数配置等关键步骤。重点分析了SGLang的初始化过程,包括模型检测、

文章图片
#sglang#python
深入理解 Function Calling、MCP 与 Skills:AI Agent 的三层能力架构

本文深入探讨了AI Agent的工具调用体系,从底层机制到上层抽象,涵盖Function Calling、MCP协议和Skills三层架构。首先指出大语言模型(LLM)的三大局限(知识截止、无状态、纯文本),强调工具调用的必要性。Function Calling作为底层原语,通过JSON Schema定义工具接口,实现模型决策与宿主执行的解耦。MCP协议进一步标准化工具交互,提供统一发现机制与传输

文章图片
#人工智能#MCP
从零构建医疗AI Agent:RAG增强检索、混合搜索与模型部署实战

本文介绍了一个基于LangChain、Milvus和Qwen3构建的医疗AI问答系统。系统采用多层检索架构:通过多向量检索扩展语义覆盖,结合BM25和向量检索的混合策略,并引入重排序优化结果。同时实现了Qwen3大模型的本地化部署与API混合架构,兼顾隐私保护与推理能力。该系统能有效解决医疗领域专业术语匹配、语义鸿沟等挑战,适用于智能导诊、用药咨询等场景,在测试中展现出90%以上的Top-3命中率

文章图片
#人工智能
从 Qwen3-0.6B 到 Qwen3.5-0.8B:轻量级大模型的架构革命与多模态进化

阿里巴巴通义千问团队推出的Qwen3-0.6B和Qwen3.5-0.8B两款轻量级模型展现出显著代际差异。Qwen3.5-0.8B不仅参数量增加0.2B,更实现了架构革新:从纯文本模型升级为原生多模态模型,支持262K超长上下文和视觉处理能力。其采用混合注意力机制(3层线性+1层全注意力交替)降低计算复杂度,引入MRoPE三维位置编码支持多模态输入,并内置视觉编码器处理图像/视频数据。这些改进使Q

#架构#人工智能#阿里云
    共 50 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择