logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

OpenCode 免费模型深度评测:四大开源模型场景化对比与选型指南

OpenCode开源大语言模型生态提供四大免费模型:Trinity Large Preview(400B稀疏MoE架构,适合创意写作/复杂推理)、Big Pickle(轻量稳定,适合日常编程)、MiniMax M2.5 Free(架构师级编程能力,支持工具调用)和GPT-5 Nano(极速响应,成本最低)。选型建议:追求性能选Trinity,稳定易用选Big Pickle,专业编程选MiniMax

文章图片
#开源
手写最基础的大模型推理

手写一个,但是为了方便测试和节省显存,我们先用一个,比如distilgpt2(比 GPT-2 小很多,适合 CPU/GPU 本地跑)。下面我给你一个,不用任何复杂框架,也能做简单的文本生成。

文章图片
#人工智能
LMCache + vLLM 部署指南(以 Qwen3-0.6B 为例)

本文档提供了在Linux环境下部署LMCache+vLLM框架的完整指南,以Qwen3-0.6B模型为例。首先介绍了系统依赖安装和Python虚拟环境配置,重点说明了LMCache服务器的启动参数和日志解读。随后详细阐述了vLLM服务的两种部署方式:基础模式和高兼容模式,并提供了常见错误的解决方案。最后展示了如何通过REST API测试模型推理功能。该方案通过GPU KV缓存管理显著提升了大语言模

文章图片
一文搞明白模型里面的文件都是干嘛的

Qwen3模型文件夹文件主要分为四类:1)模型架构与配置文件(config.json等),定义模型结构和运行方式;2)分词器文件(tokenizer.json等),负责文本与数字token的转换;3)模型权重文件(model.safetensors等),存储训练好的参数;4)辅助文件(README.md等),提供说明文档。核心流程:先读取config搭建模型框架,加载权重参数,通过分词器处理输入输

#人工智能
3 个由浅到深的 CUDA 编程完整示例

本文介绍了3个由浅入深的CUDA编程示例,涵盖基础向量运算、矩阵乘法和PyTorch结合应用。第一个示例演示了向量加法的完整流程,包括GPU内存管理、核函数调用和错误检查。第二个示例展示了矩阵乘法的优化实现,重点讲解了共享内存的使用和二维网格配置。第三个示例(未完整展示)涉及PyTorch与CUDA的结合应用。文章详细说明了环境配置、编译命令和关键编程要点,如cudaMalloc/cudaFree

文章图片
使用HIP编写GPU 算子向量加法

HIP 是 AMD 推出的跨平台 GPU 编程接口,兼容 AMD 和 NVIDIA GPU。本文演示如何使用 HIP 编写一个简单的向量加法算子:1) 定义 __global__ 核函数实现并行计算;2) 使用 hipMalloc 分配设备内存;3) 通过 hipMemcpy 传输数据;4) 调用 hipLaunchKernelGGL 启动核函数。示例代码展示了完整的 HIP 算子开发流程,包括内

文章图片
SGLang、TensorRT-LLM和vLLM大模型推理框架对比

SGLang、TensorRT-LLM和vLLM是三种主流的大模型推理框架,各具特色。SGLang专注于结构化输出和高效缓存,适合多轮对话场景;TensorRT-LLM依托NVIDIA硬件加速,优化推理速度和GPU利用率;vLLM则通过分页注意力机制提升显存效率,适用于高并发场景。三者分别在编程灵活性、硬件适配性和资源管理方面具有突出优势,为不同应用需求提供了多样化的解决方案。

文章图片
#sglang
一文看明白PyTorch 模型设计训练保存加载预测

本文介绍了一个基于PyTorch的三层全连接神经网络实现。模型结构包含128→96→64→32的线性层,每层后接ReLU激活和20%的Dropout。代码演示了完整的训练流程(使用随机数据),包括模型定义、数据加载、训练循环(20个epoch),以及模型保存与加载预测。关键点包括:训练后保存权重为.pth文件、加载时需重建模型结构、预测时切换eval()模式禁用Dropout、使用no_grad(

文章图片
#pytorch#深度学习#机器学习
一文讲透Rerank模型:原理、作用、与Embedding的区别及选型指南

Rerank模型是RAG流程中的关键组件,用于对Embedding初筛结果进行精细排序。它通过「查询+文档」的全序列交互计算相关性分数,解决Embedding粗筛的语义模糊问题,平衡检索效率与效果。与独立编码的Embedding不同,Rerank能捕捉细粒度匹配,优先排列真正相关的文档。选型需考虑性能指标(MRR/NDCG)、推理效率、语言领域适配及生态支持。最佳实践是Embedding召回Top

文章图片
#人工智能
一文搞明白模型里面的文件都是干嘛的

Qwen3模型文件夹文件主要分为四类:1)模型架构与配置文件(config.json等),定义模型结构和运行方式;2)分词器文件(tokenizer.json等),负责文本与数字token的转换;3)模型权重文件(model.safetensors等),存储训练好的参数;4)辅助文件(README.md等),提供说明文档。核心流程:先读取config搭建模型框架,加载权重参数,通过分词器处理输入输

#人工智能
    共 85 条
  • 1
  • 2
  • 3
  • 9
  • 请选择