logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LangServe 实战:5 分钟将 LangChain 链部署为 REST API

python运行# 文件名:chain.py(替换为 RAG 链)import os# 1. 构建知识库(示例文档)"LangServe 是 LangChain 官方部署工具","LangServe 基于 FastAPI 构建,支持 REST API","LangServe 可部署链、智能体、检索器等组件"# 2. RAG 提示词模板。

大模型内存减负神器:bitsandbytes 超详细入门指南

bitsandbytes 是一个轻量级的工具库,核心是对 CUDA 函数进行封装,专门解决大模型训练和推理时的显存占用过高问题。你可以把它理解为 “显存压缩大师”,它不改变模型的核心结构和功能,而是通过一系列优化技术,在保证模型性能几乎不下降的前提下,大幅降低显存消耗。8 比特矩阵乘法:支持混合精度分解,计算效率高,显存占用远低于传统 32/16 比特计算LLM.int8 () 推理:专门针对大语

#python#深度学习#机器学习
一文读懂百川大模型系列:从7B到Baichuan2,部署微调全攻略

新手入门/轻量任务:选Baichuan-7B,门槛低、易上手;实用部署/商业落地:优先Baichuan-13B,性能强、部署灵活,对话模型开箱即用;高端需求/复杂任务:选Baichuan-53B或Baichuan2,知识储备足、推理能力强;微调建议:优先用LoRA微调省资源;数据配比按1:5(领域:通用)来,效果更稳。

#人工智能
大模型超长对话不卡顿?一文读懂 StreamingLLM 与 SwiftInfer

最后用一句话总结:StreamingLLM 解决了大模型“超长对话失忆、卡顿”的核心问题,而 SwiftInfer 则解决了 StreamingLLM 落地时的“速度、成本、延迟”问题,两者结合,让大模型的超长多轮对话从“可行”变成了“好用、低成本”。对我们普通用户来说,这意味着未来和大模型聊天时,再也不用因为聊得太久而担心模型“掉线”;对企业来说,这让大模型在客服、智能助手等场景的落地更划算、更

#人工智能#算法#机器学习
让英文大模型懂中文!手把手教你构建中文 Tokenization(基于 LLaMA)

很多开发者都遇到过这样的问题:基于 LLaMA 家族的英文大模型,处理中文时要么分词混乱,要么生成效果差。核心原因很简单 —— 原始 LLaMA 模型的训练语料以英文为主,中文词表覆盖率极低,无法正确理解和处理中文文本。今天就带大家从零开始,用《斗破苍穹》作为中文语料,一步步构建中文 Tokenization,合并中英文词表,让 LLaMA 类模型完美支持中文。全程附可直接复制的代码和详细解释,新

#python#开发语言
LoRA超全教学指南:大模型高效微调神器从原理到实践

LoRA通过“低秩假设”和“参数冻结”的核心设计,在参数效率、训练成本、推理延迟之间找到了完美平衡,让普通开发者也能轻松微调千亿级大模型。它的核心优势的是“小而精”——用极少的参数实现高效适配,同时保持模型的原生推理性能。从实操角度,LoRA的使用门槛极低,借助Hugging Face的peft库,几行代码就能完成配置。无论是科研实验还是工业部署,LoRA都是目前大模型高效微调的首选方案。如果大家

#人工智能#python#深度学习
深入浅出 Attention 机制优化:从问题到主流变体实践

Attention 机制的优化是大模型从实验室走向工业落地的关键。从算法层面的 Multi-Query/GQA,到硬件层面的 FlashAttention,再到结构层面的并行 Block,每一种优化方案都是在效果、速度、显存三者之间做最优权衡。追求极致推理速度:优先考虑 Multi-Query Attention + FlashAttention;平衡效果与效率:选择 Grouped-Query

#python
Attention机制深度解析:问题、优化方向与经典变体

从传统Attention到MQA、GQA、FlashAttention的演进,核心逻辑始终是“在保证模型效果不显著下降的前提下,最大化提升效率、降低资源开销”:MQA主打“极致效率”,通过全共享KV实现显存和速度的突破,适合部署场景;GQA主打“平衡取舍”,通过分组共享兼顾效果与效率,适合对效果要求较高的大模型;FlashAttention主打“硬件适配”,通过分块计算和Kernel融合挖掘硬件潜

#python
大模型(LLMs)基础核心知识点梳理

大模型是相对概念,最初指参数量在1亿以上的模型;随着技术发展,标准不断升级,目前万亿参数以上的模型(如GPT-4、PaLM-2)也属于大模型范畴。大语言模型(LLM)是大模型的子集,专门针对自然语言处理任务设计,核心能力是理解和生成人类语言。数据利用效率高:通过“预训练+微调”范式,用大量无标注数据训练通用模型,再用少量标注数据适配特定任务,大幅降低数据标注成本,提升模型泛化能力;生成能力强大:依

#人工智能
大模型微调全攻略:从基础认知到实战落地

随着大语言模型(LLM)的快速发展,单纯使用预训练基座模型已难以满足特定场景的需求,微调(Fine-Tuning)成为解锁模型定制化能力的核心手段。无论是全参数微调的算力规划,还是参数高效微调(PEFT)的轻量化实现,掌握微调技术都能让 LLM 更好地适配垂直领域任务。本文将从基础概念、关键问题、实战操作三个维度,带你全面掌握大模型微调的核心知识与实操技巧。算力有限时,优先选择 LoRA 微调,兼

#人工智能
    共 37 条
  • 1
  • 2
  • 3
  • 4
  • 请选择