logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【实战评测】华为云 MaaS 平台 DeepSeek 大模型推理服务 + Dify 一键部署全攻略

2025 年以来,DeepSeek 系列模型凭借其出色的推理能力和极具竞争力的价格,迅速成为国内开发者社区的热门选择。无论是 DeepSeek-V3 的综合能力,还是 DeepSeek-R1 在数学推理与代码生成方面的惊艳表现,都让人看到了国产大模型的真正实力。然而,模型强不等于应用强。部署门槛高:自建推理服务需要 GPU 算力,成本动辄数万运维复杂度高:模型版本管理、负载均衡、弹性伸缩都需要专业

#人工智能#AIGC#深度学习 +1
手写 Speculative Decoding(投机解码):大模型推理加速的工程实现

方案草稿模型接受率加速比额外训练复杂度标准投机解码独立小模型60-80%2-3x否低Medusa预测头70-85%2-4x是(轻量)中EAGLE特征预测头80-90%2.5-3.5x是(轻量)中DeepSeek 分层多级小模型75-90%2.5-3.5x否高本文从零开始构建了一个完整的投机解码系统,覆盖了从算法原理到工程实现的全链路。

#人工智能#AIGC#深度学习 +1
手写 KV Cache 从零实现:理解 LLM 推理加速的核心技术

在这篇文章中,我们从零实现了 KV Cache 的核心机制,并深入分析了它的原理与优化方向。核心要点回顾:KV Cache 解决什么问题?自回归推理中的重复计算。将 O(n²) 的计算量降低到 O(n),长序列场景加速比可达 5-10 倍KV Cache 的成本是什么?内存。对于 32K 上下文的 LLaMA-70B,KV Cache 需要 40GB 显存。它已经从"加速工具"变成了"长上下文的主

#人工智能#AIGC#深度学习 +1
华为云Flexus+DeepSeek征文|万字实战:MaaS 推理服务 + Dify 高可用部署 + AI Agent 开发全流程

通过这次完整的技术实践,我体验了从MaaS 推理服务开通 → Flexus X 实例部署 Dify → AI Agent 工作流搭建的全链路流程。门槛大幅降低:以前从模型到应用至少需要 2 周,现在 2 小时就能跑通企业级能力完备:高可用部署、混合检索、Reranker 排序,该有的都有成本透明可控:按需付费 + 弹性计费,小团队也能用得起DeepSeek 系列质量过硬:V4-Flash 的性价比

#人工智能#AIGC#深度学习 +1
手写 AI 内容摘要系统:从零实现智能文档摘要与关键信息提取

信息爆炸时代,每天产生海量的文档、文章、报告需要阅读。用大模型做摘要已经成了标配,但直接调用 ChatGPT API 做摘要和手写一套完整的内容摘要系统之间,隔着整整一个工程化实现的距离。我们需要处理长文档分片、多种摘要策略(抽取式/生成式/分层式)、关键信息提取、以及最终的结构化输出。这篇文章我们从头写一个完整的 AI 内容摘要系统,覆盖从文本预处理到结构化摘要输出的全流程。内容摘要不是简单地把

#人工智能#AIGC#深度学习 +1
手写 DeepSeek 推理引擎优化:从 FP16 到 INT4 的量化加速实战

"""量化线性层:权重以 INT4/INT8 存储,在 FP16 精度下计算"""self,):# 量化权重缓冲区"""将 FP16 权重量化为 INT4/INT8"""# INT4 特殊处理:每 2 个 4-bit 值打包为 1 个 byteelse:"""INT4 权重量化并打包:原始形状: [out_features, in_features] → q_weight: [out_featur

#人工智能#AIGC#深度学习 +1
手写系列:从零实现一个极简大模型推理引擎

当你调用 OpenAI API 或者本地跑通 DeepSeek 时,有没有好奇过——那些动辄百亿参数的大模型,到底是怎么在 GPU 上"跑"起来的?答案藏在推理引擎里。输入文本 → Tokenize → Embed → Transformer 逐层计算 → LM Head → 采样 → 输出文本今天我们就从零实现一个极简推理引擎。不在乎性能、不追求优化,只求把推理链路讲透。代码用 Python +

#人工智能#AIGC#深度学习 +1
手写一个 AI Agent:从零实现工具调用与思维链

2026年,AI Agent 已经成为大模型应用最热门的落地形态。GPT-5.5 专为 Agent 时代设计,DeepSeek-V4 百万上下文让 Agent 能处理更复杂的任务——但 Agent 的核心架构其实并不神秘。Agent =大模型 + 工具调用 + 记忆管理 + 规划推理拆开来看,每个模块都不复杂。本文就用纯 Python,从零手写一个可运行的 AI Agent,不依赖 LangCha

#人工智能
手写 AI 幻觉检测系统:从零实现大模型事实性校验与幻觉缓解

本文从零实现了一套完整的 AI 幻觉检测与缓解系统,涵盖三个核心阶段:事实性校验、自洽性检测、不确定性量化,以及三种缓解策略:拒绝回答、标注问题、补充引用。事实性校验依赖于高质量的知识库,是检测硬事实错误的最直接手段自洽性检测通过多次采样的语义差异来发现模型"不确定"的内容,不需要依赖外部知识不确定性量化从 logits 层面提供更底层的置信度信号综合性检测比单一维度更可靠,加权融合能将准确率提升

#人工智能#AIGC#深度学习 +1
手写 Plan-and-Execute:从零实现 AI 智能体行为规划系统

策略适用场景优点缺点任务明确、步骤清晰简单可控无法应对变化探索式任务灵活性高实现复杂超长任务结构化好递归开销Plan-and-Execute 架构将"思考"和"行动"分离,让 AI 智能体从"一步一看"的短视模式,升级为"全局规划+分步执行+动态调整"的成熟模式。本文实现了完整的行为规划系统,包含任务分解、DAG 调度、自适应执行和监控重规划四个核心模块,代码可以直接集成到你的 Agent 项目中

#人工智能#AIGC#深度学习 +1
    共 75 条
  • 1
  • 2
  • 3
  • 8
  • 请选择