logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI Agent核心架构解析:从原理到主流框架对比

AI Agent是一种能够感知环境、做出决策并执行行动的智能系统。与传统LLM的"问答"模式不同,Agent更像一个"数字员工"——用户给出高层目标,它自主分解任务、调用工具、修正错误,最终完成任务闭环。规划(Planning):将复杂任务拆解为可执行的子步骤记忆(Memory):存储历史上下文与中间结果工具使用(Tool Use):调用外部API、数据库或代码解释器执行(Action):基于LL

#人工智能
CUDA矩阵乘法优化:数据局部性与硬件执行模型的深度解析

当我们编写一个矩阵乘法kernel时,同样的算法在不同GPU架构上可能产生数倍的性能差异,其根本原因在于数据局部性(Data Locality)的利用程度以及执行单元的调度效率。本文从CUDA硬件抽象出发,深入剖析矩阵乘法优化的本质——如何在有限的寄存器与shared memory带宽约束下,最大化数据复用并消除内存访问瓶颈。在矩阵乘法中,每个输出元素需要读取A的一行和B的一列,总计M+N次内存访

#矩阵#人工智能#深度学习 +1
CUDA并行计算原理与矩阵乘法底层优化:从SIMD到Warp调度机制

GPU优化的本质是建立清晰的硬件意识模型:理解Warp调度、内存层次、共享内存特性、指令吞吐。在编写CUDA代码时,始终思考数据局部性、并行度、合并访问这三维优化空间。矩阵乘法作为BLAS的核心操作,其优化策略体现了GPU计算的精髓:利用数据复用减少带宽需求,通过层次化存储平衡延迟与容量,以大规模并行度掩盖指令级延迟。真正的性能优化需要持续的profiling、假设、验证循环。CUDA提供了丰富的

#矩阵#线性代数
大模型Tokenizer原理:深入理解BPE与WordPiece子词编码技术

考虑单词"unsupervised",BPE可能优先合并出现频率最高的字符对,而WordPiece会考虑合并后对整体句子概率的影响。具体来说,对于候选合并对(A, B),计算合并前的联合概率贡献与合并后的联合概率贡献之差,选择使整体似然提升最大的对。具体而言,对于输入单词,从右到左(或从左到右)遍历所有可能的分词位置,计算每种分词方案的概率,选择概率最高的方案。与BPE基于频率的贪心合并不同,Wo

#人工智能#深度学习#机器学习
视觉感知的新纪元:Meta SAM 系列从图像分割到视频追踪再到开放词汇分割的技术演进

2023年,Meta 发布的 SAM1(facebookresearch/segment-anything,54K⭐)彻底改变了计算机视觉领域的游戏规则。和。图像编码器采用预训练的 ViT(Vision Transformer)作为 backbone,将输入图像转换为高维特征图。SAM1 提供了 ViT-H、ViT-L、ViT-B 三种规格的模型,其中 ViT-H 在 SA-1B 数据集(包含 1

#音视频
DeepSeek V4 Pro + 华为昇腾910:国产大模型落地的性能实测与深度解析

(后文简称 Pro)主打“百万上下文标配 + 超大记忆”。与此同时,华为昇腾 910 成为。宣布完成 V4 全链路适配的商业 AI 加速卡。这一里程碑背后不仅是硬件的升级,更是一次。2026 年 4 月 24 日,DeepSeek 正式发布 V4 系列,其中。:在同等功耗(约 300 W)下,V4 Pro + 昇腾 910 的。已经可以逼近 NVIDIA A100 80 GB,而。的首 token

#华为#人工智能
DeepSeek V4 Pro + 华为昇腾910:国产大模型落地的性能实测与深度解析

(后文简称 Pro)主打“百万上下文标配 + 超大记忆”。与此同时,华为昇腾 910 成为。宣布完成 V4 全链路适配的商业 AI 加速卡。这一里程碑背后不仅是硬件的升级,更是一次。2026 年 4 月 24 日,DeepSeek 正式发布 V4 系列,其中。:在同等功耗(约 300 W)下,V4 Pro + 昇腾 910 的。已经可以逼近 NVIDIA A100 80 GB,而。的首 token

#华为#人工智能
DeepSeek V4 Pro + 华为昇腾910:国产大模型落地的性能实测与深度解析

(后文简称 Pro)主打“百万上下文标配 + 超大记忆”。与此同时,华为昇腾 910 成为。宣布完成 V4 全链路适配的商业 AI 加速卡。这一里程碑背后不仅是硬件的升级,更是一次。2026 年 4 月 24 日,DeepSeek 正式发布 V4 系列,其中。:在同等功耗(约 300 W)下,V4 Pro + 昇腾 910 的。已经可以逼近 NVIDIA A100 80 GB,而。的首 token

#华为#人工智能
DeepSeek V4 Pro + 华为昇腾910:国产大模型落地的性能实测与深度解析

(后文简称 Pro)主打“百万上下文标配 + 超大记忆”。与此同时,华为昇腾 910 成为。宣布完成 V4 全链路适配的商业 AI 加速卡。这一里程碑背后不仅是硬件的升级,更是一次。2026 年 4 月 24 日,DeepSeek 正式发布 V4 系列,其中。:在同等功耗(约 300 W)下,V4 Pro + 昇腾 910 的。已经可以逼近 NVIDIA A100 80 GB,而。的首 token

#华为#人工智能
AI Agent 爆发前夜:从大模型到智能体的技术演进与商业落地

让我们做一个简单的数学计算。而这仅仅是中间矩阵 S,还未计算 attention 矩阵 P = softmax(S) 和最终输出。完整计算需要三个这样的 N×N 矩阵,如果用标准实现,单层注意力就能轻松吞掉数GB显存。当层数加深、batch size 增大时,显存直接爆炸。这还不是最致命的。。

#人工智能#自然语言处理#语言模型
    共 13 条
  • 1
  • 2
  • 请选择