weixin_45504565 个人主页

@weixin_45504565

weixin_45504565

2022-11-28 17:11:13 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

AI Agent核心架构解析：从原理到主流框架对比

AI Agent是一种能够感知环境、做出决策并执行行动的智能系统。与传统LLM的"问答"模式不同，Agent更像一个"数字员工"——用户给出高层目标，它自主分解任务、调用工具、修正错误，最终完成任务闭环。规划（Planning）：将复杂任务拆解为可执行的子步骤记忆（Memory）：存储历史上下文与中间结果工具使用（Tool Use）：调用外部API、数据库或代码解释器执行（Action）：基于LL

#人工智能

CUDA矩阵乘法优化：数据局部性与硬件执行模型的深度解析

当我们编写一个矩阵乘法kernel时，同样的算法在不同GPU架构上可能产生数倍的性能差异，其根本原因在于数据局部性（Data Locality）的利用程度以及执行单元的调度效率。本文从CUDA硬件抽象出发，深入剖析矩阵乘法优化的本质——如何在有限的寄存器与shared memory带宽约束下，最大化数据复用并消除内存访问瓶颈。在矩阵乘法中，每个输出元素需要读取A的一行和B的一列，总计M+N次内存访

#矩阵 #人工智能 #深度学习 +1

CUDA并行计算原理与矩阵乘法底层优化：从SIMD到Warp调度机制

GPU优化的本质是建立清晰的硬件意识模型：理解Warp调度、内存层次、共享内存特性、指令吞吐。在编写CUDA代码时，始终思考数据局部性、并行度、合并访问这三维优化空间。矩阵乘法作为BLAS的核心操作，其优化策略体现了GPU计算的精髓：利用数据复用减少带宽需求，通过层次化存储平衡延迟与容量，以大规模并行度掩盖指令级延迟。真正的性能优化需要持续的profiling、假设、验证循环。CUDA提供了丰富的

#矩阵 #线性代数

大模型Tokenizer原理：深入理解BPE与WordPiece子词编码技术

考虑单词"unsupervised"，BPE可能优先合并出现频率最高的字符对，而WordPiece会考虑合并后对整体句子概率的影响。具体来说，对于候选合并对(A, B)，计算合并前的联合概率贡献与合并后的联合概率贡献之差，选择使整体似然提升最大的对。具体而言，对于输入单词，从右到左（或从左到右）遍历所有可能的分词位置，计算每种分词方案的概率，选择概率最高的方案。与BPE基于频率的贪心合并不同，Wo

#人工智能 #深度学习 #机器学习

视觉感知的新纪元：Meta SAM 系列从图像分割到视频追踪再到开放词汇分割的技术演进

2023年，Meta 发布的 SAM1（facebookresearch/segment-anything，54K⭐）彻底改变了计算机视觉领域的游戏规则。和。图像编码器采用预训练的 ViT（Vision Transformer）作为 backbone，将输入图像转换为高维特征图。SAM1 提供了 ViT-H、ViT-L、ViT-B 三种规格的模型，其中 ViT-H 在 SA-1B 数据集（包含 1

#音视频

DeepSeek V4 Pro + 华为昇腾910：国产大模型落地的性能实测与深度解析

（后文简称 Pro）主打“百万上下文标配 + 超大记忆”。与此同时，华为昇腾 910 成为。宣布完成 V4 全链路适配的商业 AI 加速卡。这一里程碑背后不仅是硬件的升级，更是一次。2026 年 4 月 24 日，DeepSeek 正式发布 V4 系列，其中。：在同等功耗（约 300 W）下，V4 Pro + 昇腾 910 的。已经可以逼近 NVIDIA A100 80 GB，而。的首 token

#华为 #人工智能

DeepSeek V4 Pro + 华为昇腾910：国产大模型落地的性能实测与深度解析

#华为 #人工智能

DeepSeek V4 Pro + 华为昇腾910：国产大模型落地的性能实测与深度解析

#华为 #人工智能

DeepSeek V4 Pro + 华为昇腾910：国产大模型落地的性能实测与深度解析

#华为 #人工智能

AI Agent 爆发前夜：从大模型到智能体的技术演进与商业落地

让我们做一个简单的数学计算。而这仅仅是中间矩阵 S，还未计算 attention 矩阵 P = softmax(S) 和最终输出。完整计算需要三个这样的 N×N 矩阵，如果用标准实现，单层注意力就能轻松吞掉数GB显存。当层数加深、batch size 增大时，显存直接爆炸。这还不是最致命的。。

#人工智能 #自然语言处理 #语言模型

共 13 条

请选择