logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

[lvgl_player] 音频文件处理 | RIFF 格式 | DMA控制 | volume_factor | lock_guard

(当前偏移 - 数据起始位置) / 每秒字节数 = 已播放秒数用==硬件抽象层==,通过==函数插拔机制适配不同设备系统初始化时注入硬件驱动函数

文章图片
#c++#算法#开发语言
[xiaozhi-esp32] 应用层(9种state) | 音频编解码层 | 双循环架构

eventloop,非阻塞轮询--问哪件事准备好了,cpu好执行

文章图片
#音视频#架构#c++
next-draw.io ai架构图

把架构图里的分层、组件、嵌套关系和组件间调用依赖,按固定JSON格式结构化提取出来,最多嵌套4层,不做深层展开。

#算法
[sam2图像分割] MemoryAttentionLayer._forward_ca | 交叉注意力

记忆注意力是SAM-2视频追踪能力中至关重要的"记忆顾问"。通过使用复杂的注意力机制智能比较当前帧的视觉信息与对象的存储"记忆特征",它确保SAM-2能够一致地识别和追踪对象,即使它们在视频中移动或改变外观。

文章图片
#人工智能#计算机视觉
[1Prompt1Story] 注意力机制增强 IPCA | 去噪神经网络 UNet | U型架构分步去噪

IPCA技术通过动态掩码和历史键值整合,实现AI生成图像时的核心要素锁定,有效解决场景切换导致的特征畸变问题。该技术包含分支处理、记忆增强和动态掩码三大机制,通过控制器参数精确调节注意力分布。作为核心生成引擎,UNet采用U型架构分步去噪,下采样路径提取整体轮廓,上采样路径补充细节,将随机噪声逐步转化为符合提示词的视觉内容。IPCA与UNet的协同工作,显著提升了跨帧一致性和特征保持能力,是AI图

文章图片
#神经网络#人工智能#深度学习
[AI OS] 重新定义人机交互未来

我们正站在操作系统演进的第三次革命浪潮上。如果说第一次是从命令行到图形界面,第二次是从PC到移动端,那么第三次就是从传统OS到AI OS——一个以大语言模型为内核、以智能代理为应用的全新计算范式。

文章图片
#人工智能#人机交互
[todo]transform|attention

Transformer之所以强大,核心在于自注意力机制(Self-Attention Mechanism) 与并行计算的突破,叠加多头注意力、残差连接+层归一化、编码器-解码器架构、可扩展性等设计,彻底解决传统序列模型痛点,成为大模型基础。# 2. 缩放点积注意力 (B,nh,L,dk) @ (B,nh,dk,L) -> (B,nh,L,L)# 3. 注意力加权+多头拼接 (B,nh,L,L) @

#人工智能
    共 225 条
  • 1
  • 2
  • 3
  • 23
  • 请选择