code_pgf 个人主页

@m0_60827485

code_pgf

2022-09-16 17:35:55 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

ViT 与 MAE 在图像特征提取方面的优势详解

ViT（Vision Transformer）是一种基于Transformer架构的视觉骨干网络，通过将图像切分为Patch序列并利用自注意力机制建模局部与全局关系。MAE（Masked Autoencoder）是一种自监督预训练方法，通过随机遮挡大量图像Patch并重建缺失内容，提升特征质量。ViT擅长全局关系建模，同时提供全局和局部特征，适用于多任务扩展和高分辨率微调，但存在小数据训练不稳定、

#人工智能

Jetson Orin NX 16G部署openclaw及本地化安全配置及建议

我建议先走，不要先上 Docker。官方把作为推荐运行时，明确说；Linux 上最直接的路径就是，它会把 Gateway 装成 systemd user service。

#安全 #人工智能

BERT 与 GPT-3 模型结构及语言理解/生成能力对比

BERT与GPT-3的核心差异在于模型架构与任务定位。BERT采用双向Transformer编码器，通过掩码语言建模学习文本理解能力，适合分类、匹配和信息抽取任务；GPT-3使用自回归解码器，通过预测下一个token实现文本生成，擅长对话、写作等生成式任务。二者在参数量（BERT-Large 3.4亿 vs GPT-3 1750亿）、注意力机制（双向 vs 因果）和训练目标（掩码预测 vs 自回归

#bert #gpt-3 #人工智能

相机-雷达标定:ChArUco / ArUco + 四圆孔刚性板

摘要本文对比分析了多款LiDAR-Camera外参标定开源项目，重点推荐基于ArUco+四圆孔刚性板的FAST-Calib方案。该方案采用四ArUco标记和四圆孔设计，支持机械式和固态LiDAR，通过自动提取特征点实现高效标定。其ROS2移植版本FAST-Calib-ROS2可直接应用于机器人项目。文章详细介绍了算法流程、支持能力及适用场景，为传感器融合提供了可靠的外参标定解决方案。

#机器人 #人工智能

多传感器融合感知中的视锥体创建

在机器人 SLAM / costmap / OpenVDB / 3D 避障中，传感器视锥模型的作用是描述：它通常用于：1. 视锥模型在系统中的位置简单说：机器人系统里至少有 3 个关键坐标系：常见变换：如果一个点在传感器坐标系中为：转换到 map 坐标系：反过来，如果要判断地图中的某个 voxel 是否在传感器视野内：3. 相机 / 深度相机视锥模型对于 RGB-D 相机、双目相机、深度相机，最常

#机器人

AudioLDM 框架原理

AudioLDM是一种基于潜在扩散模型的文本到音频生成系统，其核心思想是将Stable Diffusion的图像生成框架迁移到音频领域。该系统通过CLAP文本编码器将文本提示映射到音频语义空间，在压缩的潜在空间中进行扩散建模，最后通过VAE解码器和声码器生成波形音频。相比直接在波形上操作，AudioLDM采用梅尔频谱作为中间表示，显著降低了计算复杂度。训练时利用音频嵌入作为条件，推理时则替换为文本

#人工智能

Stable-Diffusion模型中常见 Stable Diffusion Sampling 方法

摘要：Stable Diffusion中的采样方法（sampler/scheduler）决定了图像生成的质量和效率。常见采样器包括DDPM（经典但慢）、DDIM（稳定可复现）、DPM++系列（高质量快速）、Euler（速度快）和LCM/SDXL Turbo（极速生成）。推荐DPM++ 2M Karras作为通用高质量选择，Euler a用于多样化数据增强，LCM/SDXL Turbo适合快速预览。

#人工智能

多模态模型中图像生成器使用的扩散模型的组件

摘要多模态图像生成器通常采用条件扩散模型系统，核心架构包括文本/图像编码器、VAE压缩模块、去噪网络和条件控制组件。主流方案如Stable Diffusion使用Latent Diffusion Model（LDM），在隐空间进行高效扩散。关键模块包含：1）VAE编解码器实现图像与隐空间双向转换；2）文本编码器（如CLIP/T5）将提示词转化为语义嵌入；3）去噪网络（U-Net或DiT）通过时间

#人工智能 #深度学习

多模态模型(MLLM)中文本生成器的过程和原理

多模态模型中的文本生成器通常是一个LLM解码器，负责将视觉、音频等多模态输入转换为自然语言输出。其核心流程包括：1) 各模态编码器将输入转换为特征向量；2) 跨模态对齐模块将特征映射到LLM词向量空间；3) LLM解码器基于多模态上下文自回归生成文本。关键原理包括：视觉/音频等模态被转换为类似"软文本token"的向量；通过投影层或Q-Former实现跨模态对齐；采用自回归方式逐token生成文本

#人工智能 #深度学习

模态生成器：原理详解与推荐开源项目

模态生成器：跨模态转换与生成的核心技术模态生成器是一种能够实现不同模态间转换、补全或生成的技术模块，广泛应用于文本、图像、语音、视频等多模态交互场景。其核心结构通常由模态编码器、跨模态对齐层、统一推理模型和目标模态解码器组成，通过多任务损失函数优化生成质量。目前主流技术路线分为三类：编码器+专用解码器（如Stable Diffusion的文本到图像生成）统一token化处理（如Unifie

#人工智能 #深度学习 #开源

共 115 条

请选择