logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Diffusion Transformer(DiT):原理、与 U-Net 对比及在视频生成中的深度应用

本文面向 AI 研究人员与工程师,将从技术原理、架构对比、视频生成适配逻辑及工程实现四个维度展开深度解析:首先拆解 DiT 的核心设计逻辑,接着通过量化指标论证其替代 U-Net 的底层依据,再系统讲解 DiT 适配视频生成的架构改造方案,最后提供基于 PyTorch 框架的完整可复用代码示例,覆盖图像、视频生成的核心模块实现。

文章图片
#transformer#音视频#人工智能
【DriveGen 文件详解】03——inference.py

其核心功能包括DDPM迭代去噪采样、Classifier-Free Guidance增强生成质量,支持STDiT和SimpleUNet两种模型架构。项目提供完整的推理流程,从参数解析、模型加载到条件帧生成和视频输出,支持多种格式(MP4、GIF、单帧图片等)。关键技术参数包括推理步数(100-500步)、CFG缩放因子(3.0-7.0)和随机种子控制。该工具通过生成高质量驾驶场景视频,有效解决了真

#自动驾驶#人工智能#机器学习
【DriveGen 文件详解】02——train.py

本文档详细介绍了DriveGen项目的核心训练脚本train.py,这是一个基于扩散模型的驾驶场景视频生成训练系统。脚本实现了完整的条件视频扩散训练流程,支持STDiT和SimpleUNet两种模型架构,具有参数解析、噪声调度、训练循环、检查点管理等核心功能模块。

#人工智能#自动驾驶#机器学习
【DriveGen 文件详解】01——default.yaml

default.yaml配置文件详细定义了模型参数(如192维隐藏层、6层Transformer)、数据设置(支持合成数据和nuScenes数据集)、训练超参数(50个epoch、1e-4学习率)以及噪声调度(1000步线性扩散)等关键参数。该系统旨在为自动驾驶算法提供虚拟训练数据,特别针对极端天气等稀有场景的数据生成需求。

#自动驾驶#人工智能#机器学习
DriveGen: 基于扩散 Transformer 的驾驶场景视频生成器

DriveGen是一个基于STDiT(时空扩散Transformer)的驾驶场景视频生成器,旨在解决自动驾驶稀有场景数据不足的问题。该项目通过扩散模型生成高质量的虚拟驾驶场景视频,为自动驾驶算法提供极端天气、突发事故等罕见场景的训练数据。项目提供完整的训练、推理和评估流程,支持合成数据和真实数据集(如nuScenes)的适配,具有开箱即用、CPU友好等特点,为自动驾驶数据增强提供了高效解决方案。

文章图片
#人工智能#自动驾驶#机器学习
DeepSeek V4 大模型技术评估

DeepSeek V4是2026年发布的开源大语言模型,具备三大技术突破:1)混合注意力系统(CSA+HCA)将百万级上下文处理成本降低70%;2)流形约束超连接(mHC)解决万亿参数稳定性问题;3)Muon优化器提升40%训练效率。模型提供1.6万亿参数的Pro版和2840亿参数的Flash版,均支持100万token上下文,在长文本、代码等场景性能媲美顶级闭源模型。采用MIT协议完全开源,支持

文章图片
#人工智能
DeepSeek V4 大模型技术评估

DeepSeek V4是2026年发布的开源大语言模型,具备三大技术突破:1)混合注意力系统(CSA+HCA)将百万级上下文处理成本降低70%;2)流形约束超连接(mHC)解决万亿参数稳定性问题;3)Muon优化器提升40%训练效率。模型提供1.6万亿参数的Pro版和2840亿参数的Flash版,均支持100万token上下文,在长文本、代码等场景性能媲美顶级闭源模型。采用MIT协议完全开源,支持

文章图片
#人工智能
BP神经网络——结合案例代码解析

BP神经网络,全称为误差反向传播神经网络(Backpropagation Neural Network),是一种多层前馈神经网络,它通过一种称为反向传播的算法来训练网络的权重。BP神经网络模型最早由Paul J. Werbos在1974年提出,并在1986年由David E. Rumelhart, Geoffrey Hinton和Ronald J. Williams等人进一步发展,使其成为深度学习

文章图片
#神经网络#人工智能#深度学习
Harness Engineering 技术原理与应用全面解析

典型Harness系统包含四大模块:环境隔离沙箱、工具链封装、反馈自愈循环和可观测性管控。OpenAI的百万行代码实验证明,3人团队借助该范式可在5个月内完成传统30人团队的工作量,效率提升10倍。与传统软件工程相比,HarnessEngineering将人类角色从"编码者"转变为"环境设计师",通过AGENTS.md等活文档实现知识传承,并建立了"错误→规则"的自我进化机制。当前LangChai

文章图片
#人工智能
基于 VLA 的自动驾驶轨迹规划:从思路到落地的实践之路

摘要:本文介绍了一个基于VLA(矢量化车道注意力)的自动驾驶轨迹规划开源项目。该项目通过矢量形式表征车道元素,利用注意力机制捕捉车道与轨迹的空间关联,解决了传统方法丢失车道矢量信息的问题。系统包含数据预处理、VLA核心模块和轨迹生成优化三大模块,支持多数据集适配,实验显示在NuScenes和Argoverse2数据集上轨迹误差降低15%,规划耗时仅20ms。作者分享了开发中的优化经验,并规划了多智

文章图片
#自动驾驶#人工智能#机器学习
    共 21 条
  • 1
  • 2
  • 3
  • 请选择