logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

从 CUDA Kernel 到 TensorRT Plugin:一条 AI Infra 工程师的最小可复现路径

摘要:本文针对希望从PyTorch调参进阶到编写CUDA算子和部署模型的工程师,提供了一条基于RTX4090D显卡的完整实践路径。文章首先构建CUDA编程的核心心智模型,强调GPU作为吞吐优化设备的特性,并通过向量加法示例展示CUDA程序的完整生命周期。随后对比Triton、PyTorch扩展和纯NVCC三种工程化路径的适用场景,推荐Triton作为大多数场景的起点。核心部分以Swin-Tiny模

文章图片
你以为你在训练大模型,其实你在烧钱打水漂——分布式训练的四个致命陷阱

H100 一张卡的售价能买一辆轿车,一个千卡集群的电费一天就够普通人吃几年。可即便砸下这么多钱,绝大多数团队真正用上的算力,可能还不到硬件理论巅峰的30%。程序还在跑,损失还在降,监控里 GPU 利用率显示 100%——所有指标都告诉你一切正常,但你其实是在原地烧钱。这篇博客把分布式训练里最常见、也最隐蔽的四个坑摊开来讲清楚。每一个我都会用两层语言来解释:先是工程师视角的硬核原理,再用一个生活化的

#分布式
自动驾驶数据闭环中,Video Clip 的多模态特征到底怎么提取?

自动驾驶数据闭环中的Clip特征提取,本质是构建多模态数据的索引系统。一个Clip并非单一视频,而是包含摄像头、LiDAR、GPS等多元信息的综合数据包。特征提取流程需先对齐时间窗口,再分别提取语义、运动、环境等特征。关键环节包括:关键帧抽取、天气识别、轨迹编码、点云分析等。工程落地需注意时间同步、模型选型和版本管理,最终形成结构化标签+向量索引的数据资产。这种处理方式将海量路测数据转化为可检索、

文章图片
#自动驾驶#人工智能#机器学习
撕开 CPython 的底裤:从巨大的 Switch/Case 到协程调度,一文彻底搞懂 Python 运行机制

本文深入剖析了CPython虚拟机的运行机制,揭示了Python作为解释型语言的本质。通过分析CPython源码中的_PyEval_EvalFrameDefault函数,展示了Python字节码是如何通过一个巨大的switch-case结构调用预编译的C函数实现的。文章指出Python运行缓慢的两大主因:字节码分发开销和动态类型检查成本。随后对比了进程、线程和协程三种并发模型的底层原理及适用场景:

文章图片
#python
C++、Java、Go、Python 到底有什么区别?从运行机制到工程场景一次讲清楚

本文对比分析了C++、Java、Go和Python四种编程语言的核心特性。从运行机制看,C++和Go编译为机器码,Java和Python通过虚拟机/解释器执行;类型系统方面,C++、Java、Go为静态类型,Python为动态类型;内存管理上,C++手动控制,其他三者为自动管理;并发模型差异显著,C++最灵活但复杂,Go的goroutine最具特色。性能方面,C++最优,Java长期运行表现佳,G

文章图片
#c++#java#golang
论微服务架构在自动驾驶标注平台中的设计与应用

2024年3月,我参与了某新能源车企“自动驾驶数据标注平台V3.0”的重构与研发工作,在项目中担任系统架构师,负责总体架构设计、服务拆分、核心组件选型和关键链路治理。该平台面向自动驾驶感知算法训练,主要处理摄像头图像、激光雷达点云、多传感器融合帧、轨迹片段和场景标签等数据,支撑数据导入、任务分发、人工标注、模型预标注、质检审核、数据集发布和训练回流等业务。旧平台采用单体架构,存在模块耦合高、任务调

文章图片
#架构#微服务
论多源数据集成技术在半导体良率分析平台中的应用

本文针对半导体制造中的数据孤岛问题,设计了混合多源数据集成架构:采用DataX中间件实现MES等异构业务数据低侵入同步,通过自定义类型映射与流控保障数据质量;构建以IoTDB时序数据库为核心、Flink+Spark为引擎的流批一体数仓,解决高频传感器数据的高吞吐写入与海量历史存储矛盾;引入Presto联邦查询引擎,通过广播Join、计算下推与资源隔离实现跨源秒级关联。平台纳管PB级生产数据,将良率

文章图片
论服务网格(Service Mesh)的应用

【摘要】本文以某造车新势力"分布式自动驾驶数据闭环平台"架构重构项目为例,阐述了服务网格技术的应用实践。针对原SpringCloud架构在多语言治理、框架升级和安全管控方面的痛点,项目团队引入Istio服务网格实现治理逻辑与业务解耦。通过Sidecar代理模式构建了非侵入式流量治理、全链路可观测性和mTLS零信任安全三大核心能力,并采用三阶段平滑迁移策略确保系统稳定性。实施过程

文章图片
#service_mesh#分布式#自动驾驶
强化学习入门精通指南:从理论到代码实

本文系统介绍强化学习基础到应用的各层面内容,涵盖智能体、环境等核心概念,分析强化学习难点及与监督学习差异,详述马尔可夫决策过程、动态规划求解方法、无模型学习算法,展示深度强化学习及代码实战案例,探讨非马尔可夫环境处理技巧与面试常见问题,展现强化学习在多领域应用前景,助力读者全面掌握该技术。

文章图片
字节跳动开源PaSa:用强化学习重塑论文检索!2分钟搞定一周的调研工作量

字节跳动与北大联合推出PaSa智能体,革新学术论文检索方式。该智能体通过强化学习训练,能自主搜索、阅读和追踪引文网络,解决了传统搜索引擎关键词匹配不足和通用LLM幻觉问题。PaSa采用双Agent架构(Crawler和Selector)和创新的Session-Level PPO算法,在3.5万条训练数据上取得突破:相比Google Scholar召回率提升39.9%,7B参数模型性能超越GPT-4

文章图片
    共 154 条
  • 1
  • 2
  • 3
  • 16
  • 请选择