
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
CUDA 编程核心摘要(150字): CUDA采用线程(Thread)→块(Block)→网格(Grid)的三层结构,通过__global__定义GPU内核。内存优化需区分寄存器/共享/全局内存,建议使用共享内存减少全局访问。统一内存(cudaMallocManaged)简化管理但性能略低。错误检查需cudaGetLastError()。关键优化技术包括:流(Stream)异步计算实现H2D拷贝与
**文章摘要:RAG系统架构包含查询处理、检索、重排、生成四个关键环节,重点涉及查询改写、多模态chunk策略、跨模态检索和Prompt设计。向量检索技术中IVF适合大规模索引平衡速度与精度,HNSW适用于低延迟高召回场景,评估指标包括recall@K、延迟和吞吐量。多模态RAG需统一embedding空间,采用图文/音视频融合chunk,并配合多模态LLM生成答案,核心挑战在于跨模态对齐与检索效
**文章摘要:RAG系统架构包含查询处理、检索、重排、生成四个关键环节,重点涉及查询改写、多模态chunk策略、跨模态检索和Prompt设计。向量检索技术中IVF适合大规模索引平衡速度与精度,HNSW适用于低延迟高召回场景,评估指标包括recall@K、延迟和吞吐量。多模态RAG需统一embedding空间,采用图文/音视频融合chunk,并配合多模态LLM生成答案,核心挑战在于跨模态对齐与检索效
摘要 本文探讨了大模型服务在生产环境中的稳定性保障与故障排查问题。主要内容包括:显存碎片化导致OOM的解决方案、僵尸进程处理、分层健康检查策略、KV Cache管理优化、GPU温度监控、共享GPU资源隔离、K8s调度问题排查、日志采样记录、共享内存配置、CUDA错误定位、客户端断开处理、降级预案设计、启动探针配置以及PyTorch版本兼容性问题。这些实践经验对于保障大模型服务的稳定运行具有重要参考
摘要 本文探讨了大模型服务在生产环境中的稳定性保障与故障排查问题。主要内容包括:显存碎片化导致OOM的解决方案、僵尸进程处理、分层健康检查策略、KV Cache管理优化、GPU温度监控、共享GPU资源隔离、K8s调度问题排查、日志采样记录、共享内存配置、CUDA错误定位、客户端断开处理、降级预案设计、启动探针配置以及PyTorch版本兼容性问题。这些实践经验对于保障大模型服务的稳定运行具有重要参考
本文聚焦RAG(检索增强生成)系统在业务落地中的性能优化问题。针对千万级数据检索延迟高的问题,提出按业务分片的优化策略;针对Embedding模型耗时,建议采用动态批处理和ONNX加速;针对短Query改写、Chunking平衡、Rerank耗时等典型问题,给出实用优化方案。同时讨论了向量数据库部署选择、并发优化、长文档处理等实战经验,涵盖从检索到生成的全链路性能瓶颈与解决方案,为大规模RAG系统
本文聚焦RAG(检索增强生成)系统在业务落地中的性能优化问题。针对千万级数据检索延迟高的问题,提出按业务分片的优化策略;针对Embedding模型耗时,建议采用动态批处理和ONNX加速;针对短Query改写、Chunking平衡、Rerank耗时等典型问题,给出实用优化方案。同时讨论了向量数据库部署选择、并发优化、长文档处理等实战经验,涵盖从检索到生成的全链路性能瓶颈与解决方案,为大规模RAG系统
本文总结了国产昇腾NPU在大模型训练和推理中的常见问题及解决方案。重点包括:MindIE推理服务显存预占机制需手动限制比例;Llama3模型需强制转换RoPE计算精度避免溢出;MindSpore迁移需注意静态图语法限制;HCCL通信故障需集群级处理;推理需采用分桶策略优化动态Shape性能;量化推荐W8A16方案;训练启动慢可通过图缓存加速;PyTorch高级算子需手动优化;Decode阶段需采用
本文总结了国产昇腾NPU在大模型训练和推理中的常见问题及解决方案。重点包括:MindIE推理服务显存预占机制需手动限制比例;Llama3模型需强制转换RoPE计算精度避免溢出;MindSpore迁移需注意静态图语法限制;HCCL通信故障需集群级处理;推理需采用分桶策略优化动态Shape性能;量化推荐W8A16方案;训练启动慢可通过图缓存加速;PyTorch高级算子需手动优化;Decode阶段需采用
本文总结了国产昇腾NPU在大模型训练和推理中的常见问题及解决方案。重点包括:MindIE推理服务显存预占机制需手动限制比例;Llama3模型需强制转换RoPE计算精度避免溢出;MindSpore迁移需注意静态图语法限制;HCCL通信故障需集群级处理;推理需采用分桶策略优化动态Shape性能;量化推荐W8A16方案;训练启动慢可通过图缓存加速;PyTorch高级算子需手动优化;Decode阶段需采用







