
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
基于RK3588的YOLO多线程推理多级硬件加速引擎框架设计(项目总览和加速效果)

编译支持RKmpp和RGA的ffmpeg源码

本文介绍了在RK3588开发板上基于DRMPrime和RGA硬件加速的视频处理优化方案。通过FFmpeg的RKmpp插件实现硬件解码,输出为DRMPrime格式的DMA缓冲区,避免了CPU参与的数据拷贝。作者详细阐述了如何修改解码器设置以支持DRMPrime输出,并展示了如何将解码后的NV12格式数据直接送入RGA进行硬件加速的色彩空间转换。文章还探讨了处理H264编码中stride对齐问题的解决

本文介绍了基于OpenVINO的本地AI模型部署方案,包含前端交互界面和后端服务器实现。前端采用HTML/CSS/JavaScript构建聊天界面,支持状态检测和消息交互;后端使用Flask框架提供REST API,通过OpenVINO GenAI实现模型推理优化。系统在CPU上运行DeepSeek-R1-8B量化模型,内存占用约10GB,推理耗时40秒左右。文章详细展示了前后端代码实现,包括模型

本文探讨了在无独立显卡环境下部署大语言模型的三种方案:Ollama(简单易用但定制性差)、vLLM(GPU优化但CPU兼容性差)和OpenVINO(针对Intel CPU优化)。作者基于i7-13700H/32G内存环境,选择OpenVINO方案部署Qwen3-8B模型,详细介绍了使用Optimum-Intel工具进行INT4量化的转换过程(包括命令行和Python接口两种方式),以及转换前后的目

本文探讨了在无独立显卡环境下部署大语言模型的三种方案:Ollama(简单易用但定制性差)、vLLM(GPU优化但CPU兼容性差)和OpenVINO(针对Intel CPU优化)。作者基于i7-13700H/32G内存环境,选择OpenVINO方案部署Qwen3-8B模型,详细介绍了使用Optimum-Intel工具进行INT4量化的转换过程(包括命令行和Python接口两种方式),以及转换前后的目

GPU延迟隐藏技术通过多线程调度实现高性能计算。当部分线程束因内存访问或计算指令等待时,调度器立即切换执行其他就绪线程束,保持计算资源持续满载。该技术依赖两个关键条件:足够的并行线程束数量(通过合理配置线程块和网格实现)和均衡的负载分配(避免分支分化)。其本质是利用大量线程束快速切换,用计算时间填补等待时间,从而隐藏单一线程束的延迟,这是CUDA架构实现高效计算的核心机制。

github配置SSH公钥后无法连接

移远通信SC200L芯片Linux平台摄像头应用开发

移远通信SC200L(紫光展锐sl8541e)芯片进入烧录模式








