逸俊晨晖个人主页

@lajuchenghui

逸俊晨晖

2025-04-20 19:35:57 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

香橙派 RK3588 部署千问大模型 Qwen2-VL-2B 推理视频

视频输入为一条网络流，利用大模型对视频中的图像帧进行推理。由于大模型推理耗时长，无法对每帧都进行推理，因此采用跳帧推理的方式：当推理完一帧后，期间会跳过若干帧，然后立即推理最新的一帧。利用 rga 将 nv12 图像进行放缩和转 rgb 操作，此过程采用 letterbox 方式，主要目的是保持宽高等比放缩。将用于推理的图像（即图像编码前的图像），通过 qt 适配 qwidget 和 opengl

#音视频 #语言模型

香橙派 RK3588 部署千问大模型 Qwen2-VL-2B 多轮交互式对话

月球表面是灰色和黑色相间的，而地球表面则是绿色和黄色相间的。这张图片展示了一位宇航员坐在月球上，手里拿着一瓶绿色的啤酒。背景是地球和星空，给人一种在太空中享受饮料的感觉。香橙派 RK3588 部署千问大模型 Qwen2-VL-2B 多轮交互式对话。结合图片，说明下月球和地球表面颜色相同吗，为什么？图片中的月球表面是灰色和黑色相间的。图片中的地球是绿色和黄色相间的。图片中的星空是蓝色和白色的相间。图

#语言模型

香橙派 RK3588 部署千问大模型 Qwen2-VL-2B

模型要求输入图像尺寸为 392×392。模型加载耗时：2313.00 毫秒。图像编码耗时：3213.80 毫秒。大模型处理图片时，需要先通过。：读取 CPU 峰值性能。：读取 NPU 峰值性能。（提取码：rkllm）：纯文本大模型推理程序。

NVIDIA 4090的8路1080p实时YOLOv8目标检测

整套方案基于RTX 4090+TensorRTx优化，实现了8路1080p@30fps的YOLOv8n实时检测，核心瓶颈在模型推理环节；全程最大化利用GPU算力（解码、预处理、推理、后处理、可视化均在GPU完成），CPU占用率低，硬件资源利用效率高；关键优化点包括TensorRTx的CUDA核函数加速、NPP库的格式转换、LetterBox预处理减少精度损失。

#目标检测 #人工智能

NVIDIA 4090 使用 TensorRTx 部署 YOLOv8

在 NVIDIA 4090 上，YOLOv5s 的 TensorRTx 推理速度比原生 TensorRT 快 15-25%，FP16 精度下可达 350+ FPS（可参考该性能表现，YOLOv8 部署后性能优势一致）。TensorRTx 封装了版本适配逻辑，同一套代码可兼容 TensorRT 8.0-8.6，且提供了跨平台的 CUDA 核函数实现，无需额外修改代码即可适配不同环境。（对应 COCO

#目标检测

昇腾310P算力卡 10路1080p实时YOLOv8目标检测

测试基于Atlas 300I Duo的单310P3核心，实现了10路1080p视频的YOLOv8n实时检测，核心处理流程包含14个关键步骤，覆盖拉流、解码、推理、可视化到推流全链路。开发时需重点关注昇腾Device/Context管理及DVPP V2接口的使用规范，可参考官方Demo快速落地。

#目标检测 #人工智能 #昇腾

NVIDIA 4090的8路1080p实时YOLOv8目标检测

#目标检测 #人工智能

昇腾NPU常用命令整理

执行昇腾NPU命令时，建议统一加sudo，避免card id/chip id不一致的问题；若无sudo权限，需将用户加入HwHiAiUser组并重启。（基础信息）、（资源占用）、（CPU配置）。配置类命令（如CPU核数）执行后，需重启相关设备才能生效。

#昇腾

昇腾310P算力卡 10路1080p实时YOLOv8目标检测

#目标检测 #人工智能 #昇腾

昇腾算力卡310p编解码推理性能记录

处理流程：拉流 → 解码 → letterBox（等比放缩居中） → 逐帧推理 → 后处理 → NV21转RGB → 图像下载至主机 → 画框写字 → 图像上传至算力卡 → RGB转NV21 → 编码 → 推流。处理流程：拉流 → 解码 → letterBox（等比放缩居中） → 逐帧推理 → 后处理 → NV21转RGB →。测试规格：单310P3核心（Atlas 300I Duo 内置双310

#昇腾 #音视频 #目标检测

共 31 条

请选择