
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要: 本文探讨了基于VLM(视觉语言模型)的智能监控方案相较于传统视觉算法的优势与局限。VLM通过多模态理解能力,可实现开放类别识别、语义场景分析、自然语言交互等复杂任务,显著提升了监控系统的智能化水平。然而,VLM存在实时性差(推理延迟1000–5000ms)、算力需求高(需GPU支持)等挑战。为此,建议采用“VLM+传统算法”混合架构,结合边缘计算与任务调度Agent,平衡性能与智能。典型应
摘要: 在RK3588平台上对5种语音识别模型进行测试评估,结果显示zipformer_rknn综合表现最优。该模型文件仅121.8MB,平均识别耗时1.2秒/条,词/字错误率最低(10.93%/4.12%),且支持中英文自动切换。相比其他模型(如whisper系列),zipformer_rknn在精度、速度、体积和多语言支持方面均具优势,特别适合边缘计算场景部署。测试基于2620条LibriSp
本文对多模态检索模型在RK3588硬件平台上的性能进行了全面测试,使用COCO和MSVD数据集评估了包括SigLIP2、nllb-clip等7种主流模型。测试结果显示,ViT-SO400M-16-SigLIP2-384__webli表现最优,在图像到文本任务中R@10达0.927,文本到图像任务中R@10达0.815。nllb-clip系列在长尾数据检索中更具优势。人工验证表明模型在Immich环
OpenClaw是一个创意不错的项目,展现了AI助理的潜力,确实能够完成一部分工作。但当前版本更适合作为**实验性工具**或**辅助工具**使用,而非生产环境的主力工具。
本报告记录了 OpenClaw 平台在全志科技(Allwinner Technology)基于 ARM 架构的芯片平台上的完整部署和功能测试过程。测试硬件为 Radxa Cubie A7A 开发板,搭载全志 sun60iw2 芯片,运行 Debian GNU/Linux 11 (bullseye) 系统。
摘要: 在RK3588平台上对5种语音识别模型进行测试评估,结果显示zipformer_rknn综合表现最优。该模型文件仅121.8MB,平均识别耗时1.2秒/条,词/字错误率最低(10.93%/4.12%),且支持中英文自动切换。相比其他模型(如whisper系列),zipformer_rknn在精度、速度、体积和多语言支持方面均具优势,特别适合边缘计算场景部署。测试基于2620条LibriSp
摘要 本文系统调研了大语言模型(LLMs)的算法测试方案,涵盖英文和中文通用模型的评测框架。评测聚焦四大维度:能力评测、对话质量、安全真实性和速度吞吐。英文评测采用MMLU(多学科知识理解)、MMLU-Pro(高难度推理)、BIG-bench(综合认知能力)和TruthfulQA(真实性测试)等基准;中文评测则使用C-Eval(对标MMLU的中文综合测试)。这些测试通过标准化的few-shot设定
OpenClaw是一个创意不错的项目,展现了AI助理的潜力,确实能够完成一部分工作。但当前版本更适合作为**实验性工具**或**辅助工具**使用,而非生产环境的主力工具。
各大AI厂商模型功能分类概览:阿里云Qwen系列涵盖通用文本、多模态、代码、安全审核、超长上下文等10种模型;万Wan2.2系列专注于视频生成,支持文本/图像/音频输入;智谱GLM系列包含通用、边缘部署、图像生成、视频生成等8种模型;字节跳动模型涉及视频生成/编辑、文档理解、推荐系统等多样化功能。各厂商通过细分场景布局,形成差异化产品矩阵,覆盖文本、图像、视频、语音等多模态AI应用需求。
HUSKYLENS 2 AI视觉传感器评估摘要 这款集成20余种AI模型的智能传感器在教育场景表现尚可,但存在明显局限性。评估发现二维码、条形码和车牌识别功能效果较差,识别成功率低且受环境光线影响大。200万像素固定焦距摄像头导致文字和小目标识别模糊,巡线算法依赖高对比度背景。部分功能如物体分类、实例分割和MCP服务在实测中无法使用或未开放。人脸和物体识别等基础功能虽能工作,但存在识别不稳定、追踪







