logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

2025了,学习深度学习框架哪个比较好?

本节内容回顾了AI框架在时间维度和技术维度的发展趋势技术上初代AI框架解决AI编程问题,第二代加速科研和产业落地,第三代结合特定领域语言和任务一起学习了AI框架随着的软硬件的发展升级而共同发展,展望AI框架的未来。

#学习#深度学习#人工智能
聚焦结构化注意力,探索提升多模态大模型文档问答性能

实践研究揭示了输入格式对 MLLMs 文档理解能力的关键影响,提出了一种简单而高效的结构化输入方法。未来可进一步探索更先进的结构提取技术或设计注意力控制插件,以进一步释放 MLLMs 在文档理解中的潜力。该研究提供了一种无需重训模型即可提升性能的实用方案,适用于智能文档处理、自动问答等场景。在没有额外训练和架构修改的前提下,通过简单的结构化文本输入,可以提升现有多模态大模型在文档理解任务中的表现。

#人工智能#python#机器学习
聚焦结构化注意力,探索提升多模态大模型文档问答性能

实践研究揭示了输入格式对 MLLMs 文档理解能力的关键影响,提出了一种简单而高效的结构化输入方法。未来可进一步探索更先进的结构提取技术或设计注意力控制插件,以进一步释放 MLLMs 在文档理解中的潜力。该研究提供了一种无需重训模型即可提升性能的实用方案,适用于智能文档处理、自动问答等场景。在没有额外训练和架构修改的前提下,通过简单的结构化文本输入,可以提升现有多模态大模型在文档理解任务中的表现。

#人工智能#python#机器学习
使用yolo算法对视频进行实时目标跟踪和分割

支持选择本地图片或视频文件。使用YOLOv11模型进行目标检测、跟踪和实例分割。实时显示处理结果,包括边界框、类别标签、置信度和分割掩码。支持保存处理后的图片或视频。界面使用PyQt5设计,非常简洁,只有四个按钮:选择图片、选择视频、处理和保存结果。运行后,你会看到一个白底窗口,顶部是标题,中间是按钮区,下方是结果展示区域(固定大小800x500),底部有作者信息。这个工具展示了YOLO在实时目标

#算法#音视频
使用yolo算法对视频进行实时目标跟踪和分割

支持选择本地图片或视频文件。使用YOLOv11模型进行目标检测、跟踪和实例分割。实时显示处理结果,包括边界框、类别标签、置信度和分割掩码。支持保存处理后的图片或视频。界面使用PyQt5设计,非常简洁,只有四个按钮:选择图片、选择视频、处理和保存结果。运行后,你会看到一个白底窗口,顶部是标题,中间是按钮区,下方是结果展示区域(固定大小800x500),底部有作者信息。这个工具展示了YOLO在实时目标

#算法#音视频
到底了