logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【读点论文】Oriented Tiny Object Detection: A Dataset, Benchmark, and Dynamic Unbiased Learning

本文针对**有向微小目标检测**这一复杂且研究不足的问题,系统提出了**AI-TOD-R 数据集**(现有有向目标检测数据集中目标尺寸最小,平均仅 10.6 像素)、涵盖全监督和标签高效范式的**基准**,并发现现有方法存在 “置信目标更置信、微小目标被边缘化” 的**学习偏差**;为此设计**动态粗到精学习(DCFL)方案**,通过动态更新先验位置、平衡样本数量与质量实现无偏学习,该方法在 8

文章图片
#人工智能
【读点论文】A survey on deep learning for 2D and 3D human pose estimation

人体姿势估计是计算机视觉和机器人技术中的一项基本任务,涉及从图像或视频中检测人体关节。它成为一个快速发展的领域,应用范围从动作识别到医疗保健。本次调查详细回顾了基于图像和视频场景中单人和多人环境中 2D 和 3D 人体姿势估计的各种方法。我们对可用的 2D 和 3D 姿势数据集进行了全面的分类和比较,重点介绍了它们的优点和局限性。此外,我们还概述了常用于评估姿态估计模型的准确性和鲁棒性的各种评估指

文章图片
#目标检测#视觉检测
agent应用开发-一个实例的认识与构建

需要在 LangGraph 的状态中增加一个字段,记录当前正在分析的图片或页面区域。current_image_path: str # 当前正在分析的论文截图vision_results: dict # 存储 CV 工具返回的坐标或 OCR 结果analysis_report: str # 最终生成的解读这是项目的灵魂。所有节点必须知道现在进行到了哪一步。# 基础信息messages: list

#知识图谱
智能体的资源构建、开发、运用基础

一个框架的本质,是提供一套经过验证的“规范”。它将所有智能体共有的、重复性的工作(如主循环、状态管理、工具调用、日志记录等)进行抽象和封装,让我们在构建新的智能体时,能够专注于其独特的业务逻辑,而非通用的底层实现。低代码平台是代码开发的互补选择,实际项目中可采用 "混合开发" 模式 —— 用低代码快速验证想法,用代码实现精细化控制;用平台处理标准化流程,用代码处理特殊逻辑**。智能体开发平台的资源

【读点论文】Rethinking Few-shot CIL: Learning from Yourself使用深层语义蒸馏中间层语义信息,特征校正模块提升增量学习稳定性,gAcc动态平衡新旧类权重

本文聚焦少样本类别增量学习(FSCIL),指出传统评估指标(如 aAcc、lAcc)因受基类性能主导而难以有效反映新类性能。为此,提出generalized average accuracy(gAcc) 作为补充指标,通过参数 α 平衡基类与新类的评估权重,并以 α 的曲线下面积(AUC)作为综合指标。同时,基于视觉 Transformer(ViT)中间层特征更具泛化性的发现,设计Feature

文章图片
#深度学习
【读点论文】TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document专用OCR大模型,优化token采样策略

通过同时参与多个面向文本的任务,TextMonkey增强了其对空间关系的感知和理解,从而提高了可解释性并支持点击屏幕截图。通过将我们的模型与各种lmm进行比较,我们的模型在多个基准上取得了优异的结果。值得一提的是,我们还发现直接提高输入分辨率并不总能带来改善,尤其是对于小得多的图像。这强调了创建一种有效的方法来缩放尺寸变化剧烈的文档中的分辨率的必要性。采用零初始化的移位窗口注意力来帮助建立关系,同

文章图片
#深度学习#语言模型
Model Control Protocol 使用MCP进行各种任务适配,调用工具和资源进行客户端开发

MCP 协议为大模型赋能提供了标准化的解决方案,可以创建各种工具扩展大模型能力;提供结构化资源供大模型访问;构建客户端实现大模型与工具的协同。MCP 通过其核心组件实现了标准化 LLM 上下文提供、保持数据安全性以及创建开放且可扩展的生态系统的核心价值主张。其设计原则强调安全性、可用性和灵活性的平衡。随着 MCP 的发展,这些核心组件可能会扩展和演变,但数据访问、操作能力和交互模式的结合这一基本范

#MCP
Agent设计模式与工程化

输入 (Input Schema)file_path(string, required): PDF 的绝对路径。(bool, default=True): 是否开启光学字符识别(针对扫描件)。(bool, default=True): 是否进行复杂的表格恢复。输出 (Output)content: 经过清理的 Markdown 文本,包含图片占位符。metadata: 包含页数、标题提取、表格坐标

#设计模式#知识图谱
智能体工作流开发体验

效率提升:对高频复用的资源(如角色图片、背景模板)进行本地缓存,减少 API 调用次数质量优化:针对不同书籍类型(小说 / 科普 / 历史)微调提示词模板,增强风格适配性容错处理:在工作流中添加节点重试机制(如音频生成失败时重试 3 次),提升稳定性引入多语言支持:扩展语音合成插件至多语言音色,适配外文书籍增强交互性:通过 Coze 的 “用户输入节点” 在视频生成过程中插入用户提问环节自动化发布

#工作流
【读点论文】Fourier Contour Embedding for Arbitrary-Shaped Text Detection通过预测傅里叶自由度,系数来拟合任意形状轮廓线

FCENet的一大亮点就是在任意不规则形状的文本场景上表现优异,这得益于它采用了可变形卷积 和傅里叶变换技术。 除此之外,FCENet还具有后处理简单和高。核心在于利用傅里叶变换将复杂的曲线简化为少量的频率成分(即傅里叶系数),然后在需要时再通过逆傅里叶变换恢复出原始曲线。这种方法可以有效地压缩信息并且便于模型训练。同时,为了确保最终输出的是有意义的几何形状,还需要进行一系列的几何变换和筛选操作,

文章图片
    共 109 条
  • 1
  • 2
  • 3
  • 11
  • 请选择