
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
所提出的 NWD 度量方法可轻松嵌入到任何基于锚点的检测器的分配、非极大值抑制和损失函数中,以替代常用的 IoU 度量。在用于微小目标检测的新数据集(AI-TOD)上的评估表明,采用 NWD 度量方法后,性能比标准微调基线高出 6.7 个 AP 点,比最先进的竞争对手高出 6.0 个 AP 点。

Qwen2.5-Omni是阿里巴巴开发的多模态AI模型,支持文本、图像、音频和视频的实时处理与生成。其核心是Thinker-Talker框架:Thinker负责推理和文本生成,Talker专攻语音合成。创新点包括TMRoPE机制实现跨模态时间同步,以及流式优化设计降低延迟。模型训练分三阶段:编码器对齐、跨模态整合和长序列支持。该模型采用ChatML对话格式,适用于智能助手等实时交互场景,在架构设计

数据增强是机器学习或深度学习中的一种技术,通过应用各种变换(如翻转、旋转、改变亮度/对比度等)从现有数据创建新数据。它通常用于计算机视觉任务,但也适用于自然语言处理和语音识别等领域。

从文本等非结构化数据中提取结构化信息并非新鲜事物,但大语言模型(LLMs)为该领域带来了重大变革。以往需要机器学习专家团队策划数据集并训练自定义模型,如今只需访问LLM即可实现,显著降低了技术门槛,让曾仅限领域专家使用的技术对非技术人员也更加友好。

摘要: YOLO-NAS Pose是Deci AI基于神经架构搜索(NAS)技术开发的新一代姿态估计模型,通过AutoNAC引擎优化架构,在精度与效率上超越YOLOv8 Pose。该模型提供四种尺寸变体,适配不同硬件需求,支持图像、视频等多源数据输入。实验显示其在直立人形检测中表现优异,但在水平姿态场景下略逊于YOLOv8。此外,文章还探讨了基于YOLOv8 Pose的瑜伽姿势分类实践,包括数据集

最新研究发现,主流AI视觉语言模型(如GPT-4o)在医学影像诊断中存在重大缺陷。测试显示,这些模型往往依赖先验解剖学知识而非实际图像内容,导致在判断器官位置时准确率接近随机水平(50%)。当图像被旋转或翻转时,模型仍会给出标准解剖位置的错误答案。研究发现,使用视觉标记(如字母、数字或色点)并移除解剖术语后,模型准确率可提升至75%-85%。这表明当前AI系统可能无法正确处理非常规病例(如内脏反位

Graph RAG:知识图谱增强的智能搜索新范式 摘要:Graph RAG(检索增强生成)通过整合知识图谱和大型语言模型(LLM),为传统搜索技术带来革命性突破。相比基于向量检索的原始RAG方法,Graph RAG利用结构化知识图谱中的节点(实体)和边(关系),显著提升了搜索的上下文理解能力、推理深度和领域适应性。本文系统阐述了Graph RAG的技术原理,包括知识图谱构建、图嵌入表示、LLM集成

牛津大学研究发现,主流开源AI聊天模型存在隐藏偏见:根据用户语言中隐含的种族、性别等信息,在医疗、法律、薪资等关键领域给出差异化回答。研究测试了Meta的Llama3和阿里巴巴的Qwen3模型,发现: 非白人用户更常被建议就医,但薪资建议更低 非二元性别者获得法律建议概率更低 模型会从语言风格推断用户身份并调整回答 研究警告这种隐蔽偏见可能影响AI在医疗诊断、法律咨询等领域的应用公正性,呼吁开发新

数据增强是机器学习或深度学习中的一种技术,通过应用各种变换(如翻转、旋转、改变亮度/对比度等)从现有数据创建新数据。它通常用于计算机视觉任务,但也适用于自然语言处理和语音识别等领域。
