logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

YOLO模型核心优化策略:7大技巧让实时目标检测又快又准

YOLO模型的优化没有“万能公式”,关键是根据场景需求找到“速度-精度-资源”的平衡点:实时场景(如自动驾驶):优先用TensorRT加速、INT8量化、320×320分辨率;低功耗设备(如Jetson Nano):选YOLOv11n、模型剪枝或MobileNetV3 backbone;高精度需求(如医疗影像):用640×640分辨率、知识蒸馏,适当牺牲速度。随着YOLO版本的持续迭代和优化技术的

文章图片
#目标检测#目标跟踪#计算机视觉 +3
一文搞懂多模态视觉-语言模型:Qwen2.5-VL

《多模态视觉-语言模型的认知优势与技术演进》摘要当前多模态视觉-语言模型(如Qwen2.5-VL)相比纯文本模型展现出更强的理解能力,其核心优势在于跨模态语义对齐。这类模型通过视觉编码器(ViT)和文本编码器(Transformer)提取特征,并通过交叉注意力机制实现图文融合。技术发展经历了四个阶段:从早期的图文分类(CLIP)、图文翻译(LLaVA),到当前的视觉原生处理(支持任意分辨率输入),

文章图片
#语言模型#人工智能#自然语言处理
2025年,大模型LLM还有哪些可研究的方向?

2025年标志着大语言模型(LLM)技术进入“2.0时代”,研究重点从模型规模转向效能突破与应用场景重构,致力于构建持续进化的智能生态体系。多模态大模型和智能体技术成为行业焦点。TrustRAG框架通过K-means聚类和余弦相似度提升检索增强生成系统的鲁棒性与可信度,有效过滤恶意文档。R1-VL框架通过强化学习优化多模态大模型的推理能力,引入逐步推理奖励机制提升性能。TDAG框架通过动态任务分解

文章图片
#人工智能#深度学习#语言模型
一文搞懂大模型的预训练、微调和蒸馏

三者并非替代关系,而是互补 —— 预训练提供 “土壤”,微调播下 “种子”,蒸馏让 “果实” 可触及。理解它们的差异与协同,是掌握大模型技术的关键一步。

文章图片
#人工智能#机器学习#深度学习
深度学习论文创新点一定是没人做过的?分享谷歌大佬8个快速“水”论文的方法!

《寻找论文创新点的实用方法》摘要:本文总结了学术研究中寻找创新点的常见策略,特别适合初级研究者。谷歌专家提出"拼接法"创新模式:1)旧方法+新数据集;2)微调模型结构;3)新应用领域拓展;4)新评估方法引入。在大模型时代新增"算力增强"和"模型迁移"两种路径。以Vision Transformers在人脸识别中的应用为例,说明组合创新同样能产出高质量成果。文章强调创新关键在于:有效组合现有要素+讲

文章图片
#深度学习#人工智能#机器学习
一文搞懂RAG构建知识库和知识图谱

向量化通过Embedding模型将非结构化数据(文本、图像等)映射为高维语义向量,存储则依托专用向量数据库(如ElasticSearch的dense_vector字段、Milvus)构建高效索引(HNSW、FAISS),支持近似最近邻搜索(ANN)实现大规模向量数据的快速相似性匹配。通过多路召回(如混合检索、HyDE改写、动态重排)提升查全率与排序质量,并利用上下文增强(知识图谱补充关系、指令级R

文章图片
#知识图谱#人工智能#深度学习
PINN与KAN终于结合起来了!发SCI一区Top超简单的!

KAN(Kolmogorov-Arnold网络)与PINN(物理信息神经网络)的结合在物理规律与领域知识融合、高可解释性与可靠性以及工业应用潜力方面展现出显著优势。未来研究方向包括架构优化、硬件适配与加速以及跨领域应用拓展。近期代表性成果包括MeshKINN、KAN-ODEs、HPKM-PINN和PIKANs,这些成果在自监督网格生成、动态系统建模、混合并行架构和自适应训练框架等方面取得了创新突破

文章图片
#人工智能#机器学习#深度学习
什么是AI Agent?AI Agent综述,看这一篇就够了!

AI Agent(人工智能代理)是具备环境感知、自主决策与行动能力的智能实体。区别于传统 AI 系统的被动响应模式,它能够主动规划并执行复杂任务链。若将大语言模型(LLM)比作 “超级大脑”,AI Agent 则是为其配备了 “感知器官”“行动肢体” 与 “工具库”,使其从单纯的信息处理升级为具备目标驱动的主动执行者。

文章图片
#人工智能#语言模型
速看!10 篇 SAM + 多模态 2025 新论文,代码全有!

前阵子,字节和北大联合搞出大事情啦!他们提出了市面上首个把 SAM2 和 LLaVA 结合的多模态大模型,在视频编辑、内容创作这些任务里直接拿下 SOTA 性能,简直杀疯了💥实不相瞒,这方向的研究热度一直呈爆发式增长。去年在 CVPR、ICML、NeurIPS 等顶会上,相关论文占比快到三分之一了。今年的 CVPR 2025,SAM + 多模态更是火得一塌糊涂,像那个实现视觉与任务统一的 SAG

文章图片
#人工智能#语言模型#自然语言处理
MCP 调用成本高到离谱?新机制让 token 成本降低 98%!

研究团队提出MCP-Zero框架,解决大语言模型工具调用痛点。传统方法需加载全部工具导致高token消耗和错误回复,而MCP-Zero通过主动工具请求、分层向量路由和迭代式调用,实现了按需工具检索和多轮闭环调用。实验表明,该系统在保持精度的同时降低98%的token开销,并构建了包含308个服务器、2797个工具的标准化数据集。该框架赋予大模型主动决策能力,支持跨领域工具组合和错误恢复,重新定义了

文章图片
#人工智能#语言模型
    共 49 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择