logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Coggle数据科学 | Kaggle竞赛总结:RSNA 3D颅内动脉瘤检测

本文介绍了RSNA颅内动脉瘤检测竞赛的优胜方案。该竞赛旨在通过AI技术检测脑部影像中的动脉瘤,实现早期诊断。数据集包含多模态医学影像,标注了13个血管位置。前五名方案均采用两阶段策略:先定位血管区域,再进行分类。第一名方案通过血管分割和ROI提取,结合Transformer实现精确预测;第二名使用多任务3D nnU-Net;第三名利用2D投影和3D分类;第四名采用回归定位和2.5D分类;第五名通过

文章图片
#3d#自然语言处理#深度学习 +2
AI生成未来 | 破解长视频理解困局!MIT&英伟达最新开源StreamingVLM:统一实时流式视觉语言理解框架

《StreamingVLM:实时无限视频流理解框架》摘要 StreamingVLM创新性地提出了一种训练与推理统一的流式视觉语言模型架构。该框架通过重叠窗口全注意力监督微调(SFT),实现了有限长度训练与无限长度推理的自然对齐。关键技术包括:高效KV缓存复用机制(注意力汇聚、短窗口视觉缓存与长窗口文本缓存)和连续位置编码,在单张H100显卡上实现8FPS的稳定流式推理。研究团队构建了首个平均时长超

文章图片
#人工智能#音视频#大数据 +2
阿里云开发者 | AI Coding实践:CodeFuse + prompt 从系分到代码(下)

本章节主要描述在提示词开发与测试的过程中,总结出来的经验。部分内容可能在前面已经提到,这里做下整体总结。1.提示词调试经验:提示词调试,调2-3次效果最好,无效立刻改提示词。在使用AI生成代码时,个人使用上发现个规律:首次生成基本达不到标准,第2、3次效果最佳,再往后使用就会出现更多各种各样的骚操作,所以一般两三次的效果还是比较可观的,就可以考虑采纳了;如果效果一直不好,那就考虑改改提示词吧。2.

#人工智能#python#计算机视觉
阿里云开发者 | AI Coding实践:CodeFuse + prompt 从系分到代码(中)

本文来源公众号,仅用于学术分享,侵权删,干货满满。业务场景:后端JAVA业务代码生成。AI解决方案概述:从系分出发,解析提取其中核心内容,并生成任务列表,再让AI工具结合提示词完成任务(生成代码)。工具选择:IDEA CodeFuse插件 + CodeFuse IDE。使用效果概述:目前已经覆盖门面层代码的生成和修改、持久层代码的生成和修改、业务逻辑层的代码生成。已经正式投产到三个项目迭代中,参与

#java#人工智能#计算机视觉 +1
菜鸟学Python | 零基础 扣子(Coze)工作流实战案例:自动抓公众号文章,自动改写文案,自动上传公众号发送,大幅降低运营工作量!

本文介绍了如何利用Coze智能体的工作流实现公众号文章自动采集、AI改写与发布的全流程。通过9个低代码节点设计,系统可自动爬取公众号/知乎文章,使用大模型进行爆文改写,AI生成封面图,并直接发布到微信公众号后台。实测从输入链接到完成发布仅需1分钟,效率远超传统开发方式。文章还展示了知乎文案转公众号的完整案例,指出这种自动化矩阵运营模式已成为行业趋势,能显著降低内容创作门槛,帮助用户抢占市场先机。

文章图片
#python#开发语言#人工智能 +3
阿里云开发者 | AI Coding实践:CodeFuse + prompt 从系分到代码(上)

本文介绍了使用AI工具CodeFuse辅助JAVA后端开发的实践方法。通过分析业务场景,将代码分为门面层、持久层和业务逻辑层,分别设计提示词模板。重点解决了时序图转伪代码、业务逻辑推理引导等难点,实现了从需求分析到代码生成的自动化流程。在三个已上线项目中应用表明,该方法平均减少40%编码工作量,有效提升了开发效率和代码规范性。文章详细分享了提示词设计思路、流程图增强方法以及各层代码生成的具体实现方

文章图片
#人工智能#深度学习#阿里云 +2
马哥Linux运维 | 容器化部署实战:Docker Swarm 与 CI/CD 流水线的无缝集成

本文分享了团队通过Docker Swarm和CI/CD流水线优化微服务部署的实战经验。针对手动部署风险高、环境不一致、发布效率低等痛点,采用容器编排+自动化流水线方案,将部署时间从35分钟缩短到8分钟,失败率从15%降至0.3%。重点介绍了架构选型理由、分阶段CI/CD设计、Swarm Stack生产配置优化(滚动更新、健康检查、资源限制等)、一键部署脚本和监控告警体系。文章还展望了AIOps、G

#运维#docker#ci/cd +3
码科智能 | 无需坐标回归、不靠SAM拼接!微信视觉、南洋理工等提出大模型检测新范式,统一检测、分割、指代任务

华南理工大学等机构联合提出PaDT新范式,通过动态生成视觉参考令牌(VRT)取代传统坐标输出,实现多模态大模型(MLLM)与视觉语义的深度对齐。该方法将图像块转换为可解码Token,使模型能直接"说出"目标区域,有效解决坐标回归导致的格式混乱、语义断裂和幻觉问题。PaDT采用轻量解码器统一支持检测、分割等任务,在指代表达理解任务上达93.6%准确率,性能优于规模更大的MLLM。

文章图片
#数据挖掘#深度学习#机器学习 +4
码科智能 | 万物皆可描述!遥感图像描述进入对象级细粒度理解时代,多模态模型权重、数据和代码全开源!

DescribeEarth开源多模态模型突破遥感图像细粒度描述瓶颈,实现万物级对象解译。该模型基于VLM架构,结合RemoteCLIP特征先验与创新视觉融合机制,在包含26万实例的DE-Dataset上训练,能精准描述目标属性、关系及环境特征。相比通用大模型(如GPT-4o),其性能在事实准确性、描述丰富度方面显著提升,支持灾害评估、环保监测等应用场景。数据代码已开源,推动遥感分析从整体描述迈向细

文章图片
#人工智能#深度学习#计算机视觉 +2
码科智能 | 这个开源的端到端OCR模型厉害了!覆盖全文档类型、全场景表格、全类型公式,推理速度4-7倍提升!

上海人工智能实验室开源MinerU2.5模型,创新采用"由粗到细"两阶段解析策略,通过12亿参数实现文档解析四项任务(文本、公式、表格、阅读顺序)的性能突破。该模型先低分辨率分析全局版面,再高精度识别局部内容,有效解决传统OCR误差级联、VLM幻觉等问题。针对长公式和复杂表格,分别提出ADR框架和优化表格结构语言,显著提升解析准确率。在密集文本、多栏跨页等复杂场景下表现优异,成

文章图片
#运维#linux#python +2
    共 524 条
  • 1
  • 2
  • 3
  • 53
  • 请选择