logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

细数AI程序员 Devin、SWE-agent、通义灵码、Devika...,“码农”要失业了吗?

3月12日,美国AI初创公司Cognition AI在X平台发布一条视频,宣布了首位完全自主的AI程序员 Devin 的诞生。第一位接近人类的 AI 程序员,究竟强在哪里?不同于我们在前两年看到的 GitHub Copilot 等 AI 编程助手,Devin 并非单纯辅助的角色,而是能够完全独立、端到端地完成整个开发项目,包括从编写代码、修复 Bug 到最终执行的完整编程生命周期。Devin 不仅

文章图片
#人工智能
最新开源:边缘设备优化的多模态模型Omnivision!通义灵码团队开源Lingma SWE-GPT!DeepSeek开源统一多模态框架JanusFlow!

图:Table 1 展示了 Lingma SWE-GPT(7B 和 72B)与各种最先进模型在 SWE-bench Verified 和 SWE-bench Lite 上的综合表现。基于 Qwen 系列基础模型,Lingma SWE-GPT 通过软件工程开发过程数据的额外训练,增强了其解决复杂软件工程任务的能力。基准结果表明,JanusFlow 在 MMBench、SeedBench 和 GQA

文章图片
最新开源:阿里开源QwQ-32B-Preview推理大模型!月之暗面Kimi开源大模型推理架构 Mooncake!阿里开源图像生成模型Qwen2VL-Flux!

是由 Moonshot AI 提出的长文高效推理架构,它采用了 KVCache 为中心的分离架构,将预填充和解码集群分开,并利用 GPU 集群中未充分利用的 CPU、DRAM 和 SSD 资源实现分离的 KVCache。在全面考察数学解题能力的 MATH-500 评测中,QwQ 斩获 90.6% 的高分,一举超越OpenAI o1-preview 和 o1-mini,体现了在各类数学主题上的全面理

文章图片
常用的卷积神经网络【完整版】

文章目录1. CNN1.1 基本结构1.2 CNN 网络1.2.0 卷积和通道1.2.0.1 分组卷积(Group Convolution)1.2.0.2 Convolution VS Group Convolution1.2.0.3 Group Convolution的用途1.2.0.4 Depthwise Convolution && Pointwise Convolution

#计算机视觉#神经网络
权威!IDC《中国大模型市场主流产品评估,2024》报告发布

6月12日,国际数据公司 IDC 发布《中国大模型市场主流产品评估,2024》,从基础能力到应用能力 7 大维度对 11 家大模型厂商的 16 款市场主流产品进行实测。结果显示,百度位于第一梯队,是唯一一家在7大维度上均为优势厂商的企业。图注:IDC 题目类型IDC 采取实测的方式,成立产品测试团队,通过多个维度对基础大模型及相关产品进行评测,并邀请外部专家团队深入分析各个产品答案准确性、合理性等

文章图片
#人工智能
Jupyter Notebook插入图片、文件导出pdf,html

Jupyter Notebook插入图片Markdown下插入本地或者网络图片插入格式是:![图片标签](图片源src)#插入本地图片![pic_dog](./img/1.jpg)插入网络图片:图片源设置为图像地址,具体可查看网页代码,如下找到图像地址为src=assets/main-logo.svg#插入网络图片![jupyter](http://jupyter.org/a...

大模型时代的计算机视觉!CVPR 2024 最火的研究主题是什么?

作为计算机视觉领域的顶级会议,CVPR 每年都会吸引大量研究机构和高校参会。4月5日,CVPR官方发文称,今年共提交了 11532 份有效论文,2719 篇论文被接收,录用率为23.6%。与去年相比,共有 9155 篇论文提交,2359 篇论文接收,录用率降低2.2%。CVPR、ICCV、ECCV被誉为计算机视觉和模式识别领域最顶级的学术会议。与另两个顶会不同,CVPR每年举办一次。CVPR 20

文章图片
#计算机视觉#人工智能
全球最强端侧多模态模型!国产「面壁小钢炮」MiniCPM-Llama3-V 2.5 来了!

得益于 VisCPM 的跨语言泛化技术,在中英双语多模态能力的基础上,MiniCPM-Llama3-V 2.5 仅通过少量翻译的多模态数据的指令微调,高效泛化支持了德语、法语、西班牙语、意大利语、俄语等 30+ 种语言的多模态能力,几乎覆盖了所有一带一路的国家,意味着全球上百个国家的数十亿人口,都能与 MiniCPM-Llama3-V 2.5 丝滑交互。OCR 技术进一步打磨,复杂推理与多模态识别

文章图片
#人工智能
RNN的梯度消失和梯度爆炸

文章目录RNN 梯度消失&梯度爆炸1. 深层网络角度解释梯度消失和梯度爆炸2. 激活函数角度解释梯度消失和梯度爆炸3. RNN中的梯度消失和CNN的梯度消失有区别4. 梯度消失、爆炸的解决方案4.1 梯度爆炸的解决方案4.2 梯度消失的解决方案4.2.1 选择relu、leakrelu、elu等激活函数4.2.2使用Batchnorm(batch normalization,简称BN):4

#神经网络#深度学习#人工智能 +1
一份全面的大模型「幻觉」综述

,来自腾讯AI实验室和一些国内大学的研究团队,综述提出了LLM幻觉现象的分类法和评估基准,分析旨在减轻LLM幻觉的现有方法,并确定未来研究的潜在方向。将重点放在解决与数据相关的幻觉、与训练相关的幻觉和与推理相关的幻觉的方法上,每种方法都提供了量身定制的解决方案,以应对各自原因所固有的特定挑战。)从LLM幻觉的创新分类方法出发,深入探究了可能导致幻觉的因素,并对检测幻觉的方法和基准进行了概述。目前在

文章图片
    共 34 条
  • 1
  • 2
  • 3
  • 4
  • 请选择