快乐小码农个人主页

@u012744245

快乐小码农

2022-06-24 21:18:56 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大佬 Ilya Sutskever 的神级论文清单，学完掌握当前AI 90%的知识！

在计算机视觉方面，Ilya 推荐了 2012 年 ImageNet 图像识别大赛中图灵奖得主 Geoffrey Hinton 组的论文《ImageNet Classification with Deep Convolutional Neural Networks》，这篇论文提出了 AlexNet，引入了全新的深层结构和 dropout 方法，颠覆了图像识别领域，甚至被认为开启了深度学习革命。Tra

#人工智能

卷积神经网络的可视化

2014 ECCV 纽约大学 Matthew D. Zeiler,Rob Fergus论文：Visualizing and Understanding Convolutional Networks（卷积神经网络的可视化理解）论文下载：https://arxiv.org/pdf/1311.2901.pdf论文翻译：https://blog.csdn.net/kklots/article/detail

#神经网络 #深度学习

智谱AI开源代码生成大模型 CodeGeeX4-ALL-9B

智谱AI 旗下的代码生成大模型 CodeGeeX 正式发布第四代开源版本：CodeGeeX4-ALL-9B，其是集代码补全和生成、代码问答、代码解释器、工具调用、联网搜索、项目级代码问答等能力于一体的代码大模型，是目前百亿（10B）参数以下性能最强、最全能的代码大模型。模型的核心功能 Demo 和使用教程已经在 GitHub 上开源，模型权重可在 HuggingFace、ModelScope、Wi

#人工智能

细数AI程序员 Devin、SWE-agent、通义灵码、Devika...，“码农”要失业了吗？

3月12日，美国AI初创公司Cognition AI在X平台发布一条视频，宣布了首位完全自主的AI程序员 Devin 的诞生。第一位接近人类的 AI 程序员，究竟强在哪里？不同于我们在前两年看到的 GitHub Copilot 等 AI 编程助手，Devin 并非单纯辅助的角色，而是能够完全独立、端到端地完成整个开发项目，包括从编写代码、修复 Bug 到最终执行的完整编程生命周期。Devin 不仅

#人工智能

图：Table 1 展示了 Lingma SWE-GPT（7B 和 72B）与各种最先进模型在 SWE-bench Verified 和 SWE-bench Lite 上的综合表现。基于 Qwen 系列基础模型，Lingma SWE-GPT 通过软件工程开发过程数据的额外训练，增强了其解决复杂软件工程任务的能力。基准结果表明，JanusFlow 在 MMBench、SeedBench 和 GQA

是由 Moonshot AI 提出的长文高效推理架构，它采用了 KVCache 为中心的分离架构，将预填充和解码集群分开，并利用 GPU 集群中未充分利用的 CPU、DRAM 和 SSD 资源实现分离的 KVCache。在全面考察数学解题能力的 MATH-500 评测中，QwQ 斩获 90.6% 的高分，一举超越OpenAI o1-preview 和 o1-mini，体现了在各类数学主题上的全面理

清华ChatGLM2-6B开源！第二代性能大幅提升，推理提速42%，最高支持32K上下文

推理性能提升了42%：基于 Multi-Query Attention 技术，ChatGLM2-6B有更高效的推理速度和更低的显存占用：在官方的模型实现下，推理速度相比初代提升了 42%，INT4 量化下，6G 显存支持的对话长度由 1K 提升到了 8K。在主要评估LLM模型中文能力的 C-Eval 榜单中，截至6月25日 ChatGLM2 模型以 71.1 的分数位居榜首，超越GPT-4，而最新

#开源

最强开源大模型Llama 3发布！最大版本是4000亿参数规模！性能直逼GPT-4！

当地时间4月18日，Meta 官宣发布其最新开源大模型 Llama 3。目前，Llama 3 已经开放了 80亿和 700亿两个小参数版本，上下文窗口为8K。未来还有4000亿参数版本，支持多模态、超长上下文、多国语言！

目前支持长上下文的开源大模型已经有支持65K的 MPT-7B-storyteller 和32K的ChatGLM2-6B，闭源大模型比如 Claude-100K and GPT-4-32K，但LMSYS Org的研究人员还是选择通过测试来印证它们是「李鬼」还是「李逵」。6月29日，来自LMSYS Org的研究人员发布了两个支持16k token上下文长度的开源大模型LongChat-7B和LongC

#人工智能 #语言模型 #自然语言处理

共 27 条

请选择