OpenAI Codex - GitHub Copilot 背后的模型

OpenAI 发布了研究论文, “评估在代码上训练的大型语言模型” 它为 Codex 提供支持,这是一种比第 3 代 Generative Pre-trained Transformer (GPT-3) 语言模型高度改进的 Autoregressive 语言模型。 Codex 比 GPT-3 有很大改进,因为它的模型是在一个数据集上训练的,其中包含来自 GitHub 的更集中的公共源代码。 Cod

开源小助理

128人浏览 · 2022-08-11 08:54:39

开源小助理 · 2022-08-11 08:54:39 发布

OpenAI 发布了研究论文,

“评估在代码上训练的大型语言模型”

它为 Codex 提供支持,这是一种比第 3 代 Generative Pre-trained Transformer (GPT-3) 语言模型高度改进的 Autoregressive 语言模型。

Codex 比 GPT-3 有很大改进,因为它的模型是在一个数据集上训练的,其中包含来自 GitHub 的更集中的公共源代码。

Codex 已根据 GitHub 的公开可用代码进行了微调,并研究了其 Python 代码编写能力。

来自研究论文的 HumanEval 问题解决数据集的评估工具也可在 OpenAI Github 存储库上获得。

论文称“Codex 的独特生产版本为 GitHub Copilot 提供支持”

这解释了 Codex 的继任者用于训练来自 GitHub 存储库的代码数据集,用于 GitHub Copilot 项目。

[](https://res.cloudinary.com/practicaldev/image/fetch/s--8srXzB8r--/c_limit%2Cf_auto%2Cfl_progressive%2Cq_auto%2Cw_880/https://dev-to-uploads .s3.amazonaws.com/uploads/articles/1doiga28dxjnwyd32o7v.png)

该论文声称它已经解决了 10,000 个竞争性编程问题以及来自与持续集成相关的开源项目的问题。

论文的结论是,

“我们发现我们的模型在难度级别可与简单面试问题相媲美的人工编写问题数据集上显示出强大的性能”

关于数据收集,论文说,

“我们的训练数据集于 2020 年 5 月从 GitHub 上托管的 5400 万个公共软件存储库中收集,其中包含 179 GB 的唯一 Python 文件,小于 1 MB。我们过滤掉了可能自动生成的文件,平均行长大于100,最大行长大于 1000,或包含一小部分字母数字字符。过滤后,我们的最终数据集总计 159 GB"

通过提高编码员的生产力以及竞争性编程世界的变化,未来将在编程相关工作中观察到 CODEX 将产生的经济影响。

哪里可能会增加编码问题的难度级别,或者可能竞争性编程将独自留给人工智能,人类必须专注于解决问题,而不是仅仅编写可重复的代码。

查看以下资源,

论文链接:https://arxiv.org/abs/2107.03374

OpenAI Github 存储库:https://github.com/openai/human-eval

个人博客@danyson.github.io

向您推荐>>ModelScope魔搭中文开源社区

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！

更多推荐

一个开源应用程序导致 XSS 到 RCE 漏洞缺陷

跨站点脚本 (XSS) 是 Web 应用程序中最常遇到的攻击之一。如果攻击者可以将 JavaScript 代码注入到应用程序输出中,这不仅会导致 cookie 盗窃、重定向或网络钓鱼,而且在某些情况下还会导致系统完全受损。在本文中,我将通过 Evolution CMS、FUDForum 和 GitBucket 的示例展示如何通过 XSS 实现远程代码执行。进化CMS v3.1.8 链接:git

开源

我在校园 DevRel 展上的主要收获乔恩·戈特弗里德 E1

嘿嘿👋,欢迎来到校园DevRel 秀的这个博客系列,重点是来自神奇嘉宾DevRels 的经验教训。在我们开始之前!让我们花点时间了解一下 DevRel 到底是什么。顾名思义,开发者关系(或 DevRel)专注于维护与负责开发组织技术或产品的人员的关系。根据公司及其目标,该领域的角色可以采取各种形式和任务。组织和开发人员之间的沟通通常是 DevRel 的责任,以确保更好的信息流和反馈循环。这是对

开源

克服心理障碍,为开源做贡献

为开源做贡献是一项艰巨的任务。我已经当了 3 年的软件工程师,并且已经构建了近十年的软件,但我从来没有能够为开源项目做出贡献。它总是显得如此大胆和令人困惑。我以前开过 PR,接受过几十个比我优秀的开发者的批评,从不流汗。但开源似乎总是我无法企及的。为什么重要? 🤔 我 90% 的代码都是闭源的。很多公司都希望看到我的代码和我从事的项目,但除了部署的应用程序和我 3 年前做的一些全栈项目之