亚马逊自研Nova大模型：将在2025年具备万能生成“Any to Any”能力

随着人工智能技术的不断发展和进步，生成式AI模型已成为推动创新和变革的重要力量，而且生成式AI越来越成为技术圈的“宠爱”，引来越来越多的关注度。从刚开始的文生文，再到后面的文生图、文生视频，以及后面的图生视频等等，而在众多技术革新中，亚马逊的Nova大模型以其独特的多模态生成能力和强大的“Any to Any”生成潜力，引领着AI技术的新浪潮。就在2024年的re:Invent大会上，亚马逊宣布推

三掌柜666

2120人浏览 · 2024-12-20 15:03:42

三掌柜666 · 2024-12-20 15:03:42 发布

前言

随着人工智能技术的不断发展和进步，生成式AI模型已成为推动创新和变革的重要力量，而且生成式AI越来越成为技术圈的“宠爱”，引来越来越多的关注度。从刚开始的文生文，再到后面的文生图、文生视频，以及后面的图生视频等等，而在众多技术革新中，亚马逊的Nova大模型以其独特的多模态生成能力和强大的“Any to Any”生成潜力，引领着AI技术的新浪潮。就在2024年的re:Invent大会上，亚马逊宣布推出Nova大模型，标志着其在AI领域的又一重大突破，也标志着生成式AI领域有了更加丰富的应用场景。那么本文就来深入探讨Nova大模型的技术特点、应用场景以及对未来技术趋势的影响，给大家提供一个全面的视角来看。

关于Nova大模型

先来了解一下Nova大模型，Nova系列模型是亚马逊自研的多模态生成式AI模型，旨在通过先进的深度学习技术，实现从文本、图像到视频等多种数据类型的生成和转换，文本生成 Nova 模型针对 15 种语言（主要是英语）进行了优化，其大小和功能差异很大。Nova模型分为四个型号：Micro、Lite、Pro和Premier，每个型号都针对不同的应用场景和需求设计，能力逐级递升。也就是在2024年12月4日的re:Invent 大会上，亚马逊宣布推出名为Nova的新型多模态生成式AI模型，该模型分为四个型号：Micro、Lite、Pro 和 Premier，能力分别递升。其中，Micro、Lite 和 Pro 已经向 AWS 客户推出，而 Premier 将于2025 年初推出。

1、Micro型号

Micro型号作为Nova系列的基础型号，提供了基本的文本到文本的生成能力，适用于需要快速原型开发和简单内容生成的场景，这一型号的推出，让开发者能够以较低的成本和门槛，快速实现文本内容的自动化生成。需要说明的是Micro 只能接收文本并输出文本，但其延迟是所有产品中最低的，处理文本和生成响应的速度最快，Micro 具有 128000 个token上下文窗口，这意味着它可以处理最多约 100,000 个单词。

2、Lite型号

Lite型号在Micro的基础上增加了图像处理能力，支持文本到图像的生成，适用于需要图像内容创作的应用，这一型号的推出，将进一步拓展AI在创意设计和数字艺术领域的应用。Lite 可以相当快地处理图像、视频和文本输入，它具有 300,000 个token上下文窗口，相当于约 225,000 个单词、15,000 行计算机代码或 30 分钟的视频素材。

3、Pro型号

Pro型号进一步扩展了Nova模型的能力，支持视频内容的生成和编辑，为视频制作和娱乐产业提供了强大的技术支持，Pro型号的推出，预示着AI在视频内容创作和处理方面的巨大潜力。Pro 为一系列任务提供了准确度、速度和成本的平衡组合，可以分析文本、图像和视频，它也具有 300,000 个token上下文窗口，相当于约 225,000 个单词、15,000 行计算机代码或 30 分钟的视频素材。另外，Pro 和 Premier 与 Lite 一样，可以分析文本、图像和视频。这三款产品都非常适合处理文档摘要、总结图表、会议和图表等任务。

4、Premier型号

Premier型号是Nova系列的旗舰产品，预计将在2025年初推出，它将集成最先进的AI技术，实现“Any to Any”的万能生成能力，即任何类型的输入都能生成任何类型的输出。这一型号的推出，将标志着AI技术在多模态生成领域的重大突破。Premier是最强大的，专为复杂的工作负载而设计，而且AWS 将 Premier 定位为用于创建经过调整的自定义模型的“教师”模型，而不是单独使用的模型。

Nova Canvas和Nova Reel

除了上面介绍的Nova系列模型，亚马逊还推出了图像生成模型Nova Canvas和视频生成模型Nova Reel，也就是文生图和视频模型，这两款模型的发布进一步丰富了AWS客户的选择，使他们能够更便捷地创建和编辑图像及视频内容。

据悉，Canvas和Reel是AWS在生成媒体领域迄今为止最强的多模态模型。其中，Canvas允许用户使用提示生成和编辑图像（比如删除背景），并提供对生成图像的配色方案和布局的控制；而Reel是两种模型中更厉害的一种，它可以根据提示或可选的参考图像创建长达 6 秒的视频，使用 Reel，用户可以调整摄像机运动以生成具有平移、360 度旋转和缩放的视频。需要注意的是，Reel 目前仅限于制作六秒的视频（生成时间大约需要三分钟），但据 AWS 称，可以制作两分钟视频的版本“即将推出”。Andy Jassy强调，Canvas 和 Reel 都“内置”了负责任的使用控制措施，包括水印和内容审核。“（我们正在努力）限制有害内容的产生，”他说。

技术进展与应用前景

在2024年的re:Invent大会上，亚马逊首席执行官Andy Jassy表示：“我们一直在研究我们自己的前沿模型，这些前沿模型在过去四五个月里取得了巨大进展。我们认为，如果我们能从中发现价值，你也可能会从中发现价值。” 这表明亚马逊对Nova模型的技术进展充满信心，并期待其在各行业中的应用前景。

而且Andy Jassy声称：“Nova模型在同类产品中速度最快，并且运行成本最低，它们可以在亚马逊AWS Bedrock上使用，可以在该平台上对文本、图像和视频进行微调，并进行提炼以提高速度和效率。”， “我们已经优化了这些模型，使其能够与专有系统和 API 配合使用，这样你就可以更轻松地使用这些模型执行多个精心策划的自动步骤（代理行为）。” Andy Jassy补充道。 “所以我认为这些非常引人注目。”

个人觉得Nova大模型的推出，不仅将推动AI技术的发展，还将为各行各业带来革命性的变化。从内容创作到自动化设计，从教育到娱乐，Nova大模型的应用前景广阔。

Nova 模型未来计划

上面介绍了在2024年的re:Invent大会上关于Nova模型的最新成果，想必大家都好奇下一步会怎样，那么Nova 的下一步计划是什么？

Andy Jassy表示，AWS 正在开发一种语音到语音的生成模型（一种将语音输入并输出转换版本的模型），预计于 2025 年第一季度推出，并开发一种“Any to Any”的万能生成模型，预计于 2025 年中期推出。而亚马逊表示，语音转语音模型还将能够解读语音和非语音提示，比如语调和节奏，并提供自然的“类似人类”的声音。关于任意模型，理论上它将为从翻译器到内容编辑器再到人工智能助手等应用程序提供支持。

“你将能够输入文本、语音、图像或视频，并输出文本、语音、图像或视频，”Andy Jassy在谈到“Any to Any”模型时说道。“这就是前沿模型的构建和使用方式的未来。”

结束语

通过本文的详细介绍亚马逊推出的Nova大模型，不仅展示了其在AI领域的技术实力和对现有AI技术的一次重大升级，也为未来的AI应用开辟了新的可能性，更是对未来智能世界的一次前瞻预见。随着Nova模型的不断迭代和完善，我们将迎来一个全新的AI时代，其中“Any to Any”的生成能力将成为现实，极大地扩展我们的想象和创造空间，这不仅是技术的飞跃，为开发者和企业带来更多创新的解决方案，更是对人类生活方式和工作模式的一次深刻变革。个人觉得亚马逊的这一举措，无疑将推动AI技术的进一步发展，并在多个领域产生深远影响。最后让我们期待Nova大模型在未来能够带来更多的创新应用，推动社会向前发展，并为全球用户创造更多价值。让我们共同见证这一历史性时刻，拥抱AI带来的无限可能！