OpenStack柏林峰会，这些关于HPC、GPU、AI的演讲不容错过

11月，OpenStack峰会将在柏林召开，其中200多个由用例组成的会议涵盖：人工智能和机器学习、高性能计算、边缘计算、网络功能虚拟化、容器基础设施以及公有/私有和多云...

开源云中文社区

9272人浏览 · 2018-10-31 07:30:00

开源云中文社区 · 2018-10-31 07:30:00 发布

11月，OpenStack峰会将在柏林召开，其中200多个由用例组成的会议涵盖：人工智能和机器学习、高性能计算、边缘计算、网络功能虚拟化、容器基础设施以及公有/私有和多云战略。

在这里，重点介绍一些关于HPC、GPU和AI的会议。

The AI Thunderdome：Using OpenStack to accelerate AI training with Sahara，Spark and Swift

Red Hat的Sean Pryor说，OpenStack非常适合大数据问题。他将谈论如何使用Swift和Ceph，数据存储比以往更容易。大数据领域中最重要的问题之一是使用AI来理解不断增加的数据量。OpenStack使这成为一个可解决的问题：存储在Swift中的数据可以由Sahara集群访问，该集群可以使用GPU实例来加速并行AI参数调优。这种能力允许用户只需一小部分手动工作就可以完成大型AI的训练——这不就是云的全部内容吗？

NASA Goddard Private Cloud: Genesis and lessons learned

2016年秋季，美国宇航局戈达德的NASA气候模拟中心（NCCS）和信息技术与通信局（ITCD）开始合作，使用从NCCS的传统HPC集群Discover回收的硬件为整个Goddard社区提供内部私有云。

2018年10月，GPC正在按计划生产就绪（运行Queens），但是在Mitaka的原型环境中有超过30个项目（并且还在增加！）。

来自美国宇航局的Mike Moore将描述所遇到的挑战以及在此过程中设计的创新解决方案，包括：遥测/计费、数据保护/灾难恢复、安全性、“云化”工作负载、容器以及指导HPC用户转向云计算。

Monitoring-as-a-Service in HPC Cloud

当应用程序迁移到云时，第一步是在软件定义的基础设施上重新创建相同的平台。这并不符合云的真正潜力。一旦云用户意识到可用的强大API和服务，OpenStack基础设施就可以提供更多功能。

在本次演讲中，StackHPC Ltd.的Stig Telfer和Verne Global的Darryl Weaver将介绍如何将HPC云迁移提升到新的水平。他们将展示Monasca服务的集成，以便监控和记录以性能为中心的部署。他们将展示如何为所有用户解锁最佳性能遥测，以及如何为用户和管理员提供理解和优化其应用的新机会。

Cyborg：Accelerate your cloud

随着数据中心工作负载逐渐变得越来越计算密集型，对加速器的需求也越来越大。有各种各样的加速器，包括GPU、FPGA、ASIC和工作负载特定的加速器，如TPU。OpenStack中的Cyborg项目旨在简化这些不同加速器类型的采用和生命周期管理。

英特尔的Sundar Nadathur称，Cyborg和Nova开发者已经建立了一个架构，可以卸载到各种加速器。该架构包括FPGA，它对编程和比特流管理有独特的需求。这个演讲将介绍一般的卸载到器件的用例、FPGA的编程模型以及Placement中器件（包括FPGA）的表示。Nadathur将密切关注需要加速器的实例的调度。他将详细介绍os-acc的架构——这是用于Nova与Cyborg交互的库。最后将介绍Cyborg开发的现状。