新機能 – 100 Gbps ネットワークとローカル NVMe ストレージを装備した EC2 P3dn GPU インスタンスにより、より高速な機械学習が可能に、さらに P3 料金の値下げ
新機能 – 100 Gbps ネットワークとローカル NVMe ストレージを装備した EC2 P3dn GPU インスタンスにより、より高速な機械学習が可能に、さらに P3 料金の値下げ:
昨年後半に、Amazon EC2 P3 インスタンスについてお伝えしましたが、その際 Tensor Core のコンセプトにも触れました。これは、大規模なディープニューラルネットワークのための機械学習のトレーニングと推論にかかる時間を短縮する、計算に特化したユニットです。弊社のお客様はこの P3 インスタンスにご満足のようで、さまざまな機械学習や HPC ワークロードの実行に、これらのインスタンスを使用されているようです。例を挙げると、fast.ai は、100 万個の画像を使った ResNet-50 深層学習モデルをわずか 40 USD でトレーニングしますが、深層学習の最速スピード記録を達成しました。
限界への挑戦
今日、p3dn.24xlarge インスタンスを追加して、P3 を最上位の製品へと拡張し、その結果、GPU メモリは 2 倍に、vCPU は p3.16xlarge インスタンスと同じ 1.5 倍に増強しました。このインスタンスは、100 Gbps のネットワーク帯域幅 (以前の P3 インスタンスの最大 4 倍の帯域幅)、ローカル NVMe ストレージ、32 GB の GPU メモリを装備した最新の NVIDIA V100 Tensor Core GPU、高速化した GPU 間の通信を行う NVIDIA NVLink、そして全コア Turbo をサポートし 3.1 GHz で動作する AWS 独自の Intel® Xeon® Scalable (Skylake) プロセッサを搭載しています。これらはすべて AWS Nitro System 上に構築しています。仕様は以下のとおりです : 4
MXNet、TensorFlow、PyTorch、または Keras を使用して大規模なトレーニングを行っている場合は、Horovod 分散トレーニングフレームワークを必ず確認してください。このフレームワークは Amazon Deep Learning AMI の中に含まれています。新しい NVIDIA AI Software コンテナもチェックしてみてください (これは AWS Marketplace にあります)。これらは、V100 GPU を搭載してあり、P3 インスタンスでの使用に最適化したコンテナです。
p3dn.24xlarge は、合計で 256GB の GPU メモリ (現在の P3 インスタンスでの最大サイズの 2 倍) を装備しており、より深くて複雑な深層学習アルゴリズムを探索することができます。インテル AVX-512 の手順や Skylake のその他の最先端の機能を活用しながら、トレーニング画像をこれまで以上に速く更新し、拡張することも可能です。GPU コードは、NVLink および NVLink Collective Communications Library (NCCL) を使用して、複数の GPU および/またはインスタンス全体をスケールアウトすることができます。NCCL を使用すれば、プレイスメントグループ内で使用された場合でも、インスタンス間で利用可能な 100 Gbps のネットワーク帯域幅を十分に活用できます。
これらのインスタンスは、分散型機械学習のトレーニングや画像分類に最適なだけでなく、HPC ジョブを強力にサポートしますます。3D 画像をレンダリングしたり、動画をリアルタイムでコード変換したり、財務リスクをモデル化したりすることができます。
ENA、NVMe、および NVIDIA ドライバが含まれていれば、既存の AMI を使用できます。100 Gbps ネットワークを実現するには、最新の ENA ドライバにアップグレードする必要があります。Deep Learning AMI を使用している場合は、AVX-512 用に最適化された最新バージョンを必ず使用してください。
本日より、利用可能です
p3dn.24xlarge のインスタンスは、米国東部 (バージニア北部) と 米国西部 (オレゴン) リージョンで利用可能です。オンデマンドインスタンス、スポットインスタンス、およびリザーブドインスタンスの形式で、本日より利用することができます。
ボーナス – P3 料金の引き下げ
本日の発表の記念として、既存の P3 インスタンスの料金の引き下げも行います。次の料金は 2018 年 12 月 6 日より有効です。
この値下げで、機械学習のトレーニングと推論がもっとお手頃な料金になるはずです。これは、あらゆる開発者にとって機械学習がもっと身近なものとなってほしいという、弊社の努力の一環です。
— Jeff;
昨年後半に、Amazon EC2 P3 インスタンスについてお伝えしましたが、その際 Tensor Core のコンセプトにも触れました。これは、大規模なディープニューラルネットワークのための機械学習のトレーニングと推論にかかる時間を短縮する、計算に特化したユニットです。弊社のお客様はこの P3 インスタンスにご満足のようで、さまざまな機械学習や HPC ワークロードの実行に、これらのインスタンスを使用されているようです。例を挙げると、fast.ai は、100 万個の画像を使った ResNet-50 深層学習モデルをわずか 40 USD でトレーニングしますが、深層学習の最速スピード記録を達成しました。
限界への挑戦
今日、p3dn.24xlarge インスタンスを追加して、P3 を最上位の製品へと拡張し、その結果、GPU メモリは 2 倍に、vCPU は p3.16xlarge インスタンスと同じ 1.5 倍に増強しました。このインスタンスは、100 Gbps のネットワーク帯域幅 (以前の P3 インスタンスの最大 4 倍の帯域幅)、ローカル NVMe ストレージ、32 GB の GPU メモリを装備した最新の NVIDIA V100 Tensor Core GPU、高速化した GPU 間の通信を行う NVIDIA NVLink、そして全コア Turbo をサポートし 3.1 GHz で動作する AWS 独自の Intel® Xeon® Scalable (Skylake) プロセッサを搭載しています。これらはすべて AWS Nitro System 上に構築しています。仕様は以下のとおりです : 4
モデル | NVIDIA V100 Tensor Core GPUs | GPU メモリ | NVIDIA NVLink | vCPUs | メインメモリ | ローカルストレージ | ネットワーク帯域幅 | EBS最適化帯域幅 |
p3dn.24xlarge | 8 | 256 GB | 300 GB/s | 96 | 768 GiB | 2 x 900 GB NVMe SSD | 100 Gbps | 14 Gbps |
p3dn.24xlarge は、合計で 256GB の GPU メモリ (現在の P3 インスタンスでの最大サイズの 2 倍) を装備しており、より深くて複雑な深層学習アルゴリズムを探索することができます。インテル AVX-512 の手順や Skylake のその他の最先端の機能を活用しながら、トレーニング画像をこれまで以上に速く更新し、拡張することも可能です。GPU コードは、NVLink および NVLink Collective Communications Library (NCCL) を使用して、複数の GPU および/またはインスタンス全体をスケールアウトすることができます。NCCL を使用すれば、プレイスメントグループ内で使用された場合でも、インスタンス間で利用可能な 100 Gbps のネットワーク帯域幅を十分に活用できます。
これらのインスタンスは、分散型機械学習のトレーニングや画像分類に最適なだけでなく、HPC ジョブを強力にサポートしますます。3D 画像をレンダリングしたり、動画をリアルタイムでコード変換したり、財務リスクをモデル化したりすることができます。
ENA、NVMe、および NVIDIA ドライバが含まれていれば、既存の AMI を使用できます。100 Gbps ネットワークを実現するには、最新の ENA ドライバにアップグレードする必要があります。Deep Learning AMI を使用している場合は、AVX-512 用に最適化された最新バージョンを必ず使用してください。
本日より、利用可能です
p3dn.24xlarge のインスタンスは、米国東部 (バージニア北部) と 米国西部 (オレゴン) リージョンで利用可能です。オンデマンドインスタンス、スポットインスタンス、およびリザーブドインスタンスの形式で、本日より利用することができます。
ボーナス – P3 料金の引き下げ
本日の発表の記念として、既存の P3 インスタンスの料金の引き下げも行います。次の料金は 2018 年 12 月 6 日より有効です。
- すべての料金 (オンデマンドおよび RI) およびすべてのインスタンスサイズで 20% の値下げとなるのは、アジアパシフィック (東京) リージョンです。
- すべての料金 (オンデマンドおよび RI) およびすべてのインスタンスサイズで 15% の値下げとなるのは、アジアパシフィック (シドニー)、アジアパシフィック (シンガポール)、およびアジアパシフィック (ソウル)リージョンです。
- すべてのインスタンスサイズに対する 3 年間の標準 RI で 15% の値下げとなるのは、アジアパシフィック (東京)、アジアパシフィック (シドニー)、アジアパシフィック (シンガポール)、およびアジアパシフィック (ソウル) 以外のすべてのリージョンです。
この値下げで、機械学習のトレーニングと推論がもっとお手頃な料金になるはずです。これは、あらゆる開発者にとって機械学習がもっと身近なものとなってほしいという、弊社の努力の一環です。
— Jeff;
コメント
コメントを投稿