Amazon EMRとは

Amazon EMR

Amazon EMR はクラウドのビッグデータプラットフォームです。Apache SparkApache HivePresto などのオープンソース分析フレームワークを使用して、大規模な分散データ処理ジョブ、インタラクティブ SQL クエリ、機械学習 (ML) アプリケーションを実行します。

特徴

使いやすさ

Amazon EMR は、ビッグデータ環境とアプリケーションの構築および運用を簡略化します。EMR の関連機能には、手軽なプロビジョニング、マネージド型スケーリング、クラスターの再設定、共同開発用の EMR Studio などがあります。

伸縮自在

Amazon EMR では、必要なキャパシティーを迅速かつ簡単にプロビジョニングでき、キャパシティーを自動または手動で追加、削除できます。これは、処理要件が変動しやすい、または予測不可能な場合に非常に便利です。例えば、処理のほとんどが夜間に発生する場合、日中は 100 個のインスタンス、夜間は 500 個のインスタンスが必要になることがあります。または、短期間に大量のキャパシティーが必要な場合もあるかもしれません。Amazon EMR では、何百、何千ものインスタンスをすばやくプロビジョニングし、コンピューティング要件に合わせて自動的にスケーリングし、ジョブが完了したら (アイドル状態のキャパシティーに対する支払いを避けるために) クラスターをシャットダウンできます。

低コスト

Amazon EMR は大量データの処理にかかるコストを節減することを目的としています。低コストを実現する機能の例として、秒単位での低料金設定、Amazon EC2 スポットとの統合、Amazon EC2 リザーブドインスタンスとの統合、伸縮性、Amazon S3 との統合などがあります。

柔軟性のあるデータストア

Amazon EMR では、Amazon S3、Hadoop Distributed File System (HDFS)、Amazon DynamoDB を含む複数のデータストアを活用できます。

ビッグデータツール

Amazon EMR では、Apache Spark、Apache Hive、Presto、Apache HBase などのパワフルで実績のある Hadoop ツールをサポートしています。データサイエンティストは、EMR を使うことで TensorFlow、Apache MXNet などの深層学習や機械学習も実行できます。また、ブートストラップアクションを使用すると、ユースケース専用のツールやライブラリを追加できます。データ分析担当者は、EMR Studio、Hue、EMR ノートブックを使用して、インタラクティブな開発、Apache Spark ジョブの作成、Apache Hive と Presto に対する SQL クエリの送信を行えます。データエンジニアは、EMRを使用して、データパイプラインの開発とデータ処理を行えます。また、Apache Hudi を使用して、増分データ管理や、レコードレベルでの挿入、更新、削除操作が必要なデータプライバシー関連のユースケースを簡素化できます。