AWS Glueとは

AWS Glue

AWS Glueは、分析、機械学習、アプリケーション開発のためのデータの検出、準備、結合を簡単に行える、サーバーレスデータ統合サービスです。 AWS Glue はデータ統合に必要なすべての機能を備えているため、数か月ではなく、数分でデータを分析し、使用可能にします。

データ統合は、分析、機械学習、アプリケーション開発のためのデータ準備と結合のプロセスです。これには、さまざまなソースからのデータの検出と抽出など、複数のタスクが含まれます。例えば、データの強化、クリーニング、正規化、結合や、 データベース、データウェアハウス、およびデータレイクにデータをロードして整理することなどです。これらのタスクは、それぞれ異なる製品を使用する異なるタイプのユーザーにより処理されます。

AWS Glue は、データ統合を容易にするために、視覚化インターフェイスとコードベースのインターフェイスの両方を提供します。ユーザーは AWS Glue Data Catalog を使用して、データを簡単に検出し、アクセスすることができます。データエンジニアと ETL (抽出、変換、読み込み) デベロッパーは、AWS Glue Studio で数回クリックすれば、ETL ワークフローを視覚的に作成、実行、モニターできます。データアナリストとデータサイエンティストは、AWS Glue DataBrew を使用して、コードを書くことなくデータを視覚的に強化、クリーンアップ、正規化できます。AWS Glue Elastic Views を使用すると、アプリケーションデベロッパーは、使い慣れた構造化照会言語 (SQL) を使用して、さまざまなデータストア間でデータを結合および複製できます。

Azure でいうとAzure Purview 的なもの

利点

迅速なデータ統合

組織全体のさまざまなグループが AWS Glue を使用して、抽出、クリーニング、正規化、結合、読み込み、スケーラブルな ETL ワークフローの実行などのデータ統合タスクに協力して取り組むことができます。

大規模なデータ統合を自動化

AWS Glue はデータソースをクロールし、データフォーマットを識別してデータを保存するためのスキーマと変換を提案します。データ変換とロードプロセスを実行するコードが自動的に生成されます。AWS Glue を使用して、何千もの ETL ジョブを簡単に実行および管理できます。あるいは、SQL を使用して、複数のデータストア間にデータを結合およびレプリケートできます。

サーバー管理が不要

AWS Glue はサーバーレス環境で稼働します。AWS Glue は、データ統合ジョブの実行に必要なリソースをプロビジョニング、構成、スケーリングします。実行中にジョブが使用するリソースに対してのみ料金をお支払いいただきます。