Study for SAA-C02: AWS Glue
AWS Glueとは
AWS Glueは、分析、機械学習、アプリケーション開発のためのデータの検出、準備、結合を簡単に行える、サーバーレスデータ統合サービスです。 AWS Glue はデータ統合に必要なすべての機能を備えているため、数か月ではなく、数分でデータを分析し、使用可能にします。
データ統合は、分析、機械学習、アプリケーション開発のためのデータ準備と結合のプロセスです。これには、さまざまなソースからのデータの検出と抽出など、複数のタスクが含まれます。例えば、データの強化、クリーニング、正規化、結合や、 データベース、データウェアハウス、およびデータレイクにデータをロードして整理することなどです。これらのタスクは、それぞれ異なる製品を使用する異なるタイプのユーザーにより処理されます。
AWS Glue は、データ統合を容易にするために、視覚化インターフェイスとコードベースのインターフェイスの両方を提供します。ユーザーは AWS Glue Data Catalog を使用して、データを簡単に検出し、アクセスすることができます。データエンジニアと ETL (抽出、変換、読み込み) デベロッパーは、AWS Glue Studio で数回クリックすれば、ETL ワークフローを視覚的に作成、実行、モニターできます。データアナリストとデータサイエンティストは、AWS Glue DataBrew を使用して、コードを書くことなくデータを視覚的に強化、クリーンアップ、正規化できます。AWS Glue Elastic Views を使用すると、アプリケーションデベロッパーは、使い慣れた構造化照会言語 (SQL) を使用して、さまざまなデータストア間でデータを結合および複製できます。
Azure でいうとAzure Purview 的なもの
利点
迅速なデータ統合
組織全体のさまざまなグループが AWS Glue を使用して、抽出、クリーニング、正規化、結合、読み込み、スケーラブルな ETL ワークフローの実行などのデータ統合タスクに協力して取り組むことができます。
大規模なデータ統合を自動化
AWS Glue はデータソースをクロールし、データフォーマットを識別してデータを保存するためのスキーマと変換を提案します。データ変換とロードプロセスを実行するコードが自動的に生成されます。AWS Glue を使用して、何千もの ETL ジョブを簡単に実行および管理できます。あるいは、SQL を使用して、複数のデータストア間にデータを結合およびレプリケートできます。
サーバー管理が不要
AWS Glue はサーバーレス環境で稼働します。AWS Glue は、データ統合ジョブの実行に必要なリソースをプロビジョニング、構成、スケーリングします。実行中にジョブが使用するリソースに対してのみ料金をお支払いいただきます。