こんなのクラウドプラティショナーにも出てこなかった。
業務にしれっと出てきたので慌てて調べる。
データ分析系は調べだすと沼だと思うので、かなり浅めに。
もっと深くに行きたい人は、公式ドキュメントを見るべし。
Athenaの概要
AWSが提供するデータ分析サービス。
アテナと読む。
本来データ分析を実現するためには、色々と考えないといけないことが多い。
どのようなログを出すのか?
分析用のDBのストレージ、分析エンジンは何を使うか?などなど。
実現するのも大変だが、運用するも大変。
最初のうちは上手に分析出来ていても、
データが増えるにつれて、ログが溢れるなど、正しい分析ができなかったり。
Athenaはこれを簡易に実現することが出来る。
仕組みとしては、Amazon S3(Amazonのオンラインストレージ)に対して、
分析クエリ(SQL)を発行し、分析結果を返す。
GoogleのBigQueryのようなもの。
ログ収集の仕組みやサーバ管理の必要はなし。
思いっきり端折ると、
S3に置いてあるCSVやJSONファイルに対して直接SQLを発行、
クエリの結果(分析結果)を得ることができるという感じ。
Glueの概要
AWSが提供するデータ処理、ETL処理サービス。
グルーと読む。
ETLは、Extract Transform and Loadの略称。
データ分析や機械学習等に用いられる技術。
単一、複数のデータソースからデータを集約し、
必要に応じて変換・加工してデータベースやデータウェアハウスなどに保存する。
上の図であれば、DB、ログからデータを集約して、分析用ストレージに保存している部分に該当する。
Athenaと同じく、本来であればETL実現のために、
別途サーバーやストレージを用意しなければいけないところであるものの、
サーバレスかつ他のAWSとのサービスとの連携を容易にしてくれる。
また、インフラ面のコスト軽減だけでなく、
分散処理による高速化やデータ同士の関連付けといったデータカタログ化等も実現が可能にしてくれる。
コメント