Cloud OnAir 番組レポート : GCP で構築するデータ分析基盤の最新情報をご紹介
Cloud OnAir 番組レポート : GCP で構築するデータ分析基盤の最新情報をご紹介: Cloud OnAir は、Google Cloud の製品をわかりやすく解説し、最新の情報などをいち早く皆様にお伝えする Online 番組です。
今回の放送は、GCP で構築するデータ分析基盤の最新情報についてお送りしました。
データの種類やデータソースの多様化、データ量が増加する中で、データ分析作業も複雑になっています。これに伴い、ビッグデータシステムの複雑な運用、継続的に増え続けるデータボリューム、安全なデータ管理、システムの安定稼働など多くの課題への対応が求められています。
番組では、Google Cloud Next '18 のアップデート情報も交えて、GCP を利用したデータ分析基盤の構築についてご紹介します。
ノンプログラミングでデータを加工する
イベント等で集めたアンケートの回答データを集計・分析する際には、事前にローデータから必要なデータを加工するケースがよくあります。Trifacta が運用する Cloud Dataprep はデータ加工を容易にするツールです。サーバーレスでフルマネージドであり、高度なデータクレンジング機能を提供します。簡単なデータ探索を GUI ベースで行うことも可能です。
Cloud Storage から BigQuery へのデータロード
Cloud Storage から BigQuery へのデータロードする代表的な方法を紹介します。Google App Engine で Cron を利用する、Google Cloud Functions でイベントドリブンな処理を行う、Cloud Storage からBigQuery のスケジュールをロードを行う、Cloud Composer を使うという4つの方法です。Cloud Composer を使うことによって、データロード後の分析の手続きを定義することも可能です。
BigQuery の新機能
無料のビジネス インテリジェンス(BI)サービスである、Data Portal の BI 機能がさらに高度化されました。
番組で説明した資料はこちらで公開しています。
Cloud OnAir では、各回 Google Cloud のエンジニアがトピックを設け、Google Cloud の最新情報を解説しています。過去の番組、説明資料、さらには視聴者からの質問と回答はこちらよりご覧いただけます。 最新の情報を得るためにもまずはご登録をお願いします。
今回の放送は、GCP で構築するデータ分析基盤の最新情報についてお送りしました。
データの種類やデータソースの多様化、データ量が増加する中で、データ分析作業も複雑になっています。これに伴い、ビッグデータシステムの複雑な運用、継続的に増え続けるデータボリューム、安全なデータ管理、システムの安定稼働など多くの課題への対応が求められています。
番組では、Google Cloud Next '18 のアップデート情報も交えて、GCP を利用したデータ分析基盤の構築についてご紹介します。
GCP が提供するデータ分析基盤
データ分析基盤を構築するため、Google Cloud Platform ではさまざまな製品を提供しています。- データの取得・ロード:Cloud Pub/Sub、Cloud Storage
- データの加工:Cloud Dataflow、Cloud Dataproc、Cloud Dataprep
- データの保管:BigQuery、Cloud Bigtable
- データの分析:Cloud ML Engine、Data portal(旧 Data Studio)
- 全体プロセスの管理(オーケストレーション):Cloud Composer
ノンプログラミングでデータを加工する
イベント等で集めたアンケートの回答データを集計・分析する際には、事前にローデータから必要なデータを加工するケースがよくあります。Trifacta が運用する Cloud Dataprep はデータ加工を容易にするツールです。サーバーレスでフルマネージドであり、高度なデータクレンジング機能を提供します。簡単なデータ探索を GUI ベースで行うことも可能です。
Cloud Storage から BigQuery へのデータロード
Cloud Storage から BigQuery へのデータロードする代表的な方法を紹介します。Google App Engine で Cron を利用する、Google Cloud Functions でイベントドリブンな処理を行う、Cloud Storage からBigQuery のスケジュールをロードを行う、Cloud Composer を使うという4つの方法です。Cloud Composer を使うことによって、データロード後の分析の手続きを定義することも可能です。
新機能の紹介
BigQuery と Data Portal(旧 Data Studio)の新機能を紹介します。BigQuery の新機能
- BigQuery ML:BigQuery で標準 SQL クエリを使用して機械学習モデルを作成して実行できます。既存の SQL ツールやスキルを活用できるので、誰でも簡単に機械学習を利用できます。BigQuery ML では、データを移動する必要がないため、開発スピードを向上させることができます。
- BigQuery GIS:標準 SQL で、ビッグデータ規模の GIS 分析を行うことができます。Earth Engine や Google マップ、Google Earth などを支えている計算ライブラリを利用しています。
無料のビジネス インテリジェンス(BI)サービスである、Data Portal の BI 機能がさらに高度化されました。
- ワンクリックでデータを探索できる
- 複数のデータソースをシンプルな右クリックだけで結合するデータブレンディング
- D3.js フレームワークを用いたカスタムビジュアライゼーション
番組で説明した資料はこちらで公開しています。
コメント
コメントを投稿