【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門

【データサイエンス/データエンジニアリングシリーズ】PythonとSparkで3種のメタビジネスメタデータ、テクニカルメタデータ、オペレーショナルメタデータの基本を取得、計算してみよう

【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門
【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門

【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門 free download

【データサイエンス/データエンジニアリングシリーズ】PythonとSparkで3種のメタビジネスメタデータ、テクニカルメタデータ、オペレーショナルメタデータの基本を取得、計算してみよう

現役のデータエンジニアがレクチャーします!


AIや機械学習を行う際に最も時間のかかる作業は、データの準備とそれらの管理です。これらの作業のことをデータエンジニアリングと呼びます。実に80%以上の時間をデータエンジニアリング(データサイエンスのための前処理やメタデータ管理)に割いてるのが現状です。

本コースではSparkを使ったデータエンジニアリングにおけるメタデータ管理について学びます。


メタデータを管理しなければデータ組織の生産性低下は免れません。

本コースを受講してデータを管理するという新たな方向へと舵を切りましょう。


メタデータ管理とは、データ活用の生産性を高めるためのデータの設計書です。

データはゴミ箱に捨てるようにただ「データレイク」や「データウェアハウス」に保存しておけばいいだけではなく、

  • データがどこにあるのか?

  • データはどのような状態なのか?

  • データの意味合いはどのような意味なのか?

  • データは誰にアクセスされているのか?

  • データは何回アクセスされているのか?

といったいわゆるメタデータをしっかりと管理することにあります。


本コースは3種のメタデータ(下記ポイント参照)について、入門として一つのテーブルをもとにPySparkを用いて算出しMysql保存していく実践講座です。

また保存するだけでなく、保存したメタデータの活用方法についても言及しています。


ポイント:

PySparkを使いながら以下の取得や算出を行います。

ビジネスメタデータ:テーブル定義や、テーブルの説明など、データ利用をするのに必要なメタデータ管理を勉強します。

テクニカルメタデータ:データプロファイリングを通した、データを検索せずともデータの特性をわかるようにするための方法を学びます

オペレーショナルメタデータ:Sparkのアクセスログの解析を行い、データに関する5w1hを引き出します。


いづれの情報もPysparkなどを使いながら算出していきます。

「データサイエンスのための前処理入門PythonとSparkで学ぶビッグデータエンジニアリング(PySpark) 速習講座」を受講していると内容の理解がよりスムーズかと思います。



特徴:

  1. データエンジニアリングよりの講座です。

  2. 難しいいサイエンスや数学は出てきませんが、データの3職種のうちの一つである「データエンジニア」のためのコースです。

  3. 普段Pythonを使っている方やこれからAIやビッグデータの分野にエンジニアとして参画してデータを自在に操りたいという方にはぴったりです

  4. メタデータを管理して、データ分析という行為にさらに付加価値を加えたい方


ソースコードや解説は以下のGitHubリポジトリにあります。

動画内ではGitHubの資料に加え補足をしながら解説を進めています。