超速入門!【データサイエンスへの最初の一歩】PythonとSparkで学ぶデータ分析のための前処理と分散処理 一気見講座

【データサイエンス/データエンジニアリングシリーズ】最強のビッグデータ処理エンジンApache Spark~ABC人材のためのPythonで行う分散処理と前処理 を一挙に習得しよう!

超速入門!【データサイエンスへの最初の一歩】PythonとSparkで学ぶデータ分析のための前処理と分散処理 一気見講座
超速入門!【データサイエンスへの最初の一歩】PythonとSparkで学ぶデータ分析のための前処理と分散処理 一気見講座

超速入門!【データサイエンスへの最初の一歩】PythonとSparkで学ぶデータ分析のための前処理と分散処理 一気見講座 free download

【データサイエンス/データエンジニアリングシリーズ】最強のビッグデータ処理エンジンApache Spark~ABC人材のためのPythonで行う分散処理と前処理 を一挙に習得しよう!

現役のデータエンジニアがレクチャーします!


AIや機械学習を行う際に最も時間のかかる作業は、データの準備とそれらの管理です。これらの作業のことをデータエンジニアリングと呼びます。実に80%以上の時間をデータエンジニアリング(データサイエンスのための前処理など)に割いてるのが現状です。

本コースではApache Sparkを使ったデータエンジニアリングについて学びます。


ポイント:

本コースでは分散処理のデファクトとなりつつあるSparkについて学びます。

Apache Sparkはビッグデータ処理で多く使われている分散処理エンジンです。

今回はPythonと組み合わせた実際の現場で使われるPySparkを使った操作を一挙にまとめました。


特徴:

  1. データエンジニアリングよりの講座です。

  2. 難しいいサイエンスや数学は出てきませんが、データの3職種のうちの一つである「データエンジニア」のためのコースです。

  3. 普段Pythonを使っている方やこれからAIやビッグデータの分野にエンジニアとして参画してデータを自在に操りたいという方にはぴったりです


ソースコードや解説は以下のGitHubリポジトリにあります。

動画内ではGitHubの資料に加え補足をしながら解説を進めています。