データサイエンスのためのストリーミング前処理入門　PythonとSparkで始めるビッグデータストリーミング処理入門

【データサイエンス/データエンジニアリングシリーズ】PythonとSparkでストリーミング処理を行ってみよう

Jul 2, 2025 - 14:54 Updated: Jul 13, 2025 - 05:41

0 0

【データサイエンス/データエンジニアリングシリーズ】PythonとSparkでストリーミング処理を行ってみよう

現役のデータエンジニアがレクチャーします！

AIや機械学習を行う際に最も時間のかかる作業は、データの準備とそれらの管理です。これらの作業のことをデータエンジニアリングと呼びます。実に８０％以上の時間をデータエンジニアリング(データサイエンスのための前処理や仕組み構築)に割いてるのが現状です。

本コースではApache Sparkを使ったストリーミングのデータエンジニアリングについて学びます。

ポイント：

本コースでは分散処理のデファクトとなりつつあるSparkについて学びます。

Apache Sparkはビッグデータ処理で多く使われている分散処理エンジンです。

今回はPythonと組み合わせたPySparkを使ったストリーミング処理の講座です。

ストリーミング処理の基本から、Avroフォーマット、Webアプリケーションにおけるユーザのトラッキングとストリーミングの一連の流れをこのコース一つで学ぶことが可能です。

特徴：

ソースコードや解説は以下のGitHubリポジトリにあります。

動画内ではGitHubの資料に加え補足をしながら解説を進めています。