やさしい実用統計 Pythonによるデータ分析入門
データサイエンスの基礎となるデータ分析プロセスにおいて記述統計の活用をJupyter notebook上のPythonで実施. 一般的な業務に使える統計データ分析.他では学べないデータクレンジングのノウハウ.

やさしい実用統計 Pythonによるデータ分析入門 free download
データサイエンスの基礎となるデータ分析プロセスにおいて記述統計の活用をJupyter notebook上のPythonで実施. 一般的な業務に使える統計データ分析.他では学べないデータクレンジングのノウハウ.
一般的な業務においてデータ分析のニーズが高くなっていて,誰しもがデータ分析の実施を要求される社会になっています.さらに,データ分析の信頼性を保証するために統計による説明が求められています.
統計の分野を大きく分類すると,記述統計,推測統計,ベイズ統計,多変量解析の分けられます.
これまでの慣例では,統計というと「推測統計」を指している場合が多く見受けられました.その理由は,伝統的に統計を活用している分野が品質管理であったり実験系の研究開発であったりしたためです.例えば,製品の製造現場では品質のサンプル検査が行われて,その標本における不良品率から生産した製品の不良品率を求めるために推測統計の推定や検定が行われています.
そのため,統計の専門家というと,主に推測統計を行う人達でした.
ところが,電子データが世の中に氾濫するようになり,ビックデータをマーケティングに活用したり,様々な企画立案のための市場調査などに統計分析の適用が進みました.しかし,このような業務領域では分析精度よりも利用できるアウトプットが求められます.そのため,推測統計を利用することは稀であり,殆どは記述統計の範囲で収まっています.
そこで,この講座では,高度な統計ではなく,一般的な業務において統計を適用してデータ分析を行いたい方のために記述統計の理論とPythonによるデータ分析の実施方法を解説します.
まず最初に認識しなければならないことは,統計分析もデータ分析もプロジェクトとして管理しなければならないという事です.私たちはデータ分析の工程をプロジェクトとしてフェーズ分けします.そして,そのワークロードを分析すると統計知識を利用した分析のフェーズは20%ぐらいしかありません.統計を学習して活用できる部分は20%にしかすぎず,それだけでは実際のデータ分析には全く歯が立ちません.
データ分析プロジェクトの中で最も作業比率の大きい部分は,データクレンジングを含んだデータ加工です.この部分が概ね60%を占めています.そして,その実行にはプログラムの使用が欠かせません.私たちは,このプログラミング基盤としてPythonを選択します.Pythonは,データサイエンスにおいてデファクトスタンダードの言語です.
この講座を受講する上での苦言ですが,データ加工およびデータクレンジングは労力が多く根気のいる作業です.一般的な統計分析の教材においては,これらの部分についての解説は行われません.その理由は,説明する側も説明を受ける側も地道で根気のいる作業を強いられるからです.そこで統計分析の美味しい所だけの解説で済ませて,分かった気にさせてしまいます.ところがそのような学習では,実際のデータを手にした段階において先に進むことができず挫折することが予想されます.したがって,この講座では敢えて苦行のような作業の解説を盛り込みました.このことをご理解ください.もし,自分でデータ分析が出来る必要がなければ,もっと楽な教材での学習をお薦めします.
この講座では,次の三つの観点でレクチャーを展開しています.
データ分析プロジェクト管理
記述統計
Pythonによる実行
レクチャーの主な内容
データ分析の準備
データ分析プロジェクト
データプロファイリング,電子化
Pythonの基礎知識
基本データ型
リスト内包表記
ライブラリーの活用
pandasデータフレーム
正規表現
データクレンジング基礎
カテゴリーデータ,整数,浮動小数点数
データフレームでのクレンジング
学習用データフレーム
各変量のクレンジング
記述統計
度数分布とヒストグラム
代表値:平均値,中央値,最頻値
四分位数,パーセンタイル
トリム平均
散布度
分散,標準偏差,平均偏差など
外れ値
四分位数と箱ひげ図
データの標準化
確率
確率の定義と定理
ベイズ統計
期待値
不偏推定量
1変量の記述統計
2変量の記述統計
散布図と近似直線
共分散と相関係数
単回帰分析
2変量統計の総合課題
分析結果の活用
データ分析結果についての考察
データ分析は結果が使えてこそ価値があります.難しい統計を使いこなす事が目的ではありません.本来の業務目的に沿った施策に効果が上がれば成功です.偏りの無いデータの入手を心がけデータの発生状況を知ることによって,誤りのない分析結果の解釈を提供することが基本です.
そのために,やさしい記述統計と分析プロセスの実行のためのPythonによる技術を身に付けてください.
なお,Pythonによる記述についてはJupyter notebookの文書をpdfにした添付資料がありますので,そちらを参照しながらご確認いただけますようお願いいたします.
また,Pythonについて不安のある方はUdemyの別コース「社会人のためのPython活用術」が一助になりますのでご利用をお勧めいたします.