たまには、データ分析のことでも書いてみるかな。
ちょっとずつでも書いておけば、そのうちまとめられるかもしれないし。
巷ではデータ分析だのマイニングだの、色々な言葉が飛び交い、言葉だけが先行してしまうこともよくある話だが、データ分析を行う際に必ず押さえておかなければならないことがある。それは、
2. 計画
3. データの収集
4. 統計処理
5. レポーティングとフィードバック
1.の目標設定が必要なのは、別にデータ分析に限ったことではなく、何かの活動を行うときには当然のことだと思うのだが、意外とこれがなされていないことが多いような気がする。あるいは、その目標・目的がシステム構築者に伝わっていない(理解されていない?)。
2.の計画も、データ分析に限ったことではないが、敢えてデータ分析に関連すると思われることを挙げると例えば、
(a) データをどのように集めるのか?
アンケート調査をするのか、POSなどからデータを収集するのかなどを計画しておかなければならない。
(b) 収集したデータの分析手法
集められたデータの種類と出力として期待される答え、つまりINPUTとOUTPUTを考慮した上で、分析手法を決定していく必要がある。
3.は実際のデータの収集と蓄積。大規模なシステムだとデータウェアハウスなどを作っていくことになるが、1、2が明確でないまま、いきなり3から実施してしまうことが少なくない。言葉に踊らされること無く、しっかりと1、2の手順を踏んだ上でこの作業を行わないと、後々問題が生じることも多い。
4.の段階になって、やっと数学的な統計分析処理になる。手でセコセコと計算しても良いが、SPSSやSASなどの統計ソフトを使って分析を行うことが多い。SASは高いけど(笑)。
もちろん、ExcelやRなどでも分析処理を行うことは可能。
5.では、分析結果の報告と第1フェーズへのフィードバックを行う。
データ分析では、分析計算を行うのが目的ではない。特に企業活動の中で実施する分析は、その結果を企業活動にフィードバックすることによって初めて意味を帯びてくる。そういった意味で、第1フェーズで、この第5フェーズで出すべき結果をある程度想定しておく必要がある。
まぁ、こんなところかな。