昨今、ビッグデータというキーワード、およびその関連技術は非常に注目を集めており「R言語」というフレーズを耳にする機会も多くなってきたように感じます。
本稿は利用例を通じてR言語の概要、イメージを掴んでいただくことに加え、R言語を取り巻く業界の動向についてご紹介することを目的としています。
利用例としては、私がとあるシステム運用において実施していた分析を簡略化した形でご紹介します。システム統計情報に対する分析事例なので、ITシステムの設計や運用に携わる方であれば目にすることの多い、なじみ深いデータ分析と言えるのではないでしょうか。
なお、本稿では統計についての数学的な解説は極力行わず、R言語の利用者目線でのご紹介に重点を置きます。
対象読者としては、
- IT部門などで何らかのデータ処理に関与されている方
- 表計算や分析ツールを利用中で、統計解析に分析内容を拡充しようと検討中の方
などを想定しています。
また、Rは統計的なデータ処理を行うCUIベースのプラットフォームであり、CUI操作、スクリプト言語の経験、統計学に対する基礎知識があることが望ましいと言えます。
本連載を通して、R言語というものを理解する助けとなれば幸いです。
データ分析の方法論
「ビッグデータ」という言葉の意義、定義は様々な立場、考えから多種多様に語られているのが現状です。それぞれの定義についての議論はさておき、
ということは少なくとも事実であろうと考えられます。
また、分析とは「ある物事を分解して、それらを成立させている成分・要素・側面を明らかにすること」であり、「データ分析」と言った場合には「データを適切な単位に整理し、その意味を理解する行為」と捉えられます。
これを実現するために様々なツールが存在します。表計算ソフト、統計解析ツール、BI(ビジネスインテリジェンス)/レポーティングツールなどであり、それぞれにデータ分析機能が実装されています。
R言語もこれらツールの1つと言えます。その位置付けについてお話する前に、データ分析の方法論を(1)図表による理解、(2)データの縮約による理解という2つの大きな考え方で捉えておきます。