図1●「疲れた」というワードを含む時間帯別のツイート数 午後10時台がピークになっている
図1●「疲れた」というワードを含む時間帯別のツイート数 午後10時台がピークになっている
[画像のクリックで拡大表示]
図2●「疲れた」の割合を見たところ、ピークはもっと早い午後5時台にあることが分かった
図2●「疲れた」の割合を見たところ、ピークはもっと早い午後5時台にあることが分かった
[画像のクリックで拡大表示]
表1●「早朝~昼前」(午前6時~11時)の時間帯を代表する「気分ワード TOP5」
表1●「早朝~昼前」(午前6時~11時)の時間帯を代表する「気分ワード TOP5」
[画像のクリックで拡大表示]
表2●「夜~夜中」(午後6時~11時)の時間帯を代表する「気分ワード TOP5」
表2●「夜~夜中」(午後6時~11時)の時間帯を代表する「気分ワード TOP5」
[画像のクリックで拡大表示]

 ヤフーは2014年7月16日、SNSに投稿された記事を検索できるサービス「Yahoo!検索(リアルタイム)」の元データとなる大量のTwitterのつぶやき(ツイート)を分析し、1日の中で人間の感情がどう変化するかなどを調査した結果を公表した。ビッグデータ解析を担当したのは同社の「Yahoo! JAPANビッグデータレポートチーム」。

 同チームは手始めに、2014年2月の1カ月間における全ツイートデータを使い、「疲れた」というワードを含む時間帯別のツイート数を調べた。すると、午後10時台が最もツイート数が多いという結果になったという(図1)。

 しかし、これは「午後10時台の時間帯におけるツイート数がそもそも多いという結果に影響された値である」と考察。そこで、各時間帯の総ツイート数に対して「疲れた」を含むツイートの割合を算出した。その結果、ピークはもっと早い午後5時台にあるという結果が得られた(図2)。

 チームでは、この分析結果を基に「Twitterを利用する日本人の24時間の特徴をあぶりだす」ことを目的としてツイートに含まれるワードの抽出および分析作業を進めた。具体的には、次に示す3ステップの作業でツイートの解析を実施したという。

(1)ツイート文から形態素解析により抽出したワード(名詞および形容詞)と、Web検索の検索数上位ワードから作成した辞書を組み合わせてワードリストを生成
(2)ワードリストを基に、2014年2月の全ツイート文からワードを再抽出。得られたワードそれぞれの時間帯別出現数を集計(このときツイート数が少ないワードの除外処理も実施)
(3)1日を6時間単位の時間帯に区切り、「各時間帯の総ツイート数に占める各ワードを含んだツイート文の割合」を計算、各時間帯を代表する「気分ワード」を選定

 得られた「気分ワード」は、例えば「早朝~昼前」の時間帯(午前6時~11時)では表1のようになった。一方、「夜~夜中」(午後6時~11時)の場合は表2のようになった。「抽出したワードは、1カ月のうちほぼ全ての日で対象時間帯での比率が最も高くなる傾向にあり、まさにその時間帯における気分を代表する言葉だと言える」(同チーム)。

 さらに、チームではいくつかの「感覚」や「気分」に関するワードをピックアップし、1日の推移を観察するという分析も行った。こちらの分析では、

  • 楽しい感情や感謝の感情を含むツイートが多く現れるのは午後11時台や午前0時台の時間帯
  • 「もうだめ」や「ダメだ」などのネガティブ系ワードは午前2~4時台にピークとなることが多い傾向がある
  • 同じ「痛い」という苦痛系ワードでも、「腰が痛い」「足が痛い」「頭が痛い」など体の部位によってつぶやかれるピーク時間帯に大きなズレがある
  • 「暇だ」に関しては午前10~11時台と午後1~2時台の二つの山が発生しており、一般的に最も暇と言える時間はこのあたりではないかと推測できる

といったことが分かったという。

 チームでは、「ツイートには検索キーワードや他のデータからは抽出が難しい『気持ち』『感情』『情動』といった貴重なデータがたくさん存在している」とし、この分析によってTwitterユーザーの1日の主な感情や感覚の動きを視覚化できたと総括。さらに、「行動」に関係するワードの分析結果なども組み合わせることで、活動時間やライフスタイルに関するデータ抽出なども今後可能になるとした。