前回では、予測技術の1つである回帰モデル型の例として「第4回AKB48選抜総選挙」の予測を取り上げ、予測技術に対しての一般の期待と実情とのギャップを説明した。今回は分類モデルの例として、予測技術の中でも注目を集めやすい、株価予測について取り上げる。
ソーシャルデータからの株価予測の話題
株式市場の値動きは、そこに参加する人々の思考や感情で動く部分が少なからずある。ソーシャルデータから、それらを観測して株の値動きを予測しよう、というのがソーシャルデータによる株価予測の考えである。
株価予測が実現したら何ができるかは、説明するまでもなく皆が了解するところである。それゆえに、このテーマは人々の関心を呼び、話題になり易い。その分、期待と現実とのギャップは大きくなる。
ソーシャルメディアデータからの株価予測で関心を集めたニュースを紹介しよう。
2010年10月に、米国でTwitterのデータを使って株価指数の方向性(値上がり、値下がり)を86.7%の精度で予測できるという研究報告が報道された。
Twitterで株式市場を予測:「86.7%の精度」
――WIRED.jp 2010年10月22日付
それまでも、ブログやTwitterなどのソーシャルメディアに投稿された記事をテキスト分析して、ポジティブかネガティブか、どういった感情が含まれているかを測定し、世の中の「気分」を測るという試みは広く行われている。
この研究で開発した感情分析をTwitterのデータに適用したところ、偶然にもダウ・ジョーンズ工業株化平均の変動に対して、3~4日先行する形で感情分析の結果の一部が動いていることを発見した。
上記の研究はTwitterデータからの株価予測の可能性を示すのみであったが、2011年には実際にロンドンで、Twitterのデータを使った予測でヘッジファンドを運用する会社も登場した。
ツイッターで株価を予測するヘッジファンド
――ニューズウィーク日本版 2011年8月17日付
ただし、このヘッジファンドは投資家に情報を提供する業態へシフト(DCM Capital)し、現在ファンドは清算されている。
Twitterヘッジファンドが1カ月で清算
――ゆかしメディア 2012年5月30日付
Last tweet for Derwent’s Absolute Return
――Financial Times 2012年5月24日付
日本国内では、テクノロジー系ベンチャー企業の経営者が一堂に会するイベント、Infinity Ventures Summit 2010 Fall Kyotoで催された、新しいサービスや技術を発表するLaunchPadにおいて、筆者が所属するホットリンクの「ソーシャル時代の株ロボット」が優勝した。
また、カブドットコム証券と日本IBMが共同で、Twitterのデータと株価との関連性を検証した報告が話題になった。
日本IBMの事例ページ 「カブドットコム証券株式会社」
予測のアプローチ
ここでは、ソーシャルデータからの株価予測の一般的なアプローチと課題を紹介する。
予測対象:
短期の株価のトレンド
・予測モデル構築用のデータ:
一定期間のブログ記事やTweetデータ。株価情報
・入力情報:
前日の特定キーワードの言及数
予測モデルのタイプは、特定キーワードの出現の組み合わせから、前日から「値上がりする」群なのか、「値下がりする」群なのかを判別する「分類モデル型」になる。
予測モデルを作る際は、キーワードの出現頻度のデータを、翌日値上がりした群と値下がりした群に分けて、どのキーワードが株価のトレンドに対して相関があるかを機械学習させて作るのが一般的である。