はじめに
市場レポートの“感情”と株価の関係は?
では、この極性値を使って感情分析をしてみましょう。
今回は、ある証券会社の日本株ストラテジストレポートを使用します。レポートに使われている文章を単語に分解し、単語の極性値を合計します。この値が0より上であればレポート全体が“前向き”な感情を表すものとなります。これを“極性値指数”と呼ぶことにします。
1月8日までに発表された20レポート分を更に集計し、グラフにしました。
グラフを見ると、極性値指数は日経平均株価と概ね連動していると言えるでしょう。
昨年8月には大きく落ち込みました。当時は社会環境が厳しい状況でした。8月にかけて新型コロナ感染者数が急激に増え、8月7日には新規感染者が1,600人を超えました。17日には4~6月期のGDPが年率換算で27%減と戦後最大の落ち込みと発表されました。更に28日に安倍首相が健康不安を理由に辞任表明しました。
一方、足元はどうでしょうか。変動はみられますが、2020年の終盤と同じ高い水準を維持しており、“前向き“な感情分析の結果であることが分かります。
単語の“重要度”と“類似度”を見ると、足元は要注意?
AIによる感情分析は、極性値を使う他にもいくつか方法があります。続いては「単語重要度」と「単語類似度」の2つを使った感情分析の結果をご紹介しましょう。
1つめの単語重要度ですが、これはTF-IDF(ティーエフ アイディーエフ)という値を使って計算したものです。TFは英語の頭文字なのですが、日本語で単語の出現頻度という意味です。IDFはその単語が使われる文書がどの程度限られたものかを表しています。
株価が上昇した直前に発行されたレポートに出現が多いが、下落直前のレポートには出現が少ない単語は、相場上昇の予兆するキーワードかもしれません。こうした予兆キーワードを探る観点でTF-IDFを使います。
分析は次の手順で行います。まず、各レポートに出現する単語とそのTF-IDF値を計算しておきます。次に、2012年から2019年10月までのレポートを対象に、発行から1週間後まで株価が上昇したレポートと、下落したレポートに分類します。
これが学習と言われるものです。学習期間の結果を元にして、2021年1月8日までの20本のレポートを同じように集計し、グラフを作成しました(緑線グラフ)。
学習期間で発行後に株価が上昇したレポートに出てくる単語のTF-IDFの傾向と、どれだけ類似しているか(専門的には“コサイン類似度”というものを使います)を見ます。発行後に株価が上昇したレポートとの類似性が高いレポートが多いと、グラフが上昇します。
足元はやや水準が低下しているのが気になります。これは発行後に上昇したレポートと類似のレポートが足元では減ってしまっているということです。
グラフ内の赤線は、もう1つの分析方法“単語類似度”(専門的には“word 2 vec:ワードツーベック”というものを使います)です。これはレポートに使われている単語の配置(前後にどんな単語があるのか)を捉えて、レポート全体でどのようになっているのかを数値化した値を使うものです。
それぞれのレポートで計算できるこうした値が、発行後に株価が上昇したレポートとどの程度、類似しているかを見ています。発行後に株価上昇したレポートと、類似性が高いレポートが多い時期はグラフが上昇します。
足元はやや水準が低下しているのが気になります。これは発行後に株価上昇したレポートと類似するレポートの発行が足元では減っているということです。
ここまで、3つの感情分析の結果を紹介しました。これらのグラフから読み取れることをまとめると、レポートに使われている単語自体は前向きな姿勢を表すものが多いのですが、使われている単語の構成などの面から見ると、発行後に株価が上昇するレポートと似た傾向が離れつつあり、注意が必要と言えます。
今回はある会社のストラテジストレポートを使った感情分析を紹介しました。こうした分析は一般のニュースやネット記事などでも行うことができますし、様々なものを併用して総合的な判断が望まれます。