ESRI Discussion Paper No.345 計量テキスト分析による景気判断
-コーディングルールや主成分を使った時系列分析-
2018年3月
- 山澤成康
- 内閣府経済社会総合研究所上席主任研究官
要旨
景気ウォッチャー調査の文章情報を使い、計量テキスト分析で景気動向の把握や予測法を検討した。「景気判断理由集(現状)」に使われる約19万件の文章から単語を抽出し、その単語が各月の総文章数に対してどれくらい出現するか(出現率)を集計して時系列データとして使用した。分析は、(1)コーティングルールを使った分析(2)相関分析(3)主成分分析(4)GDP予測への応用──に分かれている。
コーディングルールを使った分析では、分析者が作成した単語の組み合わせ(コーディングルール)に従って出現率を計算して、グラフ化した。政策効果などがわかりやすく示せることがわかった。
相関分析では、景気ウォッチャー調査の現状判断DIと各単語の出現率の相関係数をとり、どのような単語の相関係数が高いかを調べた。景気に順相関あるいは逆相関する単語を選び、景気指標を作成した。
主成分分析では、頻出150語の出現率を時系列データとみなし、主成分を抽出した。ウエートの高い語やその語と同時に使用される語などを検討して、各主成分がどのような性質を持っているのかを検討した。第1主成分が、景気ウォッチャー調査の現状判断DIや景気動向指数・一致指数との相関が高いことがわかった。
GDP予測への応用では、近似ダイナミックファクターモデルなどを使用して、実質GDP成長率が予測できるかどうかを検討した。説明変数として、鉱工業生産指数のほか単語の出現率や主成分を用いると、予測精度が上がることがわかった。
- JEL 分類番号:E32
- キーワード:景気循環、テキスト分析、景気ウォッチャー調査
全文ダウンロード
計量テキスト分析による景気判断—コーディングルールや主成分を使った時系列分析—(PDF形式 1.49 MB)
全文の構成
-
1ページ要旨
-
2ページ1. はじめに
-
2ページ計量テキスト分析とは
-
2ページ先行研究
-
3ページ表1 テキストデータを利用した指標例
-
-
4ページ本論文の問題意識
-
-
4ページ2. コーディングルールを使った分析
-
4ページデータについて
-
5ページコーディングルールとは
-
5ページ表2 コーディングルールを使った分析
-
-
5ページコーディングルールによる時系列データ
-
7ページ図1 コーディングルールによる出現率
-
-
-
8ページ3. 相関分析による景気指標の作成
-
8ページ景気版「感情極性対応表」の作成
-
9ページ表3 景気の現状判断DI(方向性)との相関ランキング
-
10ページ図2 現状判断DIとテキストデータから作ったインデックス(Text Index)
-
-
10ページ否定語などに関する検証
-
10ページ表4 言葉と景況感の関係が複雑な場合
-
11ページ図3 否定助動詞「ない」が出現する比率
-
-
-
12ページ4. テキストデータの主成分分析
-
14ページ図4 主成分分析の結果
-
14ページ表5 各主成分の固有ベクトル(絶対値の大きい順)
-
15ページ表6 主成分と経済指標の相関係数
-
15ページ図5 第1主成分と景気ウォッチャー調査現状判断DI(方向性)
-
-
15ページ5. GDPの予測への応用
-
16ページテキストをそのまま説明変数とする場合
-
17ページ近似ダイナミックファクターモデル
-
18ページ表7 推計結果(その1)
-
-
18ページ推計結果
-
20ページ表8 推計結果(その2)
-
21ページ図6(その1) 実質GDPの予測値
-
22ページ図6(その2) 実質GDPの予測値(続き)
-
-
-
22ページおわりに
-
23ページ参考文献
-
25ページ付注1
-
26ページ付図1 主成分ごとの共起ネットワーク
-
26ページ第1主成分
-
26ページ第2主成分
-
27ページ第3主成分
-
27ページ第4主成分
-
28ページ第5主成分
-
28ページ第6主成分
-
-
29ページ付図2 主成分のグラフ(表7の式3)
-
30ページ付図3 主成分のグラフ(表7の式4)
-