国会会議録検索システムから検索結果を取得するコードを書きました

国会会議録検索システムから検索結果を取得するコードを書きました。

kokkai.ndl.go.jp

国会会議録検索システムとは、1947年の第1回国会から現在に至るまでの国会議事録が検索できるデータベースです。今回のコードでは同データベースが公開しているAPIを利用しました。仕様はこちら。

kokkai.ndl.go.jp

 

「戦後の国会で特定のキーワードがどのように用いられてきたか、経時変化を調べたい」と思い立ったはいいものの、当時(3か月前)はスキルが足りず悩みまくり……。しかし、何とか動くコードが書けたので、公開します。以下3本。

 

(1)検索結果を取得して保存するコード

(2)キーワードのヒット回数をCSVに書き込むコード

(3)CSVを読み込んで折れ線グラフを描画するコード

 

(1)がメインです。キーワードのヒット回数を一覧にまとめたい場合、それをもとに折れ線グラフを描きたい場合などには、(2)(3)のオマケを使ってください。 それぞれのコードは次のとおりです。

※なお、私の環境はPython 3.7.0、JupyterNotebookを使用しています。

 

(1)検索結果を取得して保存するコード

第1回国会から現在に至るまでの期間を対象に、特定のキーワードを含む発言の検索結果を取得し、年度ごとにテキストファイルで保存するコードです。戦後すべての記録を抜き出す前提となっているため、仮に頻出キーワードを指定しまった場合、実行が完了するまでかなり時間がかかると予想されます。ご利用は計画的に!(対象期間などは必要に応じて書き換えてくださいねー)

 

(2)キーワードのヒット回数をCSVに書き込むコード

(1)で保存したテキストファイルから年度ごとのキーワードヒット回数を抜き出し、CSVファイルに書き込むコード。軽いです。

 

(3)CSVを読み込んで折れ線グラフを描画するコード

(2)で作成したCSVを読み込み、キーワードのヒット回数で折れ線グラフを描くコード。こちらも軽いです。

描画に使っているライブラリはMatplotlib。あまりおしゃれではないですが、こんなグラフが描けます。

f:id:tekitoeditor:20190707233217p:plain

ちなみに今回のコードを使い、「自己責任」というキーワードを含む検索結果を取得してみました。上のグラフはその結果。そう、国会では2004年の日本人イラク人質事件以前から「自己責任」という言葉が使われていたのですねー。このあたりの話は新自由主義とかかわってきてめちゃ面白いのですが、長くなるのでまたいずれ。

 

以上、研究などにご活用いただけたらうれしいです!