原稿の表記統一が自動でできるスクリプトを書いたよ

最近はGoogleDocsの音声入力で取材音源の文字起こしをしている。作業が爆速で終わり、もはやこれ以外のやり方は考えられない。だが、この方法にはいくつかの問題がある。その一つが「表記が自分好みにならない」ってことだ。例を挙げよう。

色々　結構　多分　皆さん　所　色んな　頂く　元々　大体　割と　人達　やり取り　嬉しい

どうだろうか。私はこれを見て「連体詞や副詞、形式名詞は開いてくれないかな」と思う。なぜならば、彼らは文の主役ではなく、目立たせる必要がないからだ。このままだと全体的に黒っぽい字面になり、発光体では読みにくい（以上は勝手な持論）。

というわけで、自分好みに表記統一してくれるスクリプトを書いてみた。

以下の手順を踏めば、自動で表記統一ができる。

（1）JupyterNotebookの実行環境を用意する

（2）上のリポジトリをgit cloneする

（3）同一ディレクトリに原稿を「before.txt」という名前で保存する

（4）「unification.csv」のbefore列・after列を置換したいものに書き換える

（5）スクリプトを実行する

本当はプログラムの実行環境を用意する部分が最もハードルが高いはずなので、このスクリプトもいずれWebアプリ化して公開したい。早くDjangoで開発できるようになりたいなあ。

地層を剥がす