原稿の表記統一が自動でできるスクリプトを書いたよ

最近はGoogleDocsの音声入力で取材音源の文字起こしをしている。作業が爆速で終わり、もはやこれ以外のやり方は考えられない。だが、この方法にはいくつかの問題がある。その一つが「表記が自分好みにならない」ってことだ。例を挙げよう。

色々 結構 多分 皆さん 所 色んな 頂く 元々 大体 割と 人達 やり取り 嬉しい

どうだろうか。私はこれを見て「連体詞や副詞、形式名詞は開いてくれないかな」と思う。なぜならば、彼らは文の主役ではなく、目立たせる必要がないからだ。このままだと全体的に黒っぽい字面になり、発光体では読みにくい(以上は勝手な持論)。

というわけで、自分好みに表記統一してくれるスクリプトを書いてみた。

github.com

以下の手順を踏めば、自動で表記統一ができる。

(1)JupyterNotebookの実行環境を用意する

(2)上のリポジトリをgit cloneする

(3)同一ディレクトリに原稿を「before.txt」という名前で保存する

(4)「unification.csv」のbefore列・after列を置換したいものに書き換える

(5)スクリプトを実行する

本当はプログラムの実行環境を用意する部分が最もハードルが高いはずなので、このスクリプトもいずれWebアプリ化して公開したい。早くDjangoで開発できるようになりたいなあ。