青空文庫ファイルの加工をバッチ化

青空文庫ファイルを読み上げ用に加工するのに、これまでは秀丸マクロ+rubyスクリプトで作業してきたんだけど、この一連の作業をバッチ化してみる。秀丸とのやりとりためにクリップロードライブラリとか diff-lcs とか利用してたのが不要になって、スクリプトが簡単になりメンテはしやすくなった。


SJISをUTF-8に変換して漢字を取り込むだとかルビを削除するとかは割と機械的な作業でバッチ化することで効率化できた。一方で置換リストからルビを振るとかは実際に読み上げさせてチェックしながら作業してたので、バッチ化で常に第一候補を採用とすることで読み間違いも増えて読み上げの精度は悪くなってしまい、この辺をどうするかが今後の課題。

コメント

タイトルとURLをコピーしました