GoogleDriveで文字認識・音声認識

光学文字認識

ノートに書かれた手書き文字や、PDF内に画像で埋め込まれた文字を、PC上で編集可能な文字として読み取りたい。

光学文字認識（OCR）というんだけど、これがGoogle Driveで無料で使える。中身をGoogleに見られても構わないデータなら、十分実用に使える。（もちろん完璧な読み取りができるわけでは無く、半角スペースの除去や誤字の確認などは後で行う必要がある）

Drive上でドキュメントを新規作成して開く
- ブラウザはChromeのみ対応
[ツール]→[音声認識]
- マイク入力が有効になっていないと選択できない
言語を選択
音声をマイク入力
- PCで流す音を使いたい場合は、NETDUETTOなどに同梱された仮想サウンドドライバを使うか、物理的な配線でライン出力をマイク入力にぶっさせばよい

音声認識は光学文字認識より技術的に難しい
- 繋がって発音されるので、単語の区切りを判別しないといけない
- 発音やイントネーションが人により様々
- 文脈から補完しているところが多い
  - 人ですら、通しで聞くと普通にわかる文章が、単語だけ切り取って単独で聞くと何の単語かわからないことがある
そもそも文字に起こしたい録音データの質がよくない
- 雑音の多い環境
- 滑舌の良くない人・訛りの強い人
- マイクからの距離により音量が変化
公開が憚られる場合もある

なので、精度はOCRと比較してやや劣る印象。

結果にまだまだ多くの修正が必要になる一方、たとえそうだったとしても、一から打ち込んでいくよりは全然速い。