GoogleDriveで文字認識・音声認識

光学文字認識

ノートに書かれた手書き文字や、PDF内に画像で埋め込まれた文字を、PC上で編集可能な文字として読み取りたい。

光学文字認識(OCR)というんだけど、これがGoogle Driveで無料で使える。中身をGoogleに見られても構わないデータなら、十分実用に使える。(もちろん完璧な読み取りができるわけでは無く、半角スペースの除去や誤字の確認などは後で行う必要がある)

PDF や写真のファイルをテキストに変換する - パソコン - Google ドライブ ヘルプ

  1. Google Driveに画像を上げる
  2. ファイルを右クリック→[アプリで開く]→[Google ドキュメント]
  3. しばらく時間がかかる
  4. 上部に画像、下部に読み取られたテキストが書かれたドキュメントファイルが生成される
  • PDF文書全体も読み取り可とあるが、文字化けを起こしたり、いまいち上手くできないこともある
  • 解析が一部だけでいい場合は、切り取ってその部分だけ画像化すると精度が良くなる
  • 縦書きでもOK

音声認識

ここまで進んだGoogleドキュメントの自動音声入力!もうテープ起こしは無料アプリでOK!?|パソコン全般 デジタル@備忘録

公式: 音声で入力する - ドキュメント エディタ ヘルプ

  1. Drive上でドキュメントを新規作成して開く
    • ブラウザはChromeのみ対応
  2. [ツール]→[音声認識]
    • マイク入力が有効になっていないと選択できない
  3. 言語を選択
  4. 音声をマイク入力
    • PCで流す音を使いたい場合は、NETDUETTOなどに同梱された仮想サウンドドライバを使うか、物理的な配線でライン出力をマイク入力にぶっさせばよい
  • 音声認識は光学文字認識より技術的に難しい
    • 繋がって発音されるので、単語の区切りを判別しないといけない
    • 発音やイントネーションが人により様々
    • 文脈から補完しているところが多い
      • 人ですら、通しで聞くと普通にわかる文章が、単語だけ切り取って単独で聞くと何の単語かわからないことがある
  • そもそも文字に起こしたい録音データの質がよくない
    • 雑音の多い環境
    • 滑舌の良くない人・訛りの強い人
    • マイクからの距離により音量が変化
  • 公開が憚られる場合もある

なので、精度はOCRと比較してやや劣る印象。

結果にまだまだ多くの修正が必要になる一方、たとえそうだったとしても、一から打ち込んでいくよりは全然速い。

web_service/google/drive/ocr.txt · 最終更新: 2017/08/29 by ikatakos
CC Attribution 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0