今日も雨。聞いてないよ。それはともかくスキャン結果が面白いので見て頂きたい。
前回までのあらすじ
PowerPointにエクスポートすると
3ページ目はスキャンした画像そのままなのだが、1ページ目と2ページ目は頑張ってOCR(高額文字認識)をしている。しかも色々な加工がおこなわれている。
まず現物はPowerPoint Online。
1ページ目
写真などが入ったドキュメントをスキャンしているが、写真部分が絵になっている。これはうまくはまると色々使えそう。
縦書きのドキュメントを使ったので右側に空白が多い。トリミングしてみる。
文字部分が手書きっぽくなっている。写真がイラスト化されている。
2ページ目
1ページ目は手書き風だったが、こちらは文字はそのまま。写真部分はなんていうんだろう、カラーのままだが二階調っぽく加工されている。
3ページ目
オリジナルのまま。撮りかたやライティングが悪いので少し左下の反射がそのままだが、オリジナルのままである。
Wordにエクスポートすると
完全にOCRとして動いている。まずは同じ画像からのドキュメントをWord Onlineで。
PowerPointと同じドキュメントなので、カラーで写真・イラスト入り、斜めにレイアウトされた文字とかが多く、正しい文字認識は少な目。それでもなんとか頑張っている感じはある。
最終ページに元データがあるが、最初の文字レイアウトが斜めなので、そこを水平にしてドキュメント全体を斜めに倒して認識したようだ。文字を水平に補正した画像が貼られている。
そこで、OCRで文字認識対象とするようなドキュメントでも試してみた。元はこんな感じ。裏が写っているのでちょっと良くないが、文字認識をさせたいドキュメントは条件としてはこんなもんだろう。なおこの画像(JPEG)は直接OneDriveにエクスポートしたが、OneDrive上ではここまでのOneNote、PowerPoint、Wordと異なり、保存フォルダは「写真」─「Office Lens」である。
これをWordにエクスポートしたものを見てみる。
見た感じ7割くらいは使えそう。裏面が見えている部分などは文字認識では無く画像として処理されているが、文字認識・文書化されている部分は、誤認識文字を修正すれば使えるレベル。撮影やライティング、裏が見えないように気をつければ、OCRとしても使えそう。