Office LensでPowerPointやWordにエクスポートすると

今日も雨。聞いてないよ。それはともかくスキャン結果が面白いので見て頂きたい。

前回までのあらすじ

<a href="https://shigeo-t.hatenablog.com/entry/2015/04/04/051407" data-mce-href="https://shigeo-t.hatenablog.com/entry/2015/04/04/051407">Microsoft Office Lensは使いやすいスキャンアプリ - いろいろやってみるにっき</a>

<a href="https://shigeo-t.hatenablog.com/entry/2015/04/07/065152" data-mce-href="https://shigeo-t.hatenablog.com/entry/2015/04/07/065152">iPhone専用のOffice Lens、iPadでも動作確認（問題なし） - いろいろやってみるにっき</a>

PowerPointにエクスポートすると

3ページ目はスキャンした画像そのままなのだが、1ページ目と2ページ目は頑張ってOCR(高額文字認識)をしている。しかも色々な加工がおこなわれている。

まず現物はPowerPoint Online。

1ページ目

写真などが入ったドキュメントをスキャンしているが、写真部分が絵になっている。これはうまくはまると色々使えそう。

f:id:shigeo-t:20150408040806p:plain

縦書きのドキュメントを使ったので右側に空白が多い。トリミングしてみる。

文字部分が手書きっぽくなっている。写真がイラスト化されている。

f:id:shigeo-t:20150408041339p:plain

2ページ目

1ページ目は手書き風だったが、こちらは文字はそのまま。写真部分はなんていうんだろう、カラーのままだが二階調っぽく加工されている。

f:id:shigeo-t:20150408040843p:plain

3ページ目

オリジナルのまま。撮りかたやライティングが悪いので少し左下の反射がそのままだが、オリジナルのままである。

f:id:shigeo-t:20150408040925p:plain

Wordにエクスポートすると

完全にOCRとして動いている。まずは同じ画像からのドキュメントをWord Onlineで。

PowerPointと同じドキュメントなので、カラーで写真・イラスト入り、斜めにレイアウトされた文字とかが多く、正しい文字認識は少な目。それでもなんとか頑張っている感じはある。

最終ページに元データがあるが、最初の文字レイアウトが斜めなので、そこを水平にしてドキュメント全体を斜めに倒して認識したようだ。文字を水平に補正した画像が貼られている。

f:id:shigeo-t:20150408050141p:plain

そこで、OCRで文字認識対象とするようなドキュメントでも試してみた。元はこんな感じ。裏が写っているのでちょっと良くないが、文字認識をさせたいドキュメントは条件としてはこんなもんだろう。なおこの画像(JPEG)は直接OneDriveにエクスポートしたが、OneDrive上ではここまでのOneNote、PowerPoint、Wordと異なり、保存フォルダは「写真」─「Office Lens」である。

f:id:shigeo-t:20150408044140j:plain