いろいろやってみるにっき

なんとか自分の会社を立ち上げるところまで漕ぎ着けた、てきとーに生きている奴の日記

関連記事を探すときは、読んだ記事と同じカテゴリをクリックしてください。

記事のカテゴリは記事タイトル下に表示されています。カテゴリ一覧はサイドバーにあります。


Office LensでPowerPointやWordにエクスポートすると

今日も雨。聞いてないよ。それはともかくスキャン結果が面白いので見て頂きたい。

前回までのあらすじ

PowerPointにエクスポートすると

3ページ目はスキャンした画像そのままなのだが、1ページ目と2ページ目は頑張ってOCR(高額文字認識)をしている。しかも色々な加工がおこなわれている。

まず現物はPowerPoint Online。

1ページ目

写真などが入ったドキュメントをスキャンしているが、写真部分が絵になっている。これはうまくはまると色々使えそう。

f:id:shigeo-t:20150408040806p:plain

縦書きのドキュメントを使ったので右側に空白が多い。トリミングしてみる。

文字部分が手書きっぽくなっている。写真がイラスト化されている。

f:id:shigeo-t:20150408041339p:plain

 

2ページ目

1ページ目は手書き風だったが、こちらは文字はそのまま。写真部分はなんていうんだろう、カラーのままだが二階調っぽく加工されている。

f:id:shigeo-t:20150408040843p:plain

3ページ目

オリジナルのまま。撮りかたやライティングが悪いので少し左下の反射がそのままだが、オリジナルのままである。

f:id:shigeo-t:20150408040925p:plain

Wordにエクスポートすると

完全にOCRとして動いている。まずは同じ画像からのドキュメントをWord Onlineで。

PowerPointと同じドキュメントなので、カラーで写真・イラスト入り、斜めにレイアウトされた文字とかが多く、正しい文字認識は少な目。それでもなんとか頑張っている感じはある。

最終ページに元データがあるが、最初の文字レイアウトが斜めなので、そこを水平にしてドキュメント全体を斜めに倒して認識したようだ。文字を水平に補正した画像が貼られている。

f:id:shigeo-t:20150408050141p:plain

そこで、OCRで文字認識対象とするようなドキュメントでも試してみた。元はこんな感じ。裏が写っているのでちょっと良くないが、文字認識をさせたいドキュメントは条件としてはこんなもんだろう。なおこの画像(JPEG)は直接OneDriveにエクスポートしたが、OneDrive上ではここまでのOneNotePowerPoint、Wordと異なり、保存フォルダは「写真」─「Office Lens」である。

f:id:shigeo-t:20150408044140j:plain

これをWordにエクスポートしたものを見てみる。

見た感じ7割くらいは使えそう。裏面が見えている部分などは文字認識では無く画像として処理されているが、文字認識・文書化されている部分は、誤認識文字を修正すれば使えるレベル。撮影やライティング、裏が見えないように気をつければ、OCRとしても使えそう。 

ブックストッパー

ブックストッパー