いろいろやってみるにっき

てきとーに生きている奴の日記

古いエントリのサムネイル画像がリンク切れになってたりするけど、チマチマ修正中


Google Driveの画像からの文字起こしについて実力を調べてみた。

オレもこのTogetterで文字起こしについて知った。

 

どのような文書が書き起こしでき、どのような文書は書き起こしに向かないのか、確認してみることにした。色々な画像を用意した。

f:id:shigeo-t:20180204103300p:plain

 

公開されているデータがPDF上の表しか無いということはよくある。そこでまずは表を起こしてみる。

文字起こしは画像ファイルをGoogleドキュメントで開けばよい。Googleドキュメントで開くと上に画像、下に文字起こしデータが表示される。表組には対応できていない。残念。

今のところGoogleドキュメントだけだが、Googleスプレッドシートもアプリ選択できるようになれば表でも大丈夫になるのかもしれない。

f:id:shigeo-t:20180204103916p:plain

 

性別

男性

女性

|年齡等

推定平均 必要言

准三言

安童

推定平均 三重!

莫言 必要言

安童

三重,

(中会

(中会

10

10

|0~5(月)・

6~8(月)・ 9~11(月)・

|15

15

25

5

13~20

13~20

|1~2歲)

15

20

15

20

-16.5

-165

13~20

13~20

|3~5(歲)

20

5

20

5

-16.5

-16.5

13~20

13~20

|6~了(處)

35

25

30

-16.5 13~20

|8~9(歲)

5

0

30

0

-16.5 13~20 -16.5 13~20

-16.5 13~20

|10~11(歲

40

50

AO

50

-16.5

-16.5

13~20

13~20

|12~14 (歲)

50

55

-16.5

-16.5

 

次に雑誌のように色々な情報が組み込まれているもの。貰ってきた車内誌である。

f:id:shigeo-t:20180204104219p:plain

f:id:shigeo-t:20180204104647p:plain

段組みにも弱いようだが、まあまあ正しく文字起こしされている。多分、Google側で単語登録されている単語はほぼ正確、単語登録されていないであろう「しゅぽっぽ」は「しゅぼう」「しゅぼつぼ」になっているので対象の文書によっては相当直しが必要になるかも。マンガとか。

次は裏表紙。フォントが変わったらどうなるのか。切り絵の文字っぽい。

f:id:shigeo-t:20180204104928p:plain

ところがこれがすごい。アイコンも文字に誤認されている部分はあるが、それを除くときちんと文字起こしできている。

駅ナカSuicaで。

駅ナカでのお支払いはSuicaで画駅ビルでも、 品コンビニでも、岡自販機でも、おそば屋でも、 「お土産屋でも、回お弁当屋でも、自ケーキ屋でも、 「ロブラクストアでも、やっぱり便利なSuica です。

る。

Suica

どこでもSuica。なんでもSuica

普通列車グリーン車の車内販売では Suicaはご利用いただけません。

JR東日本

Suicaのペンギン ぬいぐるみ M

Suicaのペンギン ぬいぐるみ M

 

 

記事も文字起こししてみた。縦横色々文章や題などが書かれている。しかもOffice Lensで撮ったものなので少しうねっている。

f:id:shigeo-t:20180204105528p:plain

世界へ発信 三陸の海の幸を

フィッシャーマンズ・ 三陸水産業リーダー集団

開幕!

ませんか?・ 味しくいただくことで応援し 況にあります。 化を未来へつなぐ活動を、美 三陸の海の幸と豊かな食文 活動などに取り組んでいます。 開発やプロモーション、食育 を横断して連携し、新商品の 世界に発信するために、地域 /SANRIKUブランド」を マンズ・リーグ」を設立。「三陸宮城県水産業のリーダー たちが結集し、「フィッシャー 「そこで2016年、岩手県

岸の漁業・水産業は厳しい状 本大震災での被害により、沿 魚食文化の衰退、そして東日 しかし、高齢化や人口減少、 豊かな漁場です。 数百種類もの魚介類が集まる となるプランクトンも豊富。 魚の絶好の住処となり、エサ 近に迫るリアス式海岸のため、 が交わる海域で、山が海の間 は親潮(寒流)と黒潮(暖流) 世界三大漁場の一つ、三陸

フィッシャーマンズ・リーグ

QRコードからWebでも買えます」

山徳平塚水産 三陸の海の幸炊き込みご飯とおかずセット

三陸沖で獲れたさば・さんま・いわしを化学調味料無添 加の特製タレで骨までやわらかく煮込んだお惣菜3種 と、さば・鮭・牡蠣が贅沢に入った炊き込みご飯の素3種 のセット。20年以上研究を重ねた独自のレトルト技術で 食材のおいしさを活かして仕上げています。

浅炊きさんま

サバの五目炊き込みご飯。

いわし梅煮

就职 回総

商品番号 00301 |送料込

回総回 税込4,440円(4,112円) 【セット内容(約)】サバの五自炊き込みご飯の素×1袋(2合 用)、銀鮭と茎わかめの炊き込みご飯の素×1袋(2合用)、 牡蠣とひじきの炊き込みご飯の素×1袋(2合用)、さば味噌

着1切れ×1袋、浅炊きさんま130g×1袋、いわし梅着2尾× 1袋(賞味期限】常温90日く加工地宮城県)

さば味噌煮

銀鮮と茎わかめの炊き込みご飯。

カタログT1802

牡蠣とひじきの炊き込みご飯 ※上記写真は全て調理例

広凶マークの商品は、商品代金に送料が含まれています。■通信販売のお申込みについて、詳しくは61ページをご覧ください。

やはりあれこれ混ざると結果もあれこれ混ざるようだ。部分部分で見ると使える文字列が多いもののこれは苦手なんだろう。

あと、三陸の炊き込みご飯にはいちご煮缶を推す。

 

 

次は手書き。

f:id:shigeo-t:20180204110133p:plain

PCの聖源は こまめに消しきしょう。

abcdefghijk 9 m n Operstuvwxyz ABCDEFGHIJKLMNOPQRSTUVWXYZ

あいうえお・かきくけこ さしすせそたちとと アイウェオカキクケュ サシスセソタチッチト

ひとへに風の治の廃ェに同じ たけき者も遂にはほうびぬ ただ春の夜の夢のこと。 ホ)れる人も久しからす、 盛者の理をあらます。 沙羅双樹 G花仍色

諸行無常の響きあ 祇園精舎の鐘のHF、

割とイケてる。アルファベットは小文字はダメだが大文字はパーフェクト。平仮名はあ行か行はOK、カタカナは意外とミスが多い。平家物語はちょっと厳しかったか。上で検証したように縦横混ざると誤変換が増えるし。機械学習で手書き文字判別というのは割と初歩なので意外と高精度である。

 

そこで平家物語だけにしてみた。上の変換よりは少し誤変換が減った。

f:id:shigeo-t:20180204111532p:plain

 

あとはTVのキャプチャ。今回は縦に3枚並べてみた。

f:id:shigeo-t:20180204111826j:plain

なんとパーフェクト。

大臣に隠し子がいたんですって あらま 大変

大体 マスコミがいちいち政治家の 「揚げ足取ってるようだから

国会が 動かなくなっちゃうんですよ

TVのキャプチャから文字起こしするなら、Google Driveにお任せである。

 

いや、すごいわこれ。最後に普通のPDFの文章を切り出してみた。コインチェックでおなじみの「金融分野におけるサイバーセキュリティ強化に向けた取組方針について」である。

 このページである。

f:id:shigeo-t:20180204112445p:plain

 1.金融分野のサイバーセキュリティにおける課題 (1) 取組方針の策定について

金融庁では、金融分野におけるサイバーセキュリティ管理態勢について、これまで も金融機関のシステムの安定稼動、業務継続、情報セキュリティ管理、顧客保護とい った視点から監督・検査を行ってきた。

他方、日本の金融システムは、現下、総体として健全であり安定しているが、のイ ノベーションの進展に合わせたインターネットの利用拡大、2サイバー攻撃の高度化 (手口の巧妙化、攻撃技術へのアクセスの容易化)、3サイバーテロの脅威の高まり(経 済目的ではなく社会秩序を混乱させる目的でのサイバー攻撃)に伴い、サイバー空間 からの攻撃が金融システムの安定に影響を及ぼしかねないものとなってきている。

実際海外では、証券会社や医療保険会社において数千万件単位の顧客情報漏えいや 銀行ATMの大規模停止などの事例が発生している。 このため、金融庁の重要目的である「金融システムの健全性確保」の観点に立ち、 個々の金融機関がサイバーセキュリティ管理に係る基準を満たしているかの検証に留 まらず、業界全体の課題を把握・分析し、サイバーセキュリティ強化を図ることで、 金融システム全体の強靭性を高めていくことが必要となっている。

また、昨年11月にはサイバーセキュリティ基本法が制定され、金融を含めた重要イ ンフラ事業者のサイバーセキュリティ確保のため、政府一丸となって、施策を講じる こととされている。

そこで、今般、金融庁として金融分野へのサイバー攻撃の脅威に対抗するために今 後取り組むべき方針を明らかにし、金融機関、金融サービス利用者及び関係機関と問 題意識を共有することとした。

(2)金融分野のサイバーセキュリティを巡る状況 0 イノベーションの進展に合わせた金融分野でのインターネットの利用拡大

金融機関の業務では、預金・為替事務の処理はもとより、リスク管理や内部監査 に至るまで、様々な場面でコンピュータシステムが活用され、これらの安全性・信 頼性の確保は、経営管理上、極めて重要な課題となっている。さらに、情報通信技 術の発達と金融機関の業務の多様化・国際化により、金融機関のコンピュータシス テムは、インターネット等のオープンな情報通信ネットワーク(以下「インターネ ット等」という。)との繋がりを強めており、ネットワークを介した外部からの悪意 ある接続等に対する堅牢性の確保も新たに重要となってきている。

また、顧客とのチャネルにおいても、インターネットバンキングをはじめとして インターネットを介して取引が行えるサービスの普及が進んでいる。

(参考)インターネットバンキングの利用状況

(よりよい銀行づくりのためのアンケート(2012年度)より)

利用している

| 2~3ヶ月から 週1回以上 | 2~3週間に1回

利用していない

| 半年11回以下 65.2% 13.0% 38.9% 13.3%

34.8% (注)全国銀行協会が実施した3.400人を対象にしたインターネットによるアンケート結果(回答3,235人)

全曲録音協会が実施した1381 対象にした89キットによるう結果を1989

これまで検証した通り表はダメだが、文章部分はパっと眺めたところ余分にスペースが入るとか、(2)の①のところで改行漏れ&誤変換があるとかくらいで、校正時間が短くて済みそうな精度である。

 

まずはこの手の文章で、PDFからの変換ができない(PDF作成時にコピー不可設定できる)とか、右クリック禁止のWebサイトとか、紙で貰ったとか、そのようなケースには十分に役に立つレベルである。 

お時間あったら、他のエントリもクリックして頂ければ幸いです。