ディープラーニング(深層学習)研究では国内トップレベルの東京大学・松尾研究室のメンバーが開催する最新論文の輪読会から、話題の論文を紹介する本連載。今回は、テキスト認識技術の最前線がテーマ。街中の写真から「どこに」「何が」書かれているか読み取ることも可能になっている。

 紙の資料をデータ化するために、Excelなどにデータを手打ちした経験は誰しもあるのではないだろうか。皆さんご存じの通り、この作業は非常に非効率で面倒である。ちまたで「働き方改革」が叫ばれる中、実際にこのような業務に苦しんでいる方や、業務改善するにもどうすればよいか分からず頭を抱えている管理職の方も多いと思われる。そんな悩みを解決してくれるのがテキスト認識(OCRとも言う)である。

 このテキスト認識は、意外にもさまざまなアプリケーションに導入されている。例えば、名刺管理アプリのSansanでは、名刺情報の読み取りに(オペレーターによるチェックはされているようだが)テキスト認識技術を活用している。また、先日米フェイスブックが発表した“Rosetta”[KDD2018 Borisyuk et al.]というシステムは、テキスト認識技術を応用し、投稿された写真の文字までも検索可能にしている。当該システムは、実際にFacebookやInstagramなどのサービスの検索システムに組み込まれ、運用されている。このように、テキスト認識は業務効率に特化したBtoBサービスだけでなく、SNSのようなBtoCサービスなど幅広い分野で応用されている。

 今回は、そんなテキスト認識に関する研究成果を俯瞰していく。特に近年は深層学習の目覚ましい発展もあり、単にテキスト認識を高精度に行うだけでなく、「そのテキストが画像中のどこにあるか」も同時に推定できるようになっている。本稿ではテキスト認識に関する研究と、テキスト認識と同時にテキストの領域も推定する「テキストスポッティング(Text Spotting)」に関する最新研究をそれぞれ紹介する。本稿を通じてテキスト認識の最新の動向を少しでも知って頂ければ幸いである。

深層学習を用いたテキスト認識手法を3種に大別

 改めてではあるが、テキスト認識の研究は、機械が画像中のテキストを正確にデータ化することを目的としている。

 近年のテキスト認識に関する研究は、紙に書かれた文字を読み取るだけでなく、SNSにアップロードされるような一般画像内の文字を読み取るものも多い。一般画像のテキスト認識は、フォントや背景、文字色、光のノイズ、解像度などさまざまであり、単に紙から文字を読み取るよりも難度が高い。そこで、さまざまなタスクで成果を上げている深層学習を用いた手法が数多く発表されている。

 深層学習を用いたテキスト認識の手法は大きく分けて、
1.文字認識ベース
2.単語分類ベース
3.系列ラベリングベース
の手法に分類できる。