クラウド名刺管理サービスのSansan(東京都渋谷区)が機械学習を活用して名刺情報のデータ化を効率化させている。2013年にR&Dグループを設立し、1件当たりのデータ化費用を3分の1に削減した。収益性向上だけでなく、新規事業開発にも貢献する取り組みだ。

 Sansanは企業向けクラウド名刺管理サービス「Sansan」(1ID当たり月額3500円から)と、ソーシャルネットワーク的な機能を加えた個人向けの名刺管理サービス「Eight」(無料、月額400円からのプレミアサービスもあり)を提供する。ユーザーがスキャンしたり、スマートフォンで撮影したりした名刺情報をデータ化することが、ユーザーへ提供する基本的な価値となる。

 一般に名刺の入力費用は1件当たり25円、海外入力だと20円といわれるが、安いと入力するための期間がかかる。Sansanは即時入力をポリシーに「年間数億枚」(同社)の名刺を取り込んでいるが、仮に1億枚なら年間25億円、4億枚なら同100億円の入力費用がかかることになる。この効率化が収益性を大きく左右する。

 データ入力の効率化などを目指して、Sansanは2013年、入力業務を担当するオペレーション部内にR&Dグループを作った。

スケーラビリティ重視で「項目分割」

 名刺のデータ化を効率的に進める上では大きく2つの課題がある。一つが、繁忙期、閑散期があることだ。部署異動が多い4月や年賀状発送を前にした10~11月は名刺の取り込み枚数が増える。繁忙期に合わせて入力スタッフを雇用すると閑散期には無駄な人件費が生じる。そこで在宅、海外のオペーレーターやクラウドソーシングも活用している。

 となると、個人情報を社外に出すという問題が生じる。そこでSansanが実施しているのが「項目分割」だ。社名、肩書き、名前、電話番号などの項目を分割。1枚の名刺を1人が入力するのではなく、多数の人が入力する。後工程でデータを結合して1枚の名刺のデータとするのだ。名前やメールアドレスは項目内でもさらに分割して、個人情報の保護に配慮している。

 当初は、社内のオペレーターが画面を見ながらドラッグ&ドロップで項目分割していた。その時点で入力した方が作業は早いと考えられるが、将来この工程を自動化すれば、名刺の処理枚数が増えてもデータ化がスムーズに進むスケーラビリティの確保を重視した。

 R&Dグループには現在、画像処理、機械学習などの知識を持つ十数人が所属する。彼らが持つ知見を生かして、項目分割の自動化に取り組んだ。

 それまでに手作業で処理した項目分割データをトレーニングデータにして、「会社のロゴには色が付いている」「Fax番号は一番上にはこない」、といった特徴を機械学習に学ばせて、自動で項目分割をできるようにした。

 精度は完璧ではないが、確度が低いものはアラートを出して人の目も通す。入力内容の確認も含めて、全体の2割は処理過程に人のチェックが入るという。

名刺画像をテキスト化するフロー
名刺画像をテキスト化するフロー

 2014年に項目分割の自動化が可能になり、名刺のデータ化費用は現在3分の1になったという。

 「名刺のデジタル化の過程のすべての単価を出して、1銭単位で改善している」

 取締役CISO/CSIRT主管オペレーション部部長の常樂諭氏はこう説明する。

分析コンテストで新たな発想を求める

 社内の知見を結集して3分の1という大幅削減を達成した一方で、検討範囲が社内の常識にとらわれているかもしれない。そう考えた常樂氏はR&Dに外部の力も取り入れることにした。

 オプトホールディングスが主宰するデータ分析コンペティションのプラットフォーム「DeepAnalytics」上で、「人工知能は名刺をどこまで解読できるのか?!」と題したコンテストを2016年8月8日から9月30日まで実施している。

 架空の名刺を4000枚用意し、実際の利用環境に近づけるためにスマートフォンなどで取り込んだ画像データを提供した。4000枚の大半をトレーニングデータとして利用して、項目分割できるアルゴリズムを開発してもらっている。

 「我々がこれだけ考えてきたので、そのまま組み込める新しいアイデアは出てこないと、ある意味自負しているが、研究開発で一番大事なのは発想の転換。そのネタがもらえるのではないか」と常樂氏は期待している。

 R&Dグループが最終的に目指すのは、データ化の過程でかける人手をゼロにすること。となると、入力をOCR(光学文字認識)で代替することが考えられる。しかし、常樂氏は「名刺のデータ化において、OCRは現状6~8割程度の精度しかない」と言う。一方で「OCRの精度が向上しなくても自動化はできるはずだ」(常樂氏)と語る。

 Sansanは大量の名刺画像をテキストに変換してきた。このノウハウを生かして機械学習を学習させれば、画像を入力すれば内容を示すテキストを引き出せるようになると見込む。

 費用削減というと企業経営における守りの手段にも思えるが、必ずしもそうではない。常樂氏は、「何かやるにしても入力コストがかかるというのが頭の隅にある。これがゼロになるのであればもっと事業展開を加速できるはずだ」と期待をかける。実際、2012年にEightの無料提供に踏み切れたのは、名刺入力コストを低減できていたからという。

 さらなる課題は、データが蓄積されていくにつれて、そのデータをより扱いやすくすることだという。

 「何億枚という名刺データの中から、欲しいデータをいかに抽出するのかは単純なシステムの問題ではなく、研究開発の要素がある」(常樂氏)。精度の高いデータを大量に保有するからこそ、分析によって高い価値を生み出せるはずだ。

この記事をいいね!する