企業にとって膨大なデータの収集・分析は、成長に不可欠な作業になりつつある。ところが多くの企業では肝心の分析より、様々なデータをまとめる「事前準備」に手間とコストが費やされがちだ。国内最大のタクシー配車アプリを運営するJapanTaxi(東京・千代田)は、2019年7月、新たなツール「trocco」を用いて、この課題を乗り越えた。

JapanTaxiのWebサイト
JapanTaxiのWebサイト
[画像のクリックで拡大表示]

 大手タクシー会社の1つ、日本交通のグループ企業であるJapanTaxiは現在、47都道府県にまたがる約900のタクシー会社・約7万台のタクシー車両をネットワークし、2019年12月に900万ダウンロードに達したタクシー配車アプリ「JapanTaxi」を運営する。国内最大のタクシー配車サービス運営会社だ。

 ユーザーは、アプリを介して迎えに来てほしい場所を指定。来られそうなタクシーをアプリ上で探し、必要であれば車両を指定して実際に呼ぶ。やって来て乗車したタクシーの後部座席前に車載タブレット端末が設置されている場合、タブレット付属のカメラがユーザーを撮影し、その性別にふさわしい動画広告を、タブレット端末の画面に配信する。降車時は、同じタブレット端末でQRコードやクレジットカードなどの決済手段で決済できる。

 このため、JapanTaxiには、日々、膨大なデータが集まってくる。ユーザーがアプリ経由で注文したデータや決済データはもちろん、ユーザーの年齢・性別といった属性データやタクシー車両の位置情報、動画広告の配信データ、どれだけ広告が視聴されたかといったデータなど、数え上げれば切りがない。

GCPのBigQueryにデータを集約

 実はJapanTaxiは、主なクラウドサービスである「Google Cloud Platform(GCP)」「Amazon Web Service(AWS、アマゾン・ウェブ・サービス)」「Microsoft Azure(マイクロソフト・アジュール)」を組み合わせたマルチクラウド環境で、業務システムを構築・運用している。データ分析のためには、業務システムから抽出した膨大な量の様々なデータを一カ所にまとめる必要があり、GCPのデータウエアハウスサービス「BigQuery(ビッグクエリー)」に集約していた。

 従来は、オープンソースソフトウエアの「Digdag(ディグダッグ)」と「Embulk(エンバルク)」をデータ連携ツールとして活用していた。しかし、データの規格が異なることもあり、一定の頻度で不具合が発生しがち。しかし、オープンソースソフトウエアなので、不具合が発生したときなどは自社での対応が基本となるため、人手が足らず、手が回らなくなることがあった。このため2018年に、大手ベンダーのツールに切り替え、データ連携とワークフローを管理するようにした。

 ところが、このツールは扱うデータ量に比例して利用料金が増える課金方法だったため、データ量の増加が即、コスト増になって跳ね返ってきた。加えて、「マイクロソフト・アジュールからビッグクエリーにデータを移す際、ベンダーのツールのデータベースを踏み台にするため、そのための開発工程が必要になったり、個人情報の二重管理が必要になったりといった別の課題が明らかになってきた」(JapanTaxi次世代モビリティ事業部モビリティ研究開発グループデータエンジニアの伊田正寿氏)。

primeNumberの「trocco」を選択

 そこで19年になって、再度、データ連携とワークフロー管理のためのツールを見直して分析基盤を構築し直すことを決意した。その際、JapanTaxiが選んだのが、GCPが提供する「Cloud Composer」と、データ活用支援サービスのprimeNumber(プライムナンバー、横浜市)が提供するデータ統合自動化ツール「trocco(トロッコ)」だった。

データソースからデータ集約先へデータを転送する際のtroccoの設定画面。シンプルな3ステップで設定できる
データソースからデータ集約先へデータを転送する際のtroccoの設定画面。シンプルな3ステップで設定できる
[画像のクリックで拡大表示]
データ転送のジョブを実行したtroccoの画面。実際の転送のログが表示されている
データ転送のジョブを実行したtroccoの画面。実際の転送のログが表示されている
[画像のクリックで拡大表示]

 19年4月にPoC(概念実証)を開始。同年5月に契約を交わして、同年7月から本格稼働させた。troccoが提供する、ジョブの実行を制御できるAPI(アプリケーション・プログラム・インターフェース)をCloud Composerに組み込んで全体のワークフローを管理しつつ、troccoを活用して、AWSやマイクロソフト・アジュール上の業務システムのデータソースからデータを抽出して、ビッグクエリーにデータを直接転送できる仕組みを整えた。

 ビッグクエリー上でデータ分析した結果は、BIツール「Tableau(タブロー)」を使って詳細なリポートを作成する。このほかに、営業向けやマーケティング向けなど現場で活用しやすいKPI(重要業績評価指標)については、米国で広がり、日本でも急速に普及しているチャットを使ったコミュニケーションツール「Slack(スラック)」を使って、必要なスタッフに、毎日配信するようにした。

運用コストと時間が約半分。教育コストも低減

 伊田氏は、Cloud Composerとtroccoを使った分析基盤を採用したメリットを3つ挙げる。大手ベンダーのツールを活用していたときと比べ、「第一に運用コストが半分になり、第二にデータソースからビッグクエリーまでデータを転送する時間も約半分になった」(伊田氏)。第三のメリットは、開発コストとスタッフの教育コストの低減だ。「troccoを使うと、データを抽出してくるデータソースのデータベースで動いているSQLで書かれた内容を、どこか別のツールやシステムにコピーしたりせず、そのまま利用できる。このため、無駄な開発コストがかからない。また、ほかのプログラミング言語やツールの利用法を知らなくても、データベースの管理や操作を行う言語SQLさえ理解していれば、データ連携がしやすくなるので、スタッフの教育コストも引き下げられる」(伊田氏)という。

 JapanTaxiでは今後、このデータ分析基盤を、自社の社員はもちろん、ネットワークしている約900のタクシー会社でも利用できるように展開する計画。そのため、タクシー会社向けのBI機能の強化にまずは力を入れる考えだ。

 19年11月には、troccoが機能を強化し、MySQLなどの主要なデータベースのデータに加え、「Google広告」や「Facebook広告」「Yahooスポンサードサーチ」「Twitter広告」といった主要な広告サービスのデータの取り込みにも対応した。JapanTaxiも、従来、分析していたデータに加え、広告関連データまで統合して、分析を進める可能性がありそうだ。

(写真提供/primeNumber)