中国発の動画投稿アプリ「TikTok」を運営する北京字節跳動科技(バイトダンス)は2022年10月12日、北京大学と共同で研究開発された古典書籍のデジタル化プラットフォーム「識典古籍」のテスト版を公開したと発表した。現在、同プラットフォームは、390冊におよぶ古典書籍、掲載文字数にして合計3000万字を無料で一般公開中。今後3年間で、AI(人工知能)によるテキストデータの抽出・整理によって、1万冊の書籍の「デジタル化」を進めていく予定だ。

古典書籍デジタル化プラットフォーム「識典古籍」テスト版HPのトップページ(画像はバイトダンスのニュースリリースより)
古典書籍デジタル化プラットフォーム「識典古籍」テスト版HPのトップページ(画像はバイトダンスのニュースリリースより)

 バイトダンスが参考にする統計によれば、中国に現存する古典書籍は約20万冊あり、その中で既に画像データとしての「デジタル化」を完了しているのは8万冊ある。一方で、テキストを識別してテキストデータとして取得する段階まで完了した「デジタル化」を実現しているのは、3万から4万冊しかないという。

 そこで、バイトダンスは2022年3月17日に北京大学教育基金に寄付を行い、「北京大学・バイトダンスデジタル人文開放実験室」の作業を全面的に支援。古典書籍のデジタル化プラットフォーム「識典古籍」を研究開発することで、古典書籍のスマートなデジタルライブラリーを実現させている。

「北京大学・バイトダンスデジタル人文開放実験室」は、オープンで共有可能、かつ高品質な古典書籍のデジタル化プラットフォームを構築している(画像はバイトダンスのニュースリリースより)
「北京大学・バイトダンスデジタル人文開放実験室」は、オープンで共有可能、かつ高品質な古典書籍のデジタル化プラットフォームを構築している(画像はバイトダンスのニュースリリースより)
▼関連リンク(クリックで別サイトへ) 「識典古籍」テスト版HP

「識典古籍」が採用する3つのAI技術とは

 「識典古籍」では、ユーザーがより検索しやすくなるようにするため、AI技術が可能にした3つの機能を実装している。

 1つ目は、光学式文字読み取り装置(OCR)にAIを組み合わせたAI-OCR技術を用い、古典書籍のコピー画像から文字を識別する機能だ。現在業界内では、OCR技術の識別精度は平均で93%から94%が一般的だ。これに対し、同プラットフォームは古典書籍の文章に対し、96%から97%へ向上させることに成功している。

 2つ目は、文章の中で不足している符号を識別し、それを自動で補うAIだ。同プラットフォームは、特定のAIアルゴリズムを通じて、句読点などの符号が不足している古典書籍の文章に対し、自動で符号を打つことができる。例えば、孔子の「論語」開篇の部にある文章の一部「学而時習之不亦説乎」の場合、自動で符号を付記した結果、「学而時習之、不亦説乎?」として出力する。

有料会員になると全記事をお読みいただけるのはもちろん
  • ①2000以上の先進事例を探せるデータベース
  • ②未来の出来事を把握し消費を予測「未来消費カレンダー」
  • ③日経トレンディ、日経デザイン最新号もデジタルで読める
  • ④スキルアップに役立つ最新動画セミナー
ほか、使えるサービスが盛りだくさんです。<有料会員の詳細はこちら>
3
この記事をいいね!する