2019年7月18日、イースト株式会社はテキストPDFからの構造化テキストの抽出に成功し、この技術を利用して岩波新書のEPUB化を開始したことを発表しました。
イースト株式会社のプレスリリースによると、この技術により、PDFに目次頁、大見出し、小見出しなど若干のマーク付けし、構造化されたマークダウン(簡易HTML)形式のテキストとキャプション文字を組み込んだ図版の画像ファイルを生成、日本電子書籍出版社協会のガイドに準拠したEPUBファイルの抽出ができる、とされています。
イースト株式会社はこの技術について、日本語の複雑に組版されたPDFからの正確な構造化テキスト抽出は世界初と目されており、新書、文庫、一般書、学術書などの出版物、学術論文、そして深層学習(AI)に投入する社内ドキュメントの構造化など、様々な分野への応用が期待される、としています。
この技術は2019年7月31日に日本電子出版協会主催のセミナーで公開され、8月8日午後に同社内で個別セミナーが開催される予定です。
イースト、 PDFからの構造化テキスト抽出に成功、岩波新書をEPUB化(イースト株式会社,2019/7/18)
https://www.est.co.jp/press/190718
参考:
イースト株式会社、EPUB3.0対応のWindows用リーダー“espur”(エスパー)を無償公開
Posted 2011年7月6日
http://current.ndl.go.jp/node/18607
イースト株式会社、「EPUBチュートリアル」「EPUB実装ガイド」等を公開
Posted 2011年4月1日
http://current.ndl.go.jp/node/17913
PDF Association、PDFフォーマットでの電子メール保存に関する調査プロジェクトへの参画を発表
Posted 2019年7月18日
http://current.ndl.go.jp/node/38616