「日本語文書の構造化技術」×「AI技術」で生まれた
DNP独自の「構造化AI」

多くの企業が生成AIを業務に活用する試みを進めていますが、回答精度の低さが課題となっています。この課題を解決し、生成AIの利活用をブレークスルーする起爆剤として注目されているのが「日本語文書の構造化技術」です。DNPはこの技術をAIで自動化する「構造化AI」を開発し、生成AIの誤回答を90%削減することに成功しました。 生成AIの業務利用でお悩みの方はぜひご覧ください。

2024年4月時点の情報です。


ABセンター 事業開発ユニット 事業開発部
宮内孝和

生成AIは業務で使えない? 業務利用には「回答精度80%以上」が必要

近年、ビジネスの現場では、業務の効率化や品質の向上をめざして、生成AIの導入が進んでいます。生成AIは、顧客対応から文書作成、データ分析まで、あらゆる業務に革新をもたらす可能性を秘めています。しかし、この革新的な技術を取り入れようとする企業の多くが直面しているのが、回答精度の低さです。
生成AIには、画像、動画、文章、音声など、さまざまな種類があります。なかでも文章生成に関しては、結果が正しいかどうかが明確になるため、回答精度の高さが重要です。企業では、社内規定や業務マニュアル、契約書、約款などの業務関連文書を生成AIに学習させ、ユーザーの質問に対して適切な回答を返す仕組みを構築することで、業務効率化や情報共有を図ろうとする取り組みが盛んに行われています。回答精度を上げるためには、生成AIが参照するデータベースに、“正しい情報をAIが理解できる形”で格納する必要があるため、ファインチューニングやラグといった手法が試みられています。しかし最近、それだと期待する成果が得られないことがわかってきました。よく聞かれるのが、「50~55%の回答精度では業務で使えない」という声です。
業務で使えるレベルの目安とされる「80%以上の回答精度」にはほど遠く、従来型のルールベースやロジック型のFAQで十分と考える企業もあるでしょう。この“回答精度の壁”を超えていかなければ、企業における生成AI活用のムーブメントが失われてしまう可能性があると指摘されています。

「構造化AI」についての特長解説を行う宮内氏

誤回答を90%削減! 「日本語文書の構造化技術」でブレークスルー

この“回答精度の壁”は、日本語の特殊性にあると考えられます。単語と単語の切れ目がわかりづらく、敬語の使い分けや同音異義語の存在、複雑な文脈など、AIにとって日本語は理解しにくい言語です。また、業務文書では専門用語や企業固有の表現が頻出することに加え、ファイル形式やレイアウトもさまざまです。結果として、生成される回答に誤りが含まれたり、質問の意図を正確に理解できないことがしばしば起こります。
このような日本語文書の特殊性、多様性をふまえた上で、生成AIの真のポテンシャルを引き出すカギは、「構造化技術」にあります。
生成AI活用における構造化技術とは、文書などの情報やデータをAIが理解しやすい形に整理する技術です。文章だけでなく、表や図、リストなどの情報も含め、それぞれの要素がどのような関係にあり、何を意味しているのかをAIが把握できるようにすることで、より正確な回答が生成できるようになります。
日本語文書における構造化技術は、特に重要です。日本語の複雑さを考慮すると、AIに文書を「読ませる」だけでなく、「理解させる」ことが必要です。構造化技術を活用することで、文書内の細かなニュアンスや文脈もAIに理解させることが可能になり、回答精度は大幅に向上します。
構造化技術を導入したトライアル事例では、生成AIの誤回答を90%削減することに成功しました。残りの10%については、ウソや誤答といったハルシネーションが残ってしまったわけではなく、必要な要素が一部不足していたということで部分点の扱いです。こうした部分的な回答でも、正しい情報提供が可能になるのは、構造化によるメリットの一つでもあります。
日本語文書の構造化技術は、生成AIの業務利用における回答精度の問題を解決するカギとなります。しかし、この技術の導入には、文書をどのようにAIが理解しやすい形に整理するか、そのための知見が不可欠です。

非構造化データを構造化データに変換するDNP独自技術

日本語文書の構造化と最新AI。両方の知見を持つDNPだからこそできた「構造化AI」

DNPは、紙媒体などの印刷からデジタル情報の処理まで、幅広い情報処理技術を有しています。特に、日本語文書の構造化技術については、30年以上にわたって研究し、進化させてきました。当初、辞書の情報をデータベースに登録したり、デジタル媒体に活用したりするためのシンプルな文字情報の構造化から始まり、現在はさまざまな種類の文書を扱えるようになっています。例えば、試験問題や論文などのように図や表が含まれ、また、レイアウトも多種多様な文書では、単なるテキストの読み取り以上の処理が必要となります。このように複雑な日本語文書を構造化する技術は、DNP独自のものです。
一方、生成AIをはじめとするAIの研究は2016年 ごろからスタートし、機械学習や音声合成、コンピュータビジョンなど、さまざまなAI技術を活用したサービス、ソリューションも開発してきました。2023年末には、生成AIによる新たな価値創出をめざす「生成AIラボ・東京」を開設し、社外のパートナーとの共創によるプロトタイピングやユースケースの蓄積、デモ開発などに精力的に取り組んでいます。
この「日本語文書の構造化技術」と「生成AI技術に関する最新の知見」を掛け合わせることで生まれたのが、DNPの「構造化AI」です。構造化AIは、日本語文書を生成AIが理解できる形に、自動で構造化する技術です。数百ページのファイルであっても、構造化処理を1日未満で完了させ、1週間程度でクレンジングまで終えることが可能です。構造化AIの精度はすでに高いレベルにあり、構造化したデータを生成AIが参照するデータベースに登録することで回答精度は飛躍的にアップします。
構造化AIは、多くの文書を正確に読み取ることができるものの、矢印やフローチャート、画像が多用された文書など、特殊なレイアウトの文書に対する処理は今後の研究開発の課題です。これらの課題に対処することで、構造化AIの活用範囲をさらに広げていきたいと考えています。

整形データを学習していない生成AI(左下)と学習した生成AI(右下)との回答例の比較

人間とAIの共創による新たな価値創出を

DNPの構造化AIは、日本語文書の複雑さを克服し、生成AIの回答精度を高めます。今後、構造化AIの利用が拡大することで、企業や社会における生成AIの利活用も加速するでしょう。将来的には、世の中に流通するすべてのドキュメントが構造化され、あらゆることに生成AIが回答できる時代が来るかもしれません。その兆しと言えるかどうかわかりませんが、あるお客さまからは「ドキュメントを構造化し、生成AIの学習に適した形にするためのコンサルティングをお願いしたい」というご相談もありました。人間がわかりやすいことよりも、AIがわかりやすいドキュメントを優先するとなれば、一種のパラダイムシフトです。
このような技術の進歩は、人間の仕事を大きく支援し、より効率的な働き方を可能にします。生成AIの活用によって時短と生産性の向上が実現し、人間はより戦略的な業務や創造的な活動に時間を割けるようになるでしょう。例えば、AIが文書の整理や情報抽出を担い、人間はその情報をもとに新たなアイデアを生み出したり、戦略を練ったり、あるいは、人と会ったり、体験したりということが今以上にできるようになります。これは、単なる業務効率化を超え、新たな価値創造の機会を生み出すことを意味します。
構造化AIのさらなる発展には、人間中心のアプローチが不可欠です。AI技術の目的は、人間の能力を拡張し、より豊かな生活や働き方を実現することにあります。この観点から、DNPはAI技術の研究開発を進めると同時に、その技術が人間のニーズに応え、利便性や満足度を高めるものであることを重視しています。そして、人間とAI技術がともに成長し、共創する未来を築いていきたいと考えています。

関連ページ

■大日本印刷と大阪市 生成AIに適したデータのあり方を検討する連携協定を締結

■生成AIの回答精度を向上させる独自のデータ整形技術を開発

■DNPの生成AIの取組み



未来のあたりまえをつくる。®