記載必要項目の抽出と文章作成支援【教師あり機械学習と情報抽出技術と辞書を利用した文章改善】

2022.09.16 By 鳥取大学 工学研究科

情報

技術概要

必要な事柄の記載が欠けた文章を改善支援する文書エディターの開発に役立ちます。

用途・応用

文書群における記載必要項目の好適検出

背景

 従来の情報抽出技術として、例えば、下記の特許文献1には、ある分野に関連する文書群から自動で複数の情報の対(例えば、複数の数値情報の対)を抽出する情報抽出装置、情報抽出方法及び情報抽出フログラムが開示されている。

 また、下記の特許文献2には、文書群から自動で項目表現と固有表現の対を抽出する情報抽出装置、情報抽出方法及び情報抽出プログラムが開示されている。

 また、下記の特許文献3には、記憶装置に記憶されるテキスト文書群から有用な情報を抽出することを実現するときに、その有用な情報をノイズ情報の影響を受けることなく抽出できるようにする新たな情報抽出技術が開示されている。

 また、下記の非特許文献1には、大規模な文書群から数値固有表現情報を取り出し、様々な重要な情報を含むグラフや表を半自動で作成するシステムが開示されている。

 また、下記の非特許文献2には、教師あり機械学習を用いて自然言語処理の論文アブストラクトから重要な情報を自動的に抽出する方法であって、重要な情報を抽出するために教師データとなるタグ付けデータを作成し、それを用いて教師あり機械学習により重要な表 現 を 抽 出 す る 方 法 が 開 示 さ れ て い る 。

【先行技術文献】
【特許文献】
【 特 許 文 献 1 】 特 開 2008‑21052
【 特 許 文 献 2 】 特 開 2008‑287388
【 特 許 文 献 3 】 特 開 2009‑237640
【非特許文献】
【非特許文献1】村田、岩立、一井、馬、白土、金丸、塚脇、井佐原:「大規模文書群からの数値固有表現情報のテキストマイニング可視化システム」、社団法人情報処理学会研究 報 告 、 2008‑NL‑184
【 非 特 許 文 献 2 】 村 田 、 Stijin、 橋 本 、 風 間 、 山 田 、 黒 田 、 馬 、 相 澤 、 島 澤 : 「 論 文 デ ータ か ら の 重 要 情 報 の 抽 出 と 可 視 化 」 The 23rd Annual Conference of the Japanese Society for Artificial Intelligence, 2009

課題

 しかし、これらの文献では、文書中から情報対を抽出する方法や、それらを利用して自動的にグラフ等を生成する方法について開示されてはいるが、ユーザーの文書作成を支援するためにはいずれも不十分である。確かに、これらの技術は文書中から重要な情報を抽出することは可能であるが、数値情報の対や固有表現等を機械的に利用するのみであり、それらが真に重要な情報であるかは実際に人間の目で確認することが望ましいことは言うまでもない。特に、文書の種類毎に記載すべき項目である記載必要項目は、これらの技術を利用しても特定することは不可能である。

 本発明はこのような事情に鑑みてなされたものであり、従来では検討すらされていなかったコンセプトである「文書中の記載必要項目の有無を判定し、ユーザーに提示することで文書作成を支援する」ことを実現すべく、ユーザーによる文書の作成を支援するための文書解析装置、プログラムを提供するものである。

手段・効果

 本発明によれば、被解析文書由来の被解析データを取得する被解析データ取得部と、前記被解析文書の種類に対応した記載必要項目の有無に関する判定基準データを取得する判定基準データ取得部と、前記被解析データと前記判定基準データとを用いて、前記被解析文書中における前記記載必要項目に関連する要求データの有無を判定する判定部と、前記判定部の判定結果を出力する出力部と、を有し、前記判定部は、前記被解析文書の種類に関連する属性データに基づいて、前記被解析文書の種類毎に定められた前記記載必要項目に関する要求データを前記判定基準データから取得し、前記取得した要求データと前記被解析データとを用いて、前記被解析文書中における前記要求データの有無を判定する、文書解析装置が提供される。

問い合わせ・詳細資料閲覧

特許情報詳細や資料のダウンロード等については無料会員登録後に閲覧していただけます。

本研究に関するご質問や、話を聞いてみたいなどご興味をお持ちになりましたら、是非お気軽に以下のフォームにお問い合わせください。

特許情報

特許第6535858号

JPB 006535858-000000