固有表現抽出

固有表現抽出（こゆうひょうげんちゅうしゅつ、英語: named entity recognition、named entity identification、named entity chunking、named entity extraction）とは、計算機を用いた自然言語処理技術の一つであり、情報抽出の一分野である。文中から固有表現 (Named Entity) を抽出し、それを固有名詞（人名、組織名、地名など）や日付、時間表現、数量、金額、パーセンテージなどのあらかじめ定義された固有表現分類へと分類する。

目的

新聞記事など現実世界に存在するテキストには大量の固有表現 (Named Entity) が含まれている。形態素解析などを行なう際、それらの固有表現は辞書に登録されていない場合、未知語として扱われ、解析の誤りを起こす。そのため、様々な固有表現を辞書に登録する必要があるが、前述の通り、現実のテキストには大量の固有表現が存在し、人手でそれらを登録することは困難である。

この問題を解決するため、計算機によって大量のテキストから固有表現を自動的に抽出する技術が生まれた。

歴史

固有表現という概念と固有表現抽出が提唱されたのは、1990年頃アメリカ合衆国のDARPAが組織した評価型プロジェクト MUC (Message Understanding Conference) においてであるとされる。

日本国内においては情報抽出・情報検索の評価型ワークショップである IREX (Information Retrieval and Extraction Exercise) における情報抽出の共有タスクの一つとして出題された。

具体例

太郎は5月18日の朝9時に花子に会いに行った。

という文に含まれる固有表現を抽出すると以下のようになる。

<PERSON>太郎</PERSON>は<DATE>5月18日</DATE>の<TIME>朝9時</TIME>に<PERSON>花子</PERSON>に会いに行った。

ここで、<..></..>で囲まれた部分が固有表現であり、<..>は表現の分類を示すタグである。 <PERSON>は人名、<DATE>は日付表現、<TIME>は時間表現を示す。

手法

固有表現分類

具体例に示したように、固有表現には人名や日付表現など幾つかの分類があり、この分類を定義する必要がある。

MUCでは、組織名 (ORGANIZATION)、人名 (PERSON)、地名 (LOCATION)、日付表現 (DATE)、時間表現 (TIME)、金額表現 (MONEY)、割合表現 (PERCENT) の7種類を定義した。

IREX では MUC の分類に固有物名 (ARTIFACT) を加えた全8種類の分類を採用した。

これらの分類にはそれらの範囲について曖昧性などの問題がある。ニューヨーク大学の関根聡らは MUC・IREX の固有表現分類を元に拡張固有表現階層 (Extended Named Entity Hierarchy) を提唱している。これは他の分類と異なり階層構造を持ち、様々な粒度での分類を可能にしている。

入手可能な日本語の固有表現抽出エンジン

商用システム

固有表現抽出API（gooラボ）、gooラボ by NTTレゾナント

オープンソース

Apache OpenNLP 2018年7月リリースで日本語対応（商用利用可能）株式会社ロンウイットのアナウンス
spaCy/GiNZA (MITラインセンス) オージス総研の解説記事
CaboCha (LGPL/BSDライセンス) 付属の訓練済みモデルは研究目的のみ(毎日新聞データ使用許諾)

参考文献

Ralph Grishman and Beth Sundheim. Message understanding conference - 6: A brief history. In In Proceedings of COLING-96, 1996.
Satoshi Sekine and Hitoshi Isahara. IREX: IR and IE evaluation project in Japanese, 2000.
Satoshi Sekine, Kiyoshi Sudo, and Chikashi Nobata. Extended named entity hierarchy. 2002.