語彙不一致(Vocabulary mismatch)は自然言語の使用法でよく見られる現象であり、異なる人々が同じものや概念に異なる名前を付けた場合に発生する。

Furnasらは(1987)語彙不一致問題を定量的に研究した研究としておそらく最初の研究である。 [1] 彼らは,同じ分野の専門家であっても,平均80%の割合で同じことを違う名前で示すことを明らかにした。 同じものにつけられる可能性のある名前は通常数十存在する。 この研究は潜在意味解析(Latent Semantic Indexing)に関する研究を促すものとなった。

ユーザ作成クエリとコーパス内の関連文書との間の語彙不一致は、 情報検索において用語の不一致の問題の一因となる。 ZhaoとCallan(2010) [2]はおそらく最初に、情報検索場面における語彙ミスマッチ問題を定量的に研究した。 平均的な質問語が、ユーザの質問に関連する文書の30〜40%に現れていないことを彼らは明らかにした。 また彼らは、この語彙不一致の確率が、基本的な確率的検索モデルの1つである二項独立モデルにおける中心的な確率(central probability)であることを示した。 彼らは、強力なキーワード検索モデルよりも潜在的に50〜80%の検索精度の向上をもたらすことができる新しい用語の重み予測方法を開発した。 この線に沿ったさらなる研究では、エキスパートユーザがBoolean Conjunctive Normal Form expansionを使用して、拡張されていないキーワードクエリと比較して検索パフォーマンスを50〜300%向上できることが明らかにされた。 [3]

ミスマッチを解決する技術

編集
  • ステミング
  • キーワードや抄録だけに索引を付けるのではなく、 全文索引を作成する
  • Indexing text on inbound links from other documents(または他のフォースソノミー)
  • クエリ拡張 専門家が作成した手動の連言正規形クエリを使用したZhaoとCallanによる2012年の研究[3]は、Boolean conjunctive normal formの検索名展開が伝統的な単語展開の複数単語クエリよりもはるかに効果的であることを示しました. Rocchio expansion
  • Translation-based models

参考文献

編集
  1. ^ Furnas, G., et al, The Vocabulary Problem in Human-System Communication, Communications of the ACM, 1987, 30(11), pp. 964-971.
  2. ^ Zhao, L. and Callan, J., Term Necessity Prediction, Proceedings of the 19th ACM Conference on Information and Knowledge Management (CIKM 2010). Toronto, Canada, 2010.
  3. ^ a b Zhao, L. and Callan, J., Automatic term mismatch diagnosis for selective query expansion, SIGIR 2012.