DBペディア
DBペディア(英: DBpedia)は、ウィキペディアからの構造化コンテントの抽出を目的とするプロジェクトである。抽出された構造化情報は、World Wide Web上で利用可能となる[2]。DBペディアを利用すると、ウィキペディアのリソースおよび外部の関連するデータセットへのリンクから、関係やプロパティを問い合わせることができる[3]。ティム・バーナーズ=リーは、DBペディアはリンクト・データ・プロジェクトの中で有名なものの1つだ、と述べている[4]。
ウィキペディア日本語版の記事を利用したDBpedia Japaneseは、国立情報学研究所によって2012年5月9日に公開された[5]。
開発元 | ライプツィヒ大学、ベルリン自由大学, オープンリンク・ソフトウェア |
---|---|
初版 | 2007年1月23日 |
最新版 |
DBpedia 3.8
/ 2012年8月6日[1] |
リポジトリ | |
プログラミング 言語 | Scala、Java、VSP |
対応OS | ヴィルトゥオーソ・ユニバーサル・サーバ |
種別 | セマンティック・ウェブ、リンクト・データ |
ライセンス | GPL |
公式サイト |
dbpedia |
背景
編集このプロジェクトはオープン・リンク・ソフトウェアとの協力の下、ベルリン自由大学とライプツィヒ大学のメンバーによって開始され[6]、2007年に最初の公開用データセットが公開された。データセットはフリー・ライセンスで提供され、再利用することができる。
ウィキペディアの記事は概ねフリー・テキストから構成されているが、「インフォボックス」(infobox) テーブル、カテゴリ情報、画像、地理座標、外部ウェブページへのリンク、といった構造化情報も記事に組み込まれている。これらの構造化情報が抽出され、問い合わせ可能な統一データセットの中に保存される。
データセット
編集2011年9月[update]、DBペディアのデータセットは364万件以上の事物を扱い、うち183万件が一貫したオントロジーに分類されている。そこには人物416,000件、地理526,000件、音楽アルバム106,000件、映画60,000件、ビデオ・ゲーム17,500件, 組織・団体169,000件、生物種183,000件、そして病気.5,400件が含まれている。DBペディア・データセットは、これら364万件の事物の名前と概要を最大97言語で提供するほか、2,724,000件の画像へのリンクと6,300,000件の外部ウェブ・ページへのリンク、6,200,000件の別のRDFデータセットへの外部リンク、740,000件のウィキペディアのカテゴリ、そして2,900,000件のYAGO2のカテゴリも提供する。このデータセットから、複数ページに分散する情報を抽出することができる。例えば、ある著作者の作品に関するページやその著作者自身に関するページをまとめ上げることができる。
現在DBペディア・プロジェクトは、RDF (Resource Description Framework) を使用して情報を抽出する。2011年9月 現在[update]、DBペディア・データセットは10億件以上の情報(RDFトリプル)から構成され、うち3億8500万件は英語版ウィキペディアから、6億6500万件は他の言語版からそれぞれ抽出されたものである[7]。
ウィキペディアから情報抽出する際の問題の1つは、例えば「出身地」と「出生地」のように、同一概念が複数のテンプレートで異なるプロパティとして表現され得る、ということである。このため、ある人が生誕した場所を問い合わせる場合、より完全な結果を得るためには、それら両方のプロパティを検索する必要がある。このため、これらのプロパティとオントロジーとのマッピングを行い同義語の数を減らすために、DBペディア・マッピング言語 (DBpedia Mapping Language) が開発された。ウィキペディアで使用されているインフォボックスやプロパティは非常に多様であるため、誰でも参加できるように開発とマッピング改善のプロセスは公開されている[8]。
例
編集DBペディアはウィキペディアのページから情報を抽出する。利用者は、多数のウィキペディアの記事に分散している情報に対して問い合わせを行うことができる。データへのアクセスは、SPARQLというRDF用のSQLライクな問い合わせ言語で行う。例えば、日本の少女漫画シリーズの東京ミュウミュウに興味があり、そのイラストレーターによる他の作品を見つけたい場合、DBペディアはウィキペディアの東京ミュウミュウ、征海未亜、そしてスーパードール★リカちゃんや恋きゅー♥といった作品に関する項目から情報を抽出し、1つにまとめる。DBペディアは情報を単一データベースに正規化するため、どの項目がどの情報を持っているか正確に知らなくても、以下のクエリーで問い合わせし、関連情報の一覧を得ることができる。
PREFIX dbprop: <http://dbpedia.org/property/>
PREFIX db: <http://dbpedia.org/resource/>
SELECT ?who ?work ?genre WHERE {
db:Tokyo_Mew_Mew dbprop:illustrator ?who .
?work dbprop:author ?who .
OPTIONAL { ?work dbprop:genre ?genre } .
}
用途
編集DBペディアは人類の知識の広範な領域をカバーするため、そのコンセプトにリンク可能な外部データセットを結び付けるハブとなる[9]。DBペディア・データセットは、ウェブに存在する他の様々なオープン・データ・データセットと、RDFレベルでインターリンクされている。2011年1月 現在[update]、DBペディアと次のような外部データセットとの間に650万件以上のインターリンクが存在している:Freebase、OpenCyc、UMBEL、GeoNames、Musicbrainz、CIAワールド・ファクト・ブック、DBLP、プロジェクト・グーテンベルク、DBtune Jamendo、ユーロスタット、Uniprot、Bio2RDF、アメリカ合衆国国勢調査(US Census)のデータ[10][11]。トムソン・ロイター・イニシアティブ・オープン・クラリス、ニューヨーク・タイムズのリンクド・オープン・データ・プロジェクト、Zemanta API、そしてDBペディア・スポットライトもまた、DBペディアへのリンクを持っている[12][13][14]。BBCは、DBペディアで自社コンテンツの体系化を行っている[15][16]。Favikiは、DBペディアをセマンティック・タギングのために使用している[17]。
Amazonは、Amazon Web Servicesアプリケーションとの統合が可能な「パブリック・データ・セット」をDBペディアに提供している[18]。
脚注
編集- ^ “DBpedia 3.8 released, including enlarged Ontology and additional localized Versions”. DBpedia Blog (August 06, 2012). 2012年10月31日閲覧。
- ^ Bizer, Christian; Lehmann, Jens; Kobilarov, Georgi; Auer, Soren; Becker, Christian; Cyganiak, Richard; Hellmann, Sebastian (September 2009). “DBpedia - A crystallization point for the Web of Data”. Web Semantics: Science, Services and Agents on the World Wide Web 7 (3): 154–165. ISSN 1570-8268 .
- ^ “Komplett verlinkt - Linked Data” (German). 3sat (2009年6月19日). 2009年11月10日閲覧。
- ^ “Sir Tim Berners-Lee Talks with Talis about the Semantic Web”. Talis (7 February 2008). 2012年10月31日閲覧。
- ^ “DBpedia Japanese”. 2013年6月5日閲覧。
- ^ , http://wiki.dbpedia.org/Team+2009年11月23日閲覧。
- ^ “DBpedia dataset”. DBpedia. 2008年9月26日閲覧。
- ^ “DBpedia Mappings”. mappings.dbpedia.org. 2010年4月3日閲覧。
- ^ E. Curry, A. Freitas, and S. O’Riáin, “The Role of Community-Driven Data Curation for Enterprises,” in Linking Enterprise Data, D. Wood, Ed. Boston, MA: Springer US, 2010, pp. 25-47.
- ^ “Statistics on links between Data sets”, SWEO Community Project: Linking Open Data on the Semantic Web (W3C) 2009年11月24日閲覧。
- ^ “Statistics on Data sets”, SWEO Community Project: Linking Open Data on the Semantic Web (W3C) 2009年11月24日閲覧。
- ^ “First 5,000 Tags Released to the Linked Data Cloud”. open.blogs.nytimes.com. (2009年10月29日) 2009年11月10日閲覧。
- ^ “Life in the Linked Data Cloud”. www.opencalais.com. 2009年11月10日閲覧。 “Wikipedia has a Linked Data twin called DBpedia. DBpedia has the same structured information as Wikipedia – but translated into a machine-readable format.”
- ^ “Zemanta talks Linked Data with SDK and commercial API”. blogs.zdnet.com. 2009年11月10日閲覧。 “Zemanta fully supports the Linking Open Data initiative. It is the first API that returns disambiguated entities linked to dbPedia, Freebase, MusicBrainz, and Semantic Crunchbase.”
- ^ “European Semantic Web Conference 2009 - Georgi Kobilarov, Tom Scott, Yves Raimond, Silver Oliver, Chris Sizemore, Michael Smethurst, Christian Bizer and Robert Lee. Media meets Semantic Web - How the BBC uses DBpedia and Linked Data to make Connections”. www.eswc2009.org. 2009年11月10日閲覧。[リンク切れ]
- ^ “BBC Learning - Open Lab - Reference”. bbc.co.uk. 2009年11月10日閲覧。 “Dbpedia is a database version of Wikipedia. It's used in a lot of projects for a wide range of different reasons. At the BBC we are using it for tagging content.”[リンク切れ]
- ^ “Semantic Tagging with Faviki”. www.readwriteweb.com. 2012年10月31日閲覧。
- ^ “Amazon Web Services Developer Community : DBpedia”. developer.amazonwebservices.com. 2009年11月10日閲覧。
関連項目
編集外部リンク
編集- 公式ウェブサイト
- DBpedia Japanese
- TEDの講演ビデオ (Flash Video) - TEDのセマンティック・ウェブに関する講演で、DBペディアを例示しプレゼンテーションするティム・バーナーズ=リー
- DBpedia - Extracting structured data from Wikipedia、LinkedGeodata - Wikimania 2009のDBペディア・プロジェクトに関する講演
- DBpedia: Querying Wikipedia like a Database - World Wide Webカンファレンス デベロッパーズ・トラック(2007年5月11日)でのクリス・バザーの講演
- W3C SWEO Linking Open Data Community Project