前回第2次AIブームの記事の中で言及したオントロジーについて、詳しく解説します。前回の記事は以下を参照ください。
オントロジーとは何か
オントロジー(Ontology)の説明は非常に難しいですが、誤解を恐れずに簡単に言ってしまえば”知識のネットワークを構築するためのフレームワーク“であると言えるでしょう。我々の世界を記述するために、共通のルールや考え方を提供することが目的です。より簡単に言ってしまえば、知識を記述する際のマニュアル(仕様書)でしょうか。
オントロジーという言葉は元々は哲学用語で、存在とは何かということに関する理論でした。ITの分野においては、エキスパートシステムの開発と保守のコストが高いことを背景に、知識をどのような方法論で体系化するかという研究が進む中で、”特定の領域(ドメイン)内の概念と概念同士の関係性を定式化すること“という意味合いで使われるようになりました。トム・グルーパーによる”概念化の明示的な仕様”という定義が広く受け入れられています。
オントロジーの研究は、エキスパートシステムのための開発と保守のコストが大きい
意味ネットワークでは、継承関係と属性のみが表現されましたが、オントロジーにおいては、更に推論可能性、網羅性、体系性など様々な視点を導入し、より包括的に世界を記述するための方法を探ります。意味ネットワークでは、ある人が哺乳類や人間としての属性を継承していることはわかりますが、それがどういった両親のもとでいつどこで生まれたのかはわかりません。一方で、こういった内容を誰もが自由に記述してしまうと、ネットワーク内での知識の関係性がわからなくなってしまいます。そこでオントロジーでは、語彙・意味・関係性などを他人と共有できるように明確に定義づけておくのです。
オントロジーには、以下の通り2つの大きな流れがあります。
ヘビーウェイトオントロジー
ヘビーウェイトオントロジーとは、人間の哲学的考察のもとに正確に知識を記述して構築されるオントロジーです。後述のライトウェイトオントロジーと比較して、包括性や正確性が要求されるので、労力をかける必要があります。例としてはCycプロジェクトが挙げられます。
Cycプロジェクト
我々の一般常識を、すべて手入力で入力することでヘビーウェイトオントロジーを構築しようとするもの。例えば”ビル・クリントンは、アメリカ大統領の1人です”という常識を”#$isa #$BillClinton #$UnitedStatesPresident”という風にインプットしながらオントロジーを構築していきます。このプロジェクトは1984年に開始され、現在まで続いています。
ライトウェイトウェイトオントロジー
人工知能自身に知識を学習させていくアプローチであり、分類の正当性や完全性を問わず、必要に応じて修正していくことを許容するオントロジーです。例としてはセマンティックwebやLODが挙げられます。以下、関連用語について説明します。
セマンティックweb
元々ウェブページを構成するHTMLは、階層情報は持っていても意味情報は持っていませんでした。セマンティックwebはウェブ上の情報にメタデータを付与することで意味(semantics)を持たせ、構造化データを作り上げるプロジェクトです。
メタデータ
あるデータについてのデータのことで、日本語では付帯情報です。例えば1冊の本について、その本の作者や発行日や出版社などが該当します。
構造化データ
あるデータにメタデータを与えることで、コンピュータが処理しやすい状態にしてあるデータです。これのおかげで、検索エンジンで検索結果が様々表示されるようになっています。
LOD(Linked Open Data)
Linked Dataのうち、オープンなライセンスで公開されているデータで、コンピュータによる処理に適しています。
Linked Data
Web上の他のデータとリンクされている(関係づけられている)データ、もしくはそのようなデータの在り様のことです。
コメント