33
オントロジー

オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

オントロジー

Page 2: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

知識工学とセマンティックWebにおける

オントロジーの研究開発

知識工学 1991-現在

• 概念化の明示的仕様 (Tom Gruber オントロジーの定義)

• オントロジー記述言語(Ontolingua)

• 知識交換言語(KIF)

• PSM

• Task Ontology

• Generic Ontology

• CYC, WordNet, EDR…

• オントロジー構築方法論

セマンティックWeb 1997-現在

• 95-97: XML as arbitrary

structures

• 97-98: RDF

• 98-99: RDFS

• 00-01: DAML+OIL

• 2004.2.10: OWL

• 2009.10.27: OWL2

• 2010.6.22: RIF

Page 3: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

オントロジーとは?

• 情報系のオントロジーは,哲学のオントロジーとは異なる

• 概念(化)の明示的仕様

– concepts

– properties and attributes of concepts

– constraints on properties and attributes

– Individuals (often, but not always)

• カタログ – Amazon.com product catalog

• タキソノミィ(Taxonomies) – Yahoo! categories

• ターミノロジィ – Unified Medical Language System (UMLS)

– UNSPSC - terminology for products and services

Page 4: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

オントロジーの形式度

• 非形式的

• 準非形式的

• 準形式的

• 形式的

:自然言語で自由に表現されるもの

:人工の形式言語で表現されるもの

:健全性や完全性を持つ形式的意味

論によって定義されたもの

:制限付き構造化された形式の

自然言語で表現されたもの

Page 5: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

オントロジーの分類

• 3つの軸による分類

形式度 情報量

汎用性 固有性

General

Generic

Specific

1st Level 2nd

Level 3rd Level

Light Weight Middle

Weight Heavy Weight

• General 最も一般的なレベル • Generic 対象領域があるが やはりかなり一般的 • Specific 特定領域に固有

各レベルの 情報を利用して 切り分けを 明確にする

Page 6: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

①言葉(概念) 分類階層木

②言葉(=固有表現、具体物)ネットワーク

6

織田信長

本能寺

墓所

濃姫 妻

法華宗本門流

日本の

寺院

建築物

日本の神

農民 武士

宗派

1415年

創建年

歴史上の身分

天文3年5月12日

生誕

豊臣秀吉

主君

本蓮寺

宗派

日本の城

岐阜城

建立

1347年

創建年

人・もの・ こと分析

分け方

オントロジー

2016/4/26

Page 7: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

Wikipediaからオントロジー(言葉階層木,言葉のネットワーク)に自動変換して,

人工物に言葉の意味(Sense)を理解させる

→日本語Wikipediaオントロジー

人間には,ウィキペディアの内容(意味)が判るけど人工物(コンピュータ,スマフォ,ロボット...)には判らない

日本語Wikipediaオントロジー

2016/4/26 7

Page 8: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

日本語Wikipediaオントロジー(文学)

2016/4/26 8

Page 9: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

9

さらにズームアップ(模式図)

日本の 小説家

小説家

作家

人物

文学

文化

芥川龍之介

文化活動

家族

日本史の人物

代表作

職業

職業

プロパティ定義域

クラス-インスタンス関係

Is-a関係・プロパティ上位下位関係

トリプル

プロパティ値域

日本の 大学

日本の 小説

日本

存命人物

羅生門 蜘蛛の糸

小説家

塚本文

芥川也寸志

芥川貴之志

短編小説

日本

東京帝国

大学英文科

日本の映画作品

作曲家

日本のクラシック音楽の作曲家

オペラ 作曲家

夏目漱石 明治の人物

明治大学の人物 門下生

津田青楓

坊っちゃん こゝろ

小説

時代小説・歴史小説作家

誕生

最終学歴

配偶者

子供

著作

国籍

親族

ジャンル

死没

東京都出身の人物

日本出身の人物

文庫本

クラス

プロパティ

インスタンス

俳人

2016/4/26

Page 11: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

An Ontology Spectrum

Page 12: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

General Ontology

• WordNet(プリンストン大学で開発.名詞が

約10万語.IS-A,HAS-Aが定義.フリー)

http://www.cogsci.princeton.edu/cgi-

bin/webwn

• CYC(米国MCCで開発)

• EDR(日本電子化辞書)

Page 13: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

WordNet • 10万語以上の概念を体系化(General)

• is-a,has-a関係など

• 計算機で利用可能

Page 14: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

WordNet

• http://wordnet.princeton.edu/

• 最新版:ver.3.0 for Unix-like system

– Windows版はver.2.1

• 約11万7千のsynset(同義語の集合)

• 約15万語(名詞,動詞,形容詞,副詞)

• synset間には,品詞ごとにいくつかの関係が定義されている

Page 15: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

WordNet: synset(名詞)間の主な関係

• hypernym

– X hypernym Y → XはYの上位概念(synset)

• hyponym

– X hyponym Y → XはYの下位概念(synset)

• holonym

– X holonym Y → XはYを持つ(has-a)

• meronym

– X meronym Y → XはYの一部(part-of)

Page 16: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

product: 名詞に関して6つのsynset(意味)が定義されている

キーワードを入力

Page 17: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

WordNet (オントロジーサンプル)

Page 18: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

Cyc • 世界最大の知識ベース

– 2007年現在,約20万概念の定義,100万以上の主張を記述

• マイクロ理論 (microtheories)

– 部分世界の内部だけで整合性を保持

• OpenCyc

– Cycのオープンソース版

– http://opencyc.org/

– 試用版: • http://www.yamaguti.comp.ae.keio.ac.jp:3602/cgi-bin/cyccgi/cg?cb-

start

Page 19: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

OpenCycの特徴 • 固有の用語は「#$」ではじまる

• 「#$is-a」関係はinstance-ofを意味する

• 「#$genls」関係はis-a関係を意味する

• 「Mt」はマイクロ理論( microtheories )の省略

• WordNetのsynsetとの対応関係を定義

– Mt : WordNetMappingMt のsynonymousExternalConcept

• OpenCyc KB Browser

– sourceforge.netからダウンロード可能

– Windows版とLinux版

Page 20: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の
Page 21: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

EDR電子化辞書の概念

・識別子 ・日本語と英語の 見出しの集合 ・意味(説明) ・読み ・品詞

概念

電子計算機 コンピュータ コンピューター 電算機

computer brain box

computery electronic brain

電子回路を用いて計算,判断,記憶などを自動的に行う装置

an electronic device that speedily and automatically performs calculations, makes judgments and memorizes large amounts of information

コンピュータという概念

概念A

概念B

概念C

概念D

0ffcb7

Page 22: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

EDR概念体系辞書:is-a関係

学生

職業で捉えた人間

役割で捉えた人間

人間

生命体

Page 23: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

EDR概念記述辞書:その他の関係

• object: 動作・変化の影響を受ける対象 – 食べる—object→りんご

• agent: 有意志動作を引き起こす主体 – 食べる—agent→父

• goal: 事象の主体または対象の最後の位置 – 行く—goal→東京

• implement: 有意志動作における道具・手段 – 切る—implement→ナイフ

• a-object: 属性をもつ対象 – 赤い—a-object→トマト

• place: 事象の成立する場所 – 遊ぶ—place→部屋

• scene: 事象の成立する場面 – 演じる—scene→ドラマ

• cause: 事象の原因,理由 – 死んだ—cause→インフルエンザ

動詞的概念が名詞的概念を 支配する場合の格関係を中心に 8種類の概念関係を記述

Page 24: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

25

医療分野のオントロジー:SNOMED-CT

すべての概念は「SNOMED CT Concept」

という最上位概念の下位概念になっている

SNOMED CT Concept

所見 Finding 疾患 Disease 処置 Procedure ・・・・・

• 「所見」「疾患」「処置」などの最上位概念のすぐ下の概念を、「カテゴリー」と呼び、全部で19種類ある。

すべての概念(34万)はいずれかのカテゴリーに属する

19のカテゴリー

Page 25: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

26

ビジネスプロセスオントロジー

Process Handbook (MIT)

商品を販売する サービスを販売する

販売する

何を売るか(What)で具体化

店舗で販売する ネットで販売する

店で販売する

どのように売るか(how)で具体化

Modifyを体系化

Page 26: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

対象と目的の明確化

評 価

オントロジーの構築

既存のオントロジーの統合

獲 得

コーディング

オントロジー開発手順(1996)

Page 27: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

オントロジー開発手順 (現在)

determine

scope

consider

reuse

enumerate

terms

define

classes

define

properties

define

constraints

create

instances

オントロジー検索エンジン

SWOOGLE

WATSON

Linked Open Data (LOD)

Search Monkey

(Enhanced Results)

オントロジー

構築方法論

学習

照合

上位オントロジー

Wikipedia-Ontology

Page 28: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

オントロジー開発手順 (現在)

1.Scope決定(利用目的,タスク:検索改善、KM、QA…)

2.再利用(ワードネット,オントロジー検索エンジン)

3.用語枚挙(自然言語処理)

4.クラス定義

5.プロパティ定義:テーマによって標準的語彙がある

6.制約定義

7.インスタンス定義

8.Scopeから考えて4-7は妥当か? Go to 4

determine

scope consider

reuse enumerate

terms define

classes define

properties define

constraints create

instances

Page 29: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

Ontologies: Vocabulary (= Standard Property Set)

XML: Name Space Prefix, DB: Metadata

rdf http://www.w3.org/1999/02/22-rdf-syntax-ns#

rdfs http://www.w3.org/2000/01/rdf-schema#

owl http://www.w3.org/2002/07/owl# SKOS http://www.w3.org/TR/skos-reference/

dc http://purl.org/dc/elements/1.1/ 書誌

OAI-ORE: http://www.openarchives.org/ore/ アーカイブ

vCard: http://www.w3.org/Submission/vcard-rdf/ カード

rev http://dannyayers.com/xmlns/rev/# 評価

foaf http://xmlns.com/foaf/0.1/ 人

SIOC: http://rdfs.org/sioc/spec/ オンラインコミュニティ

geo http://www.w3.org/2003/01/geo/wgs84_pos# 位置

gn http://www.geonames.org/ontology# 地理

gr http://purl.org/goodrelations/v1# 商品

Music http://musicontology.com/ 音楽 PO http://purl.org/ontology/po/ メディア DOAP: http://trac.usefulinc.com/doap プロジェクト

wikiont_class http://www.yamaguti.comp.ae.keio.ac.jp/wikipedia_ontology/class/

wikiont_property http://www.yamaguti.comp.ae.keio.ac.jp/wikipedia_ontology/property/

ldc※ http://www.yamaguti.comp.ae.keio.ac.jp/ld/class/

ldp※ http://www.yamaguti.comp.ae.keio.ac.jp/ld/property/

Page 30: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

DC(Dublin Core) プロパティ 書誌語彙 http://dublincore.org/documents/dcmi-terms/

title リソースに与えられた名前

description リソースに関する説明

date リソースのライフサイクル中の出来事に関連する日時もしくは期間

creator リソースの作成*に主たる責任を持つ実体

contributor リソースへの協力、貢献に責任を持つ実体

publisher リソースを利用可能にすることに責任を持つ実体

type リソースの性質もしくはジャンル

format ファイル形式、物理メディア、リソースのサイズなど

language リソースの言語

identifier ある文脈における、リソースへの曖昧さのない参照

rights リソースに適用される権利に関する情報

relation 関連するリソース

source リソースの派生元リソース

subject リソースのトピック

coverage リソースの空間的あるいは時間的トピック、or適用対象、リソースが有効となる地域など

Page 31: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

geo(GeoVocabulary) 位置語彙 http://www.w3.org/2003/01/geo/wgs84_pos#

SpatialThing 空間を表現

TemporalThing 時間を表現

Event ある特定の日時に開催されるイベント

Point ある地点を表現

lat 緯度

time 日時

location ある特定の地点などとの関係を表現

long 経度

alt 標高

lat_long 緯度経度(カンマで分けて表現)

Page 32: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

geonameid GeoNamesID

name 地理名称

asciiname 地理名称(ASCIIコードで表現)

alternatenames 代替名称

latitude 緯度

longitude 経度

featureClass see http://www.geonames.org/export/codes.html

featureCode see http://www.geonames.org/export/codes.html

countryCode 国名ID

cc2 代替国名ID

population 人口

elevation 海抜

gtopo30 900m×900m毎の平均海抜

timezone タイムゾーン

modification date 修正日時

locatedIn どこに位置するか表現

nearby 近くに何があるか表現

gn(GeoNames) 地理語彙 http://www.geonames.org/ontology#

Page 33: オントロジー...SNOMED CT Concept 所見 Finding 疾患 Disease 処置 Procedure ・・・・・ • 「所見」「疾患」「処置」などの最上位概念のすぐ下の

geo(GeoVocabulary) 具体例