20130921(web mining yamaguchi)

3,606 views
3,548 views

Published on

Tokyo Webmining 29th

Published in: Technology
0 Comments
4 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
3,606
On SlideShare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
18
Comments
0
Likes
4
Embeds 0
No embeds

No notes for slide

20130921(web mining yamaguchi)

  1. 1. Linked Open Data と オントロジーのサービス活用 山口高平 @OWLDL 1
  2. 2. Agenda • データマイニングと ビッグデータ人材育成プログラム(H25-H27) • AIの変遷(特に知識型AI) • 日本語Wikipediaオントロジー • LOD (Linked Open Data) • オントロジーとLODを利用したサービス ~道路利用者支援サービス~ ~HRI (Human Robot Interaction)~ 2
  3. 3. 第1世代(1995-2000年前半) データマイニング開発手順 問題設定 ロイヤルカスタマー早期特定 退会者を少なくしたい データの理解 データサイズとマシンスペック 外れ値,欠損値, 設定目標とデータの整合性 データ前処理 欠損値処理,離散化 サンプリング アルゴリズム選択 クラスタリング,相関ルール,決定木学習, 遺伝的アルゴリズム,ニューラルネット... 不 満 足アクション 結果後処理 専門家 による評価 6 13 3
  4. 4. 4 肝炎データマイニング • 提供データセット – 患者基本情報 • 患者のプロフィール – 検体検査結果情報 • 検体検査(血液&尿)の結果 情報 → 院内+外注データ – 肝生検情報 • 肝生検情報(肝炎の進行具 合) – インタフェロン投与情報 • インタフェロンの投与時期 • データの特徴 – 大規模な未整備時系列データ • 最大 160 万レコード • 膨大な数の表記揺れが存在 – 検査項目数が非常に多い • 最大 950 項目 – 時期により検査項目の再現性 が変化&欠損値が多い • 観測機器&医学の進歩 – 医者によるバイアスが存在 • 重病患者には特殊な検査
  5. 5. 5 データ前処理:GPTの8変化パターン
  6. 6. 6 • 予測正答率: 60.90% (21/34), 再現率: 1.43% (21/1470) IF 直前24ヶ月のビリルビンの平均値が高く、TTT(チモール混濁試験)が減少する THEN GPTが減少に転じる GPTは周期的な多少の上下動があるもののほぼ一定と理解してきた。 このルールは、GPTの上下動の転移を説明する可能性があり興味深い。 ウィルス活動・バクテリア増殖の周期性とも関連するのか?
  7. 7. データマイニングの課題 • データ整備はコストがかかる • 他のデータの連携も調べたくなる • マイニング結果の意味を説明しろと言われても • マイニング結果も大量になり絞り込みたい。 • 専門家の壁(主観vs.客観) • 組織の壁 →2000年前半「データマイナーの憂鬱」 →2011年以降「ビッグデータ」 多くの関心 7
  8. 8. スキルと実践を重視したビッグデータ・ イノベーション人材育成プログラム H25.7-H28.3 慶應義塾大学大学院 理工学研究科 システムデザインマネジメント研究科 経営管理研究科 8
  9. 9. 6種類のビッグデータを調査中 納豆菌ゲノム データ(数値) 運転行動 プローブ (時系列 &動画) 位置 情報 人間生活工学 研究センター 静岡県 オープンデータ 国立遺伝 情報学研究所 リクルート 行政データ (数値&画像) IMES コンソーシアム 就職関連情報 ライフスタイル (テキスト &数値) ゴルフグッズ 購入履歴データ (数値&テキスト) ゴルフ ダイジェスト ・オンライン 9
  10. 10. Agenda • データマイニングと ビッグデータ人材育成プログラム(H25-H27) • AIの変遷(特に知識型AI) • 日本語Wikipediaオントロジー • LOD (Linked Open Data) • オントロジーとLODを利用したサービス ~道路利用者支援サービス~ ~HRI (Human Robot Interaction)~ 10
  11. 11. AIの歴史 1956年 ダートマス会議(チェス、定理証明) 探索、推論 1960年~ 第一次AIブーム(単なる期待、Toy Problem) 1970年~ 冬の時代(機械翻訳無理!基礎研究は継続) 1980年~ 第2次AIブーム(知識の時代、 国プロ、産業化、AIベンチャー) 1995年~ 再び冬の時代へ(基礎研究は継続): インターネットの時代へ 11
  12. 12. AIの現在 ①コンピュータの高速化 ②記憶装置の大容量化 ③ネットワーク広帯域化 ④ソフトウェアのオープン(無料)化 に支えられ, AI要素技術(探索,推論,学習,知識)は進歩 2010年~ 第3次AIブーム? AI要素技術の進化と統合(周辺関連技術含む) による 特化された,でも強力なAI の登場 12
  13. 13. ① 探索型AI AIがゲーム・エンターテイメント を変える? 13
  14. 14. 2012.2 AI囲碁 Zen 囲碁はまだまだ! 2012.1 第1回電王戦 故米長元名人vs. ボンクラーズ 1997 AIチェス Deep Blue AIがプロに迫る&超える 10 120 10 220 10 360 14 2013年3~4月 第2回電王戦@ニコファーレ チーム戦(プロ 1勝3敗1分 コンピュータ)
  15. 15. (2) 計測型AI AIが産業構造を変える? 15 無人運転(パターン認識) 2012年 ネバダ州免許 2013年 カリフォルニア州免許 掃除(計画)
  16. 16. (3) 知識型AI AIが情報サービスを変える? 16
  17. 17. ELIZA 人工無能 • 入力文章中のパターンに対して反応 • 会話を理解しているように見せかける、はぐらかす • 事前に用意された定型的な表現の中から応答 • 俺にはみんなが俺を笑っていることはわかっていたんだ → 特に誰のことを考えていますか? • キーワードが見つからない場合 → なぜそう思うのですか? Yuka: 人工無能デモ http://www.simsimi.com/talk.htm 17
  18. 18. エキスパートシステム ユーザ 知識 ベース 知識 獲得 推論 エンジン 作業 領域 対話 I/F 説明 機能 (専門家) 18 ②BRMS ①常識、オントロジー
  19. 19. 2003年 QA Challenge !(1) IBM PIQUANT • 2003~ IBM,PIQUANT (Practical Intelligent Question Answering Technology) プロジェクト ★閉じた問題ではなく、事前に分からないクイズに解答する という開いた悪構造問題に挑戦 深い論理形式分析と浅い機械翻訳ベースのアプローチを統合 この難しい問題にチェレンジするには、AI技術が未熟で、 マシンパワーも不足して、大きな成果はあげられずに終わる。 19
  20. 20. クイズ人工知能 Watson ★大規模知識の獲得(100万冊,2億ページ) 百科事典、辞書、シソーラス、ニュース記事、著作物などを情報源。 自動的にコーパスを拡大。 ★徹底した質問文解析:LAT(Lexical Answer Type)と重要語抽出 ★突出した一つのAI技術ではなく,言語理解,情報検索,不確実性推論,仮説生成, 仮説統合とランキング、機械学習,知識表現(オントロジー),構造化データなど, 100以上の従来AI技術(20年前の技術もある)の集大成 ★精度、確信度、速度を考慮したAIインテグレーション ★計算力:並列計算による計算パワー ★汎用性:Jeopardy Challengeに特化していない。TREC QAにも適用して成功。 ★展開性: 医療、金融、行政、マーケティングにも適用可能 20 東大ロボットプロジェクト 2021年東大入試合格を目 指して http://21robot.org/
  21. 21. 2011 東大入試AI by 情報学研究所 音声アシスタント 意味検索 知識グラフ 2011 クイズAI ワトソン by IBM →最新手術QA ★ 知識型AIからAIサービスへ 21
  22. 22. Agenda • データマイニングと ビッグデータ人材育成プログラム(H25-H27) • AIの変遷(特に知識型AI) • 日本語Wikipediaオントロジー • LOD (Linked Open Data) • オントロジーとLODを利用したサービス ~道路利用者支援サービス~ ~HRI (Human Robot Interaction)~ 22
  23. 23. ①言葉(概念) 分類階層木 ②言葉(=固有表現、 具体物)ネットワーク 23 織田 信長 本能 寺 墓所 濃姫 妻 法華 宗本 門流 日本 の 寺院 建築 物 日本 の神 農民 武士 宗派 1415年 創建年 歴史 上の 身分 神 天文3年5月12日 生誕 豊臣 秀吉 主君 本蓮 寺 宗派 日本 の城 岐阜 城 建立 1347年 創建年 人・もの・ こと分析 分け方 オントロジー
  24. 24. Wikipediaからオントロジー(言葉階層木,言葉の ネットワーク)に自動変換して, 人工物に言葉の意味(Sense)を理解させる →日本語Wikipediaオントロジー 人間には,ウィキペディアの内容(意味) が判るけど人工物(コンピュータ,スマ フォ,ロボット...)には判らない 日本語Wikipediaオントロジー 24
  25. 25. 日本語Wikipediaオントロジー(文学) 25
  26. 26. 26 さらにズームアップ(模式図) 日本の 小説家 小説家 作家 人物 文学 文化 芥川龍之介 文化活動 家族 日本史 の人物 代表作 職業 職業 プロパティ定義域 クラス-インスタンス関係 Is-a関係・プロパティ上位下位関係 トリプル プロパティ値域 日本の 大学 日本の 小説 日本 存命人物 羅生門 蜘蛛の糸 鼻 小説家 塚本文 芥川也寸志 芥川貴之志 短編小説 日本 東京帝国 大学英文科 日本の映 画作品 作曲家 日本のクラ シック音楽 の作曲家 オペラ 作曲家 夏目漱石明治の 人物 明治大学 の人物 門下生 津田青楓 坊っちゃん こゝろ 小説 時代小説・ 歴史小説 作家 誕生 最終学歴 配偶者 子供 著作 国籍 親族 ジャンル 死没 東京都出 身の人物 日本出身 の人物 文庫本 クラス プロパティ インスタンス 俳人
  27. 27. Extracting Ontologies from Japanese Wikipedia by 10 kinds of Heuristics 27 Japanese Literature Ontology from Japanese Wikipedia Susumu TAMAGAWA, Shinya SAKURAI, Takuya TEJIMA, Takeshi MORITA, Noriaki IZUMI, and Takahira YAMAGUCHI: Learning a Large Scale of Ontology from Japanese Wikipedia, 2010 IEEE/WIC/ACM International Conference on Web Intelligence, pp.279-286 (2010) 5. Property Type •Symmetric, Transitivity and Functional 4. Property Domain & Range •Matching the category name and infobox template name 2. Class-Instance Relationship (rdf:type) •Scraping Listing pages 1. Is-a Relationship (rdf:subClassOf) •Matching the character string related to the category hierarchy •Matching the category name and infobox template name •Scraping TOC headings 3. Infobox triple •Scraping Infoboxes
  28. 28. 日本語Wikipediaオントロジー http://www.wikipediaontology.org/ クラス数 162,407 インスタンス数 1,867,071 プロパティ数 25,266 クラスを持つインスタンス数 700,104 is-a関係数(rdfs:subClassOf) 58,954 タイプの数(rdf:type) 1,013,926 定義域関係数(rdfs:domain) 30,533 値域関係数(rdfs:range) 72,308 プロパティ上位下位関係数(rdfs:subPropertyOf) 303 上位下位関係数(jwo:hyper) 274,363 関連語・同義語(jwo:nearly) 258,853 動詞とプロパティの対応数(jwo:verb) 63,670 プロパティトリプル数 10,064,292 Infoboxトリプル数 3,006,812 外部への参照数(owl:sameAs) 1,048,957 28
  29. 29. Agenda • データマイニングと ビッグデータ人材育成プログラム(H25-H27) • AIの変遷(特に知識型AI) • 日本語Wikipediaオントロジー • LOD (Linked Open Data) • オントロジーとLODを利用したサービス ~道路利用者支援サービス~ ~HRI (Human Robot Interaction)~ 29
  30. 30. Linked Data Cloud メディア 地理 政府 生命科学クロスドメイン 出版物 ユーザー生成 コンテンツ 295のデータセット、310億を超えるトリプル 30
  31. 31. LODの具体例 • DBPedia (2007年~) – 英語版Wikipediaから構築され た,LODのハブ的存在 • BBC (2009年~) – 英国放送協会が提供している ニュースとテレビ番組の情報 • News York Times (2009年~) – 蓄積された新聞記事に現れる 人名,組織.団体名,地名, 主題のキーワード約1万字に URIを与えてLODとして公開 31
  32. 32. • Linked Dataのデータフォーマット • リソース記述のためのフレームワーク • シンプルなデータモデル title author pages こころ 夏目漱石 300 book こころ 夏目漱石 300 title author pages <rdf:RDF xmlns:jpfr-t-sec="http://info.edinet-fsa.go.jp/jp/fr/gaap/t/sec/2010-03-11#" xmlns:jpfr-oe="http://info.edinet-fsa.go.jp/jp/fr/gaap/o/oe/2010-03-11#" xmlns:jpfr-t-cns="http://info.edinet-fsa.go.jp/jp/fr/gaap/t/cns/2010-03-11#" xmlns:jpfr-t-cte="http://info.edinet-fsa.go.jp/jp/fr/gaap/t/cte/2010-03-11#" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:jpfr-asr-E00197-000="http://info.edinet-fsa.go.jp/jp/fr/gaap/E00197-000/asr/2010-10- 31/01/2011-01-27#" xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance#" xmlns:link="http://www.xbrl.org/2003/linkbase#" xmlns:xlink="http://www.w3.org/1999/xlink#" xmlns:jpfr-di="http://info.edinet-fsa.go.jp/jp/fr/gaap/o/di/2010-03-11#" xmlns:xbrli="http://www.xbrl.org/2003/instance#" xmlns:iso4217="http://www.xbrl.org/2003/iso4217#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:xbrlowl="http://www.yamaguti.comp.ae.keio.ac.jp/xbrl_ontology/owl#" > <rdf:Description rdf:about="http://info.edinet-fsa.go.jp/jp/fr/gaap/E00197-000/asr/2010-10-31/01/2011- 01-27#jpfr-asr-E00197-000-2010-10-31-01-2011-01-27- TheCessionOfAnObligationIsDisadvantageousOpeCF-Prior1YearConsolidatedDuration"> <rdf:type rdf:resource="http://www.yamaguti.comp.ae.keio.ac.jp/xbrl_ontology/owl#item"/> <rdf:type rdf:resource="http://info.edinet-fsa.go.jp/jp/fr/gaap/E00197-000/asr/2010-10-31/01/2011-01- 27#TheCessionOfAnObligationIsDisadvantageousOpeCF"/> <rdf:type rdf:resource="http://www.yamaguti.comp.ae.keio.ac.jp/xbrl_ontology/owl#TheCessionOfAnObligationIs DisadvantageousOpeCF"/> <xbrlowl:context rdf:resource="http://www.yamaguti.comp.ae.keio.ac.jp/xbrl_ontology/owl#jpfr-asr- E00197-000-2010-10-31-01-2011-01-27-Prior1YearConsolidatedDuration"/> <rdf:value rdf:datatype="http://www.w3.org/2001/XMLSchema#integer">56000000</rdf:value> <xbrlowl:decimal rdf:datatype="http://www.w3.org/2001/XMLSchema#integer">-6</xbrlowl:decimal> <xbrlowl:unit rdf:resource="http://www.xbrl.org/2003/iso4217#JPY"/> </rdf:Description> … http://www.w3.org/RDF/ プロパティ リソース RDF 32
  33. 33. 日本におけるLOD 国立情報学研究所のCiNii (論文,書籍データ) 国立国会図書館のNDLSH (標目データ) LOD.AC (博物館・美術館収蔵品データ) LODチャレンジ 日本語Wikipediaオントロジー 件名(主題表現の統制キーワード)をRDF化 上位、下位、関連件名にSKOSを用いてリンク 日本のWikipediaからオントロジー学習により 大規模なオントロジーを構築. 日本のLODにおけるDBPediaとしての役割が期待されている. 論文や図書・雑誌などの学術情報に関する RDFデータを公開している. 論文1500万件, 書誌1100万件 14館の博物館資料,日本美術シソーラス, 国指定文化財データベース,文化遺産オンライン, 日本語版DBPedia liteから博物館情報を 対象にRDFデータを構築している 一般の応募者からLOD活用のためのアイデア,及び, 実際のLODデータ,LODを利用したアプリケーションを募集している. 2010年~ 2009年~ 2011年~ 2010年~ 2009年~ 33 http://citydata.jp/http://spending.jp/

×