Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

第1回ナレッジグラフ推論チャレンジ2018開催報告~ 第2回チャレンジ開催案内~

359 views

Published on

JSAI2019@新潟(2019/6/4)での発表資料.

Published in: Technology
  • Be the first to comment

  • Be the first to like this

第1回ナレッジグラフ推論チャレンジ2018開催報告~ 第2回チャレンジ開催案内~

  1. 1. 第1回ナレッジグラフ推論チャレンジ2018開催報告 ~ 第2回チャレンジ開催案内~ 1
  2. 2. 本日の発表 第1回推論チャレンジ2018の振り返り (農研機構・JST 川村) ➢ チャレンジの概要 ➢ 応募作品の紹介 ➢ 評価・分析 第2回推論チャレンジ2019の開催概要(大阪電通大 古崎) ➢ スケジュール ➢ ナレッジグラフ構築について(改良点) ➢ 対象とする小説・タスク 2
  3. 3. 開催概要 チャレンジの狙い ➢ 説明可能性(解釈可能性)を有するAI技術に関する最新技術の促進・共有と, その分析・評価,体系化を行う. ➢ 特に,現実社会を反映したより複雑な,例えば時間的,因果関係的,確率的関 係性を含む問題を扱うため,帰納的な機械学習(推定)と演繹的な知識活用 (推論)を融合したAI技術を対象とする. チャレンジタスク ➢ 推理小説のナレッジグラフ (シャーロックホームズの短編小説) を対象に, ホームズと同じ結論に辿り着き,その理由を説明する. ✓ 現実社会の複雑な関係性を含みながら仮想的にクローズな(答えがあり,それに至る制約を制御で きる)タスクを設計できる ✓ タスクによっては不確実情報や証拠写真など確率的な処理や機械学習を入れないと解けなかった り,陽に書かれていない常識知識を補完しなくては解けない等,推定と推論の融合を促せる ✓ 読者が納得しないと小説として成立しないという人間に対する説明性を有している, ✓ 小説が広く一般に知られており関心を引きやすい,など ➢ 但し,第4回チャレンジ以降は社会問題解決に関するベストプラクティス集なども予定 3
  4. 4. 推理小説のナレッジグラフ化の方針 ナレッジグラフの要求仕様 ➢ 犯人を推論(推理)するのに必要な知識を提供する ➢ 「推理小説」で描かれる様々な状況を,できるだけ統一的な形式で 計算機処理(検索・推論・etc.)可能にする ナレッジグラフ化の基本方針 ➢ 「推理小説」の内容を,最小単位の場面(シーン)に分割 →場面ごとにID(IRI)を付与 ➢ 各場面の記述内容および場面間の関係をグラフ化 →グラフ化に必要なクラス・プロパティを定義 場面1 場面2 場面3 場面4 場面5 4
  5. 5. 場面(シーン)スキーマ 場面ID 原文 主語 述語 目的語 subject hasPredicate source その他 他の場面 場面間 場面を表現するプロパティ ➢ subject:その場面の記述において主語となる人や物 ➢ hasPredicate:その場面の内容を表す述語 ➢ 場面の詳細を表す目的語:whom(だれに), where(どこで), when(いつ), what(何 を), how(どのように), …etc. ➢ 場面間の関係:then,if, because, …etc. ➢ time:その場面が起こった絶対時間(xsd:DateTime) ➢ source:その場面の原文(英語/日本語のリテラル) 主語 目的語 述語 の形でないことに注意 →場面に関わる複数の 情報をまとめるため 場面ID中心に記述 5
  6. 6. 原文(英語/日本語) 絶対時間※小説内に基準日 時を設定している 主語・述語・目的語は全て 「リソース」として定義 →他の場面で同じ目的語を 参照可能 述語 主語 他の場面 場面の種類(クラス)分け Scene:上位クラス -Situation:事実・状況の描写 -Statement:Aの発言 -Talk:AのBへの発言 -Thought:Aの考え 6 場面(シーン)スキーマ 記述例
  7. 7. 推理小説のナレッジグラフ SWO研究会・勉強会での予備的作業を経て,有志数名でナレッジグラフ化 7 ナレッジグラフ(RDF形式) クエリー言語SPARQLによる検索 グラフDB(キーワード検索も可) http://knowledge-graph.jp/visualization/
  8. 8. 応募作品 第1回チャレンジ小説 まだらのひも (Speckled Band) ※シャーロキアン人気No.1 応募件数 8作品(本部門:5,アイデア部門:3) 本部門 (実装を伴う) ➢ 【最優秀賞】 株式会社野村総合研究所 ➢ 【優秀賞】 上小田中411(株式会社富士通研究所) ➢ 【ベストリソース賞】 FLL-ML(株式会社富士通研究所,神戸常盤大学,神戸市立 西神戸医療センター) ➢ teamOIF (立命館大学) ➢ 塚越雄登 (電気通信大学) アイデア部門 (アイデアのみ.実装を伴わない) ➢ 【ベストアイデア賞】 白松研 feat. 59(名古屋工業大学) ➢ 生島高裕 (株式会社数理先端技術研究所) ➢ 橋本一成,他 (富士ゼロックス株式会社) 個々の詳細は公式サイト http://challenge.knowledge-graph.jp 参照 8
  9. 9. 評価方針 説明性を有する推論・推定技術を評価するためには,適切な指標設計が必要 ➢ 正解を導けていることに加えて,説明性,実用性,新規性,処理時間など,複数の 指標を設計し,各アプローチのメリットやデメリットを客観的に評価,分類,体系化 一方で,定量的評価に加えて,評価者側と応募者側との議論(ピアレビュー)を 通じた定性的な比較や評価,問題意識の共有も必要 DARPA XAIでは,現在の機械学習技術においては精度と説明性にトレードオフ があることを明言しており,両者を測定するとしている. 更に,説明性は心理学的にアプローチされており,説明の効果測定ではその明 快さや有用性に関するユーザーの満足度をレーティングする これらを参考に,第1回チャレンジでは,基本情報を共有した後,専門家評価, 一般評価の組み合わせで評価を実施した 9
  10. 10. 基本情報の共有 主催者側で以下の基本情報を調査し,事前に審査員である専門家と共有 (今回,審査員はSWO研究会の幹事を中心に7名に委託) ➢ 正解が出せているかどうか? 方法の如何にはよらないが,推論・推定した犯人は正しいか? ここで犯人とは,小説の中で犯人されている人物とする. ➢ プログラムが実行できるか? 提出されたプログラムが正しく動作し,結果が再現できたか?(アイデア部門 を除く) 但し,全ての動作の再現を保証するわけではない. ➢ プログラムのパフォーマンス プログラムの動作環境,動作速度に関する何らかの情報 ➢ 使用した知識・データ量 提供したナレッジグラフの内,ID 何番までを使用したか? 外部知識・データを活用している場合は,その情報. 10
  11. 11. 専門家による評価 専門家評価では,以下の項目について審査員が5段階評価 推論・推定方法 ➢ 技術性(Significance) 推論・推定方法の技術的工夫. ➢ 汎用性(Applicability) 他の問題にも適用できる手法であるか? 目安としては, 3:他の推理小説にも適用可能 5:他のドメインにも適用可能) ➢ 発展性(Expansibility) 今後の技術的な発展が期待できるか? 例えば,現状の問題点を解決すると改善が見込める,など 11
  12. 12. 専門家による評価 知識・データ ➢ 知識・データ構築の工夫 知識/学習データを構築にかけた工夫(量×質×プロセス).例えば,外部知識・ データをどれだけ用意したや,外部知識・データの作り方の工夫など ➢ 知識・データ活用の工夫 提供されたナレッジグラフや自身で構築した知識を効果的に利用しているか? 少量の外部知識でスマートに解いたや,大量の知識で少ステップで解いた,など その他 ➢ 実現可能性(アイデア部門のみ) 技術,知識・データ構築/活用の双方を含めたアイデアの実現可能性. ➢ 論理的説明性 論理的な説明が成立しているか? 1:説明や根拠の提示が全くない. 3:根拠となるエビデンスが何らかの形で提示されている. 5:必要十分な推論(推定)過程において,一貫性を持った説明がなされている. ➢ 努力性 作品(知識/データ/システム)作成にかけた労力 ➢ 総合的なコメント(自由記述) 12
  13. 13. 一般審査 専門家が論理的に説明が通るかどうかを判断したのに対し,一般審査では 時間的な制約から説明の心理的な側面(納得性)に絞って評価を実施 各応募者が本部門15分,アイデア部門10分で応募作品の説明を行い, 参加者45名が以下の2点についてアンケートに回答 ➢ 総合評価 アイデアの面白さ,プレゼンの良さなども含めた総合的な評価. ➢ 説明性 「あなたが裁判員(陪審員)だったとして,その説明に納得にできますか?」 総合評価を設けたのは,プレゼンの上手さや面白さなど説明性以外の評価 を総合評価に回してもらうため 説明性のみの評価では,それら別の観点の評価も混じってしまうと考え, あえて他の観点を含む項目を設けた. 13
  14. 14. 評価結果 14 専門家による指標毎の審査結果(平均) 専門家および一般による審査結果
  15. 15. 評価結果 一般審査の結果は,総合評価と説明性の平均値,中央値,標準偏差を比較 1位と2位を比較では, ➢ 平均値では総合評価と説明性いずれも1位が2位を上回っているが, ➢ 中央値では総合評価は上回っているが説明性では同値となり, ➢ 標準偏差では総合評価と説明性いずれも1位のほうが大きかった. t 検定(p = 0.05)では,総合評価では有意差が得られたが説明性では得られなかった 専門家評価で1位と2位を比較すると, ➢ 各指標の平均では1位が2位を上回っているが, ➢ 説明性の観点では結果が逆転した(t 検定による有意差も認められた) 尚,いずれの指標でも標準偏差(全作品平均)は<1.0,大きな意見の相違はなかった ➢ ばらつきが最も少なかったのが論理的説明性であり, ➢ ばらつきが最も大きかったのは努力性であった... 結果として,1位と2位の順位付けは専門家審査員による議論に任せられたが, 説明性以外ではいずれも1位は2位と同値または上回っていたことから本結果とした 同時に,本チャレンジの一番の課題である説明込みの評価については確認に留まった その他に各専門家のコメント等を踏まえてベストリソース賞とアイデア賞を授与 15
  16. 16. 本日の発表 第1回推論チャレンジ2018の振り返り (農研機構・JST 川村) ➢ チャレンジの概要 ➢ 応募作品の紹介 ➢ 評価・分析 第2回推論チャレンジ2019の開催概要(大阪電通大 古崎) ➢ スケジュール ➢ ナレッジグラフ構築について(改良点) ➢ 対象とする小説・タスク 16
  17. 17. 第2回推論チャレンジ-開催スケジュール- 2019年3-5月 ➢ ナレッジグラフ構築 ➢ 応募要項等の検討・準備 ➢ 第1回開催報告:人工知能学会誌5月号掲載(「AI書庫」で無料閲覧可) 2019年6月4日 応募開始 ➢ 人工知能学会全国大会(JSAI2019)@新潟にて, 第1回開催報告&第2回応募開始の宣言 ➢ 対象とするナレッジグラフについては,調整中のものを仮公開. 2019年7月 改良版のナレッジグラフを公開 2019年7-9月 ワークショップ開催(企画検討中) 2019年10月末 応募締切 2019年11月末-12月 最終選考会&授賞式 ➢ 人工知能学会合同研究会(11月下旬)@慶応大日吉キャンパス 内での実施を検討中 17
  18. 18. 第2回推論チャレンジ-第1回からの変更点- ナレッジグラフの構築方法の改良 ➢構築作業の効率化による対象KGの拡大 対象とする小説の追加 ➢1+追加4編 = 計5編に 「ツール部門」の新設 ➢タスクを部分的に解く小規模なツールの開発でも 応募可能に 18
  19. 19. ナレッジグラフの構築方法の改良 ナレッジグラフ(KG)の構築方針 ➢基本的に,第1回と同じスキーマを用いて構築する. ➢第1回の開催時に参加から得たフィードバックは適宜反映. →scene間の関係を表す語彙の検討,など ➢複数KG間での語彙統一など,オントロジーの改良(作業中) 構築作業の効率化の工夫 ➢一部の構築作業をアルバイト雇用により実施 →将来的には,クラウドソーシングによる効率化を検討 ➢部分的に,(半)自動処理を導入 →将来的には,KG構築タスクのチャレンジ化を検討 ➢最終的なKGは,上記の処理を経たものをベースにして, 運営メンバーで分担して構築 19
  20. 20. 対象とする推理小説・タスク 対象とする推理小説 まだらのひも(第1回のKGの不具合を修正して利用) ➢タスク:ヘレンを殺したのは誰か?(犯人+説明) に加え,新たに,以下の4編をKG化 踊る人形 [Wikipedia][青空文庫] ➢タスク:暗号を解け(暗号の解読) 花婿失踪事件(同一事件) [Wikipedia][青空文庫] ➢タスク:花婿はなぜ消えたか?(説明) 悪魔の足 [Wikipedia][青空文庫] ➢タスク:各人物を殺したのは誰か?(犯人+説明) 背中の曲がった男(曲がれる者)[Wikipedia][青空文庫] ➢タスク:バークリはなぜ死んだのか?(説明) 20
  21. 21. タスクの実行条件・応募部門 対象とするKG ➢5つの小説のうち,いずれの小説を対象にしてもよい (どれか1つだけ,2つだけ…などでもOK) ➢できるだけ多くの小説が,同じシステム(仕組み)で解けるとよい ➢各小説で使用するKGの範囲を段階的に変える(昨年同様) →完全(すべてのKG)/不完全(10%)/不完全(10%) ➢ナレッジグラフの独自拡張も可能(昨年同様) 対象とするタスク ➢①本部門:対象小説1つ以上のタスクを解くシステムを開発 ➢②ツール部門:いずれかのタスクを部分的に解くツールを開発 例)容疑者の推定,アリバイ検証,動機説明,など ★「自然言語文をトリプル化」するKG構築支援ツールの応募も可 ➢アイデア部門:①,②の実現方法のアイデア(実装なしでOK) 21
  22. 22. 応募に向けたヒント 第1回の応募作品(プログラムのコードも含む)は,推論 チャレンジのサイトに公開されているので参考に! ➢すぐに試せるDockerイメージを公開しているチームもあり. 第1回と同様に,利用する技術に制限はありません! ➢知識処理技術以外を用いた応募も歓迎します. 対象KGの不具合があれば,修正しますのでご連絡を… ➢GitHubでのプルリクエストも歓迎 まずは,ツール部門の応募を検討する手も… ➢次年度以降に,ツールを拡張&組み合せて本部門に… 22
  23. 23. ご応募お待ちしています! 【締切:10月末】 23 本活動は,JSPS科研費19H04168 基盤研究(B) 解釈可能なAIシステムの実現に 向けたナレッジグラフに基づく推論・推定技術の体系化,および人工知能学会 研究会特別支援金の助成を受けたものです.

×