Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

SIGMOD 2019 参加報告

3,745 views

Published on

第34回先端的データベースとWeb技術動向講演会(ACM SIGMOD 日本 支部第71回支部大会)での発表資料です

Published in: Engineering
  • Be the first to comment

SIGMOD 2019 参加報告

  1. 1. 国際会議参加報告 SIGMOD 2019 小山田 昌史 日本電気株式会社 データサイエンス研究所 1
  2. 2. アジェンダ  講演前半 (概要, ビジネスミーティング内容, トレンド, Keynote)  概要  ビジネスミーティングの内容  トレンド(私見)  Keynoteザッピング  講演後半 (受賞関係, 研究紹介)  Codd Award 受賞講演 (Prof. Ailamaki)  Best Paper  Interventional Fairness: Causal Database Repair for Algorithmic Fairness  Runner-up  Incremental and Approximate Inference for Faster Occlusion-based Deep CNN Explanations  Fast General Distributed Transactions with Opacity  面白かった論文紹介  最後に 2
  3. 3. 自己紹介  研究テーマ「誰もがデータから価値を引き出せる世界を目指す」  表形式データのセマンティクス推定(AAAI 2019)  機械学習の特徴量生成を高速化する動的索引(IEEE BigData 2018)  関係データに対する属性推定モデル(IEEE ICDM 2017)  半構造データからの知識ベース構築(JSAI 2018)  圧縮データ上の機械学習(Journal of Information Processing 2018) 日本電気株式会社 (NEC) データサイエンス研究所 特別研究員 Ph.D. (北川・天笠研究室@筑波大学) 小山田 昌史 with NEC 竹岡さん with 花房さん 3
  4. 4. 概要とビジネスミーティングの内容 4
  5. 5. SIGMOD Conference  データベース三大会議のひとつ  SIGMOD/PODS, VLDB, ICDE  直近の会場  2016: San Francisco (米国)  2017: Chicago (米国)  2018: Houston (米国)  2019: Amsterdam (オランダ)  2020: Portland (米国)  発表される論文の傾向  三大会議の中では最も「伝統的なテーマ」を好む、という声も  VLDB, ICDE と比較し DBMS 技法が “残っている” 印象  北米/欧州のDBシステム研究者が幅をきかせている(個人の感想) 4年に1回だけ米国外 (そろそろやめるという話も@ビジネスミーティング) 5
  6. 6. SIGMOD 2019 @ アムステルダム  参加者 1051 人  史上2番目に大きな SIGMOD  1番は SIGMOD 2016 @ San Francisco (地の利)  参加者数ランキング  1. アメリカ (316名)  2. ドイツ (162名)  3. 中国 (65名)  4. オランダ (60名)  5. 韓国 (52名)  …  10. 日本 (27名) 6
  7. 7. 2019 の運営メンバ インメモリDB神 (MonetDB) ML for DB DB for ML DB クエリコンパイラ ハードウェア DB めちゃくちゃ DBMS (ICDE とは雰囲気が違う) ストリーム DB 7
  8. 8. 査読プロセス  年に2回、投稿の機会がある(6月, 11月)  査読者は最低で3名つく  意見が割れた場合(最低一つ Weak Accept がある)  追加で2名が査読  (とっても良い制度ですね…)  プロセス  著者に査読結果が返る  著者は査読結果を読んで、明らかな誤解などあれば Rebuttal (4000文字, 2日)  査読者は Rebuttal を踏まえて「Accept, Revision, Reject」を判定  Revision の場合  著者は、一か月間のうちに改訂版を投稿  レビュアーの要求を満たしていれば Accept 8
  9. 9. 採択率  Research Track 採択率: 20% (88/430)  一発 Accept は 88 本中わずか 10 本  97 本が “Revision” となり、そのうち 78 本が採択(採択率 80%)  Revision 後にどんどん落とす VLDB とは対照的 Round 毎の統計は会議では公開されず 9
  10. 10. Rebuttal は「必須」  “Revision” になった論文は Rebuttal を 100% 投稿していた  ( Rebuttal しないと Reject されやすいかも)  余談: 某AI系トップ会議では、粗雑な論文(レビュースコアが悪い)を投 稿しつつ Rebuttal の無い著者は今後の投稿を禁止しようという議論も  (投稿数が爆発し Peer-Review の仕組みが崩壊しつつあることが背景に) 10
  11. 11. システム論文と非システム論文の採択率  投稿数こそ違うが、採択率には大きな違いなし  システム論文が Reject されがちじゃないか? と、ちょっと前に揉めた  システム系のほうが 2% ほど採択されやすい  「採択されたければシステム系の論文を書こう(冗談)」 12
  12. 12. SIGMOD の会員数がまずい  「年にたった $10 なので加入してほしい」とのこと 13
  13. 13. 参考: 他の学会も含めた会員数の変化  GRAPH++, CHI++, CSE+++ (教育), PLAN++++ (プロ言)  MOD--, KDD--, SOFT-- 14
  14. 14. コミュニティとして何ができるか  コミュニティ維持  頭でっかちにならず、システム、アルゴリズム、 応用研究、学際的研究、色々と認めていこう  ちゃんと強固な繋がりを保つ  プレゼンスの向上  色んな良い仕事がDB分野から出てきているのに、 他の分野で育ったり、無視されがち  CACM に投稿したり、計算機科学全体の賞に応募 したりする  レビュープロセスの改善  「SIGMOD/VLDBのレビュー品質が他の会議より も酷い」という苦情  Rebuttal の機会を設けるなどの工夫を 15
  15. 15. おまけ: (システム論文に関する)Review Quality 学生がレビューを見たときに「悲しむ」んじゃなく て「その馬鹿馬鹿しさに笑う」ようになったら、 その会議は終わりじゃないか? VLDB/SIGMOD が今後もレビューの品質チェック をサボるようだと、ゆっくり死にゆくよ。 NSDI/OSDI/SOSP などの システム系トップ会議に出してみたら? 経験上、もっと良いレビューがもらえる。 長くて、丁寧なフィードバックを5~6人から。 SIGMOD 2019 の Best paper-runner up 受賞者 Apache Spark / Weld 作者 16
  16. 16. おまけ: PODS’19 情報  投稿数の推移 PODS 2020 の Cycle 1 の投稿数は 17 (例年 30ほど) と激減  危機感 17
  17. 17. PODS 議論: どうやって投稿数を増やそう?  「論文を Open Access にしてみてはどうか? ACM の paywall が投稿を discourage してないか」  A: DB Theory の論文誌を立ち上げようと話を始めている  (さらに DB Theory と DB その他のコミュニティ分断が進まないか? とい う話も。SIGMODのページは更新が遅いからTheoryは別にサイト作ったとい う話もあり)  機械学習でやってるような Open Review を採用しては?  A: 明確な回答は無し  Logic 扱ってるのに AI コミュニティと断絶してるのは問題では?  A: 「AAAI に論文を投稿しないで PODS に投稿してよ」という気持ちはある。 が、クオリティ低いのが集まっても困る。PODS Qualityは求めたい。 18
  18. 18. トレンド(論文トピック、展示、WS) 19
  19. 19. トレンド(1/4)  Ethics, Privacy, Fairness が運営としての今年のテーマ?  差分プライバシーはもともとDBで育てたのに、結局は他の分野で盛り上がっ てしまった、という危機感 Ethics (Keynote, Panel) Privacy (Test of time, PODS Keynote) Fairness (Best paper) 20
  20. 20. トレンド(2/4)  Data cleaning, Data Integration  データサイエンスで必須とあってか、注目度が高い(会場は満員)  Tech Giant (MS, Google) の発表が多く、面白いものも多い 21
  21. 21. トレンド(3/4)  機械学習はもはや「教養」  空気のように、そこにある  旧来の問題設定に機械学習を差し込む「型」ができた  今後、数年は飯に困 らない  Machine Learning for DB  Learned Data Structure(索引構造の学習)  Query Optimization via Reinforcement Learning(強化学習を利用したDB のプラン最適化)  DB for Machine Learning  深層学習モデルのデバッグ, CNN の解釈をマテビュー応用で高速化 (Best paper runner-up), 圧縮データ上の SGD 22
  22. 22. トレンド(4/4)  Block Chain  企業が盛り上げようとしているが……  Keynote, Blockchain セッション, Workshop と盛りだくさん  が、聴衆の興味をひいていたかは(?)なところ  あまり会場に人がいない……  セッションでは「Privacy」とセット  従来の分散DB屋さんは反発気味?  Mohan の Keynote の Q&A では 実用性について懐疑的な声も 23
  23. 23. ワークショップ  機械学習/データ分析  aiDM  DEEM  HILDA  経済  DSMM  DBシステム  DaMoN  グラフ/ネットワーク  GRADES-NDA  セマンティックウェブ  SBD (ストリームデータや確率DBが消えたなぁ) 24
  24. 24. 参考: ワークショップ (2013)  クラウド  DanaC  ソーシャルネット/ウェブ  DBSocial  WebDB  グラフ/ネットワーク  DyNetMM  GRADES  DBシステム  SWEET  DaMoN  セマンティックウェブ  SWIM  センサ  MobiDE 25
  25. 25. SIGMOD Workshops 2013  2019  クラウド (bye…)  DanaC  ソーシャルネット/ウェブ (bye…)  DBSocial  WebDB  グラフ/ネットワーク  DyNetMM  GRADES  DBシステム  SWEET  DaMoN  セマンティックウェブ  SWIM  センサ (bye…)  MobiDE  機械学習/データ分析 (new!)  aiDM  DEEM  HILDA  経済 (new!)  DSMM  DBシステム  DaMoN  グラフ/ネットワーク  GRADES-NDA  セマンティックウェブ  SBD 26
  26. 26. チュートリアル  ブロックチェーン  データ可視化  “Query By Example”  時系列データ予測  データベース自動チューニング  … 私が参加してとても面白かったもの 27
  27. 27. キーノート  SIGMOD Keynotes  Lise Getoor (UC Santa Cruz)  Responsible Data Science  C. Mohan (IBM Almaden)  State of Public and Private Blockchains: Myths and Reality  PODS Keynote  Cynthia Dwork (Harvard University)  Differential Privacy and the US Census 28
  28. 28. KEYNOTE 1 RESPONSIBLE DATA SCIENCE Lise Getoor (UC Santa Cruz) https://av.tib.eu/media/42856 29
  29. 29. Responsible Data Science 30
  30. 30. Responsible Data Science 「機械学習」は ブラックボックス 31
  31. 31. このキーノートの目的  ブラックボックスを覗き、データサイエンティスについて「良い意 味で懐疑的」になってもらう  (DB) 研究者がどう貢献できるかの示唆も提供 32
  32. 32. データサイエンスが普及し メディアでの報道にも 「ネガティブな側面」 を強調するものが増えてきた 33
  33. 33. データサイエンスと「差別」 顔画像により犯罪者か どうかの判別ができる 機械学習によって (骨相学が普及した) 19世紀に舞い戻ってしまう! 34
  34. 34. データサイエンスの「バイアス」 米国での「犯罪者の再犯リスクの予測システム」は ・アフリカ系アメリカ人に対しリスク高と言いがち(overpredict) ・白人に対してはリスク低と言いがち(underpredict) (機械学習が、過去の人間の決定を再現するため) 35
  35. 35. データサイエンスの「悪意」 ソーシャルメディアは「中毒」にさせるために技術を工夫 中毒になるのはあなたのせいではない 36
  36. 36. この Keynote では こうした問題がなぜ起こるか を機械学習の側面から解説 問題を軽減するための取り組み もいくつか説明 37
  37. 37. 機械学習には6つの「Go Wrong」がある  1. Formalization  2. High Dimensionality  3. Measuring Error  4. Interpretability  5. Correlation vs. Causation  6. Bias  6.1. Data Bias  6.2. Automation Bias  6.2. Algorithmic Bias 38
  38. 38. 1. Formalization (1/2)  機械学習は “正しい”  数理最適化で(実測値と予測値の誤差など)損失を最小化する仮説(予測モデ ル)を “正しく” 見つける  が、人間によるタスク設定は “正しいと限らない”  タスク設定(= 損失/予測対象/入力特徴量)が適切でないと、得られる仮説 (予測モデル)も不適切に 39
  39. 39. 1. Formalization (2/2)  問題定義(何を特徴量として、何を予測対象とするか)は Smell Test を通過しないとダメ  特徴量と予測対象の間に「科学的に妥当な繋がりがあるかどうか」を吟味  もしなければ、予測精度がいかに良くとも、仮説は棄却するべき  これにより、先ほどの「顔画像からの犯罪者予測」のような問題設 定を防ぐことができる 40
  40. 40. 2. High-Dimensional Data (1/2)  高次元データは、低次元のデータに比べて「過学習」しやすい  ※ 機械学習では、データ量で高次元データを扱うと、(ある種の次元の呪 い) 41
  41. 41. 2. High-Dimensional Data (2/2)  実際に起きている問題の例: 「テロリスト予測」  タスク: 携帯電話から得られる80次元の特徴量でテロリストかどうかを予測  学習: 7人のテロリスト (正例) + 10万人の一般人 (負例)  妥当な精度と判断  運用時  テロリスト担当の報道記者(学習データにはいない)をテロリストと判断し てしまった! 高次元データだと こっちに来やすい 42
  42. 42. 3. Measuring Error  論文や企業のプレスでの「精度これだけ出た!」  「訓練データ/テストデータ」がどちらも「真の分布」を代表するようにとら れた標本であることを暗黙に仮定  現実には、ほぼ成り立たない設定  手元にある標本が偏っていることは多く(高次元データでは特に)、過学習の 原因に   精度だけでなく「不確実性」を報告すべき 43
  43. 43. 4. Interpretability  機械学習の界隈での最近のホットトピック  学習された予測モデルが「どう判断してるか」を理解するための研究  深層学習では Interpretability が低くなりがち  複雑なネットワークが複雑な非線形の関数を作るため 44
  44. 44. オオカミと犬の判別をする分類器を深層学習でつくってみた 一見うまくいっている(1個しか間違っていない) 45
  45. 45. が、ネットワークがどこを見て判断してるかを確認したら 「オオカミ/犬」自体は見ておらず、「背景が雪かどうか」 を単に判別しているだけのことが分かった! (未知データに対しては予測がズタズタに…) 46
  46. 46. 5. Correlation vs. Causation  相関と因果は混同されやすい  統計から、アイスクリームの売り上げと溺死事故の発生率には正の相関がある ことが分かった  ならば、アイスクリームを販売停止すれば、溺死事故は減る?  NO  相関は Confounder によって引き起こされる  「天気が晴れ (confounder)  アイスが売れる」  「天気が晴れ (confounder)  プール行行きがち  溺死事故が増える」  「因果分析」が必要  (最近、産業界ではかなり流行) 47
  47. 47. 6-1. Data Bias (1/2)  Garbage in, Garbage out  機械学習の入力データが「偏ってる」と出力も「偏る」  例: Amazon の AI による採用システム  過去に採用した人の履歴書を元に、自動で履歴書をレビューし「採用/不採 用」を判断する AI を作った   過去の採用に偏りがあったため(男性ばかり)、結果として「男性かどう か」を判断する AI ができた 48
  48. 48. 6-1. Data Bias (2/2)  犯罪者予測の論文も Data Bias のひとつ  正例: 犯罪者の「免許証」の顔画像  負例: ウェブからクローリングした顔画像   Smile-detector を作ったに過ぎない! 49
  49. 49. 6-2. Automation Bias (1/2)  意思決定者は人間よりも機械を信用しがち  機械の出力結果と矛盾する人間の意見は無視される  なぜか? 安心して。 GPSによれば ここには道があるから 50
  50. 50. 6-2. Automation Bias (2/2)  意思決定者の「責任逃れしたい」という深層心理  難しい決定事項のときほど、アルゴリズムに責任を押し付けたくなってしまう  (企業のエラい人が意思決定時にコンサルタントを雇う理由に似ている。。) 51
  51. 51. 6-3. Algorithmic Discrimination  アルゴリズムによる意思決定には「差別・バイアス」を強調し、継 続させ、正当化する側面がある  これを抑制するための試み (Fairness) が近年、活発に  本会議 Best paper もそのひとつ(講演後半で説明) 52
  52. 52. 6-3. Algorithmic Discrimination  誰のための Fairness ?  例)意思決定者にとっての Fairness と被験者にとっての Fairness は異なる  Fairness は Social & Ethical な概念  Not a statistical concept !!!  Bias は主観的。タスクに応じて判断される必要  Bias の修正に対しての大統一理論を考えてはいけない 53
  53. 53. ふりかえり: 機械学習には6つの「Go Wrong」がある  1. Formalization  2. High Dimensionality  3. Measuring Error  4. Interpretability  5. Correlation vs. Causation  6. Bias  6.1. Data Bias  6.2. Automation Bias  6.2. Algorithmic Bias DB 研究者としては何ができそう? (どんな研究テーマありそう?) 54
  54. 54. DB in Responsible Data Science (1/3)  データ自体の「来歴」  「そのデータがどこからどう出てきたか」がより重要な時代に  データの Comparative Modeling  データや予測結果を単一の視点から「正しい/間違っている」という判断はし にくい世界に  様々な観点での判断を支援する仕組みが欲しい  データ獲得から意思決定まで統合的に高速処理できる仕組み  データの来歴管理  学習, 因果分析  公平性の担保  結果の解釈 55
  55. 55. DB in Responsible Data Science (2/3) (また Responsible Data Science には「納得性が必要」であり、納 得性を実現するには「構造/論理」が必要とのことから)  構造予測( for データクリーニング/インテグレーション)  Probabilistic DB  知識ベース 56 ↑ AI 系(AAAI, IJCAI, AKBC)ではめちゃくちゃホット
  56. 56. DB in Responsible Data Science (3/3) (Ethics は学際的なトピックであり、経済学や社会学なしには実現で きない、という文脈で)  経済学のモデル  (DBはどこに…?)  ソーシャルウェルフェアの理論  (DBはどこに…?)  Ethics と DB の接続  Integrity, Consistency 制約  DBの得意とする多段階の抽象化  (これは面白そう!) 57
  57. 57. 先生はこの問題にどう取り組んでいるか?  Relational DB Theory + Machine Learning  Relational Learning (先生のライフワーク)  機械学習を関係データ上でそのまま実現可能とする理論 実データは リッチな構造を持ってるのに (ネットワーク構造、ER関係) 従来の機械学習は構造を潰して ひとつのテーブルにまとめちゃう そんなのもったいない! Relational Learning  構造を保ったままでの機械学習 58
  58. 58. Probabilistic Soft Logic [Bach+JMLR17]  グラフ (Entity-Relationship) 上の学習を述語論理により「宣言 的」に表現&学習可能に  「解釈のできる機械学習」  学習タスクの例  Entity の Classification (分類)  Entity の Resolution (名寄せ) 予測モデルが “読める” ! 59
  59. 59. Probabilistic Soft Logic の仕組み  論理推論を凸最適化に変換  普通の論理推論  組み合わせ最適化で遅い  Probabilistic Soft Logic  連続最適化なので、微分可能で高速 60 (カッコイイ……)
  60. 60. さいごに: AI と倫理  ブラックボックスな「機械学習」にブラックボックスな「倫理」を 加えても「Responsible Data Science」にはならない!  今の若い技術者は自動小銃でいっぱいの玩具屋ではしゃいでいる子 供みたいなもの  「倫理」は誰かの専門分野で、自身には関係ない  コードを書き、世界を変えることに夢中  それが誰かの何かを壊しうるとは想像もせずに  (すごく良く分かる気がする……) 61
  61. 61. さいごに: Responsible Data Science とは  研究者ひとりひとりが Ethics を拒否せず、懐疑し、好奇心を持っ て関与してゆこうという姿勢 62
  62. 62. KEYNOTE 2 STATE OF PUBLIC AND PRIVATE BLOCKCHAINS: MYTHS AND REALITY C. Mohan (IBM Almaden) https://av.tib.eu/media/42857 63
  63. 63. 概要  ブロックチェーン、エンタープライズ用途では課題が山積み  データガバナンスの問題: 誰でも自由に書き込めてしまう(書き込み/読み込み へのパーミッションの機構がない)  性能の問題: ハッシュ値の計算が必要で、システム性能がめちゃくちゃ悪い (7TPS, 10min response time)  それら課題を解決する Private/Permissioned な Block Chain シ ステムが作られている  データガバナンス、性能、どちらも解決ができる  この発表ではその仕組みについてザッピング  (の予定だったが、時間配分がイマイチで仕組みの説明はあまり無かった) これまで色々な会議で何十回も話されており そのまとめページが http://bit.ly/CMbcDB にある 64
  64. 64. Private/Permissioned Blockchain  様々なビジネスロジックがネットワークで繋がれ、アセットを交換 し合う 65
  65. 65. Permissioned BC システムの進展 中国がとても元気(by C. Mohan) 66
  66. 66. 所感  「なぜ Block Chain か?」というところに明確な回答があるわけ ではなかった 67
  67. 67. Q&A: 前半部分について  会議の傾向  参加者の傾向  キーノート  その他の展示 https://av.tib.eu/series/667/sigmod+2019 にすべての発表の動画があります (興味あればご参照ください) 68
  68. 68. 後半(受賞, 研究紹介) 69
  69. 69. Codd Award https://av.tib.eu/media/42986  Anastasia Ailamaki 教授  表彰理由: 「データベース + ハードウェア」と「科学DB」の両領域で超先進 的な試みをいくつもおこなった 70
  70. 70. Ailamaki 先生のお仕事(抜粋)  アーキテクチャを意識したデータ管理  キャッシュミスを減らすためのデータ配置  マッシブパラレル環境向けDB  科学データ管理  超高次元データ向けの索引技術  JIT DB (Just-in-time compilation)  データに応じてDBを生成 71
  71. 71. PAX (キャッシュミスに頑健なページ配置)  1998年、実験していてクエリ実行時に全然 CPU が使われていない ことに気づいた  調べると、キャッシュミスが大量発生していた  1999にPAXというデータレイアウトを発表  NSM (行指向ページ配置) と DSM (カラム指向ページ配置) のハイブリッド  現在でも健在  Hive, Drill など分散分析クエリ処理系でのデータ格納形式としてめちゃく ちゃ使われている(Parquet Format) 72
  72. 72. Shore-MT: マルチコア OTLP  マルチコアになると、従来のDBの実装方式に限界  Data-Oriented Transaction Execution (VLDB’10)  Aether (VLDB’10)  ISLANDS (VLDB’12) 従来のDBは 同時に実行される スレッドが増えると 使い物にならなくなる トランザクション分割方式 並列ログ書き込み CPU命令の動的割当(!) 73
  73. 73. その後 Scientific Data Management へ (ちょっと不思議にも思えるテーマシフト)  実は Ailamaki 教授の「初めての国際学会発表」は科学データ  SIGMOD’97 で科学データ管理のデモ発表をした  Jim Gray がデモを触った。クラッシュした  こんな素晴らしいひとが いるなんて! とDBに生きることを決意 クラッシュするということは、 このプログラムが 「本当に動いている」ということだ。 偽物はクラッシュしないからね。 74
  74. 74. 異分野の研究者と仕事すると驚きがある  脳研究者とやったときは、脳の高次元データのナビゲーションが重 要課題であると分かった  Spatial Index (DB) の課題になる  思いもしない活用例が発見できる  ワシントン大の医学部とやったPJではDB設計の見直しから担当  「クエリが8倍も速くなった!」と喜んでくれた  「スキーマ正規化したで、大したことはやってない……」と言っても、「気に しない。とにかく速くなった。ありがとう」   手段じゃない。効果が大事 75
  75. 75. その後、再び DB に: JIT Database  データの指数増加に、プロセッサのスピードが追いついていない  プロセッサはほぼ線形の性能増加   必要なデータだけを格納しつつ、データ探索の効率化も!  どうやろうか? 76
  76. 76. JIT DB  データを DB に「格納する」という発想をやめる  DBへのローディング時間がいらないため、即座に分析ができる!  NoDB (SIGMOD)  生ファイル(csv等)を直接処理  それだけだと遅いので、アクセスと共に逐次的・動的に索引を作成  RAW  入力データに最適化された DB を動的に生成  データのスキーマにあわせ「最適なデータレイアウト」のコードを自動生成 77
  77. 77. DaMoN (SIGMOD workshop)  Hardware + Database の問題を議論するために 2004 に立ち上げ  ADMS @ VLDB, HardBD @ ICDE など後続するワークショップが登場  (SIGMOD 2019 では一番盛り上がっていた WS)  250 人の参加者  (査読はかなり厳しい by 投稿した方) 78
  78. 78. David DeWitt 教授 (指導教官) との思い出  GAMMA という並列DBの性能測定をやって結果を見せに行ったと ころ「こんな数字は信じられない」と突き返された  そんなことが日常茶飯事で辛かった  これは「いじめな」のでは?(会場笑)  「You stink (臭い)」と言ってくれるひと が、あなたをプロフェッショナルにする  特に、実験系の研究者にはそういう態度が必要  (爪の垢を煎じて飲まなければ……) 一部の商用DB (Oラクル) が論文で DBMS X と表記される原因となった御方 (DeWitt Clause) 79
  79. 79. 先生の心に残った言葉 フォーカスしろ あきらめるな 考えたこと、やったことは 書けるだけ書いておきなさい DBでスタートアップ? 10年、20億円が必要だけど本気? (訳: ワナビーならやめておけ) Yannis (最初の指導教官) Jim Gray Stonebraker 80
  80. 80. Ailamaki 先生 おめでとうございます 81
  81. 81. 受賞論文の紹介 82
  82. 82. Best paper / runner-ups  (Best Paper) Interventional Fairness : Causal Database Repair for Algorithmic Fairness  概要: 機械学習における「Fairness」の問題を Database Repair の問題にして解く  コメント: 「委員全員が褒めた。DBの問題にして解くやり方がエレガント」  (Runner-up) Incremental and Approximate Inference for Faster Occlusion-based Deep CNN Explanations  CNN (深層学習)の説明性を担保する方式を高速化。DBのマテビューを応用  コメント: 「Best DB Transfer Award だ(DBの技法を他分野に応用)」  (Runner-up) Fast General Distributed Transactions with Opacity  分散トランザクション処理で「アボートされたトランザクションも strict serializable」であることをオーバーヘッド少なく保証する (opacity)  コメント: なし https://av.tib.eu/media/42950 83
  83. 83. INTERVENTIONAL FAIRNESS : CAUSAL DATABASE REPAIR FOR ALGORITHMIC FAIRNESS SIGMOD 2019 Best Paper Babak Salimi, Luke Rodriguez, Bill Howe, Dan Suciu (University of Wasington) 84
  84. 84. Fairness とは何か?  予測モデルの結果が「Fair (公平)なものか?」を定量化  例: 合否判定モデル  入力 𝒙: 大学受験者の情報(性別、年代、趣味嗜好)  出力 𝑦: 合格/不合格  「Fair(公平)」であるとは?  直感的には「マイノリティが差別されない」ようにすること  例)医学部の入試で「性別」という属性による合格率の差がないように  大きく2種類の定量的スコアが提案されている(後述) 予測 モデル𝒙 𝑦 85
  85. 85. なぜ Fairness が保たれない? 担保はどうやる?  予測モデルは「過去の意思決定」を教師データとし学習・再現  過去に「差別」があれば、そのまま再現してしまう(例: 女性の医学部受験) 予測 モデル𝒙 𝑦 学習 𝒙𝑖, 𝑦𝑖 𝑁 教師データ (過去の意思決定) 学習アルゴリズム1 (ロジスティック回帰) 学習アルゴリズム2 (SVM) 予測 モデル𝒙 𝑦 学習 対策1 学習アルゴリズムを修正 対策2 教師データを修正 86
  86. 86. Fairness 研究の分類と、この論文の位置づけ  担保する Fairness  相関 (Associational)  よく使われるが、問題あり  因果 (Causal)  より担保は難しいが、問題は少ない  担保の仕方  学習アルゴリズムを修正  星の数ほどあるアルゴリズムを修正する?  データを修正  どんな学習アルゴリズムが来ても使えて嬉しい! この論文は「Causal Fairness」を 「データ修正」で担保した初の研究 87
  87. 87. 提案システム: Capuchin  “Causal Fairness” の新たな定義を提案  Fairness 担保をデータベース分野における Database Repair の 問題に帰着  Repair algorithm を提案  (NP-Hard なので近似した) Capuchin Monkey (オマキザル) が公正性の概念を持つところから この名づけに 88
  88. 88. なぜ Association ではなく Causality が良いの? そもそも Fairness のフォーマルな定義は? 89
  89. 89. 2種類の Fairness: Association (相関)  出力結果 𝑦 が「センシティブな属性(例: 性別)」にどれだけ非依 存か(条件付き独立で定義) 𝑷(合格|男性) = 44% 𝑷(合格|女性) = 35% これは差別だ! Fairness が低い! UC Berkeley の入試の統計 90
  90. 90. 2種類の Fairness: Association (相関)  出力結果 𝑦 が「センシティブな属性(例: 性別)」にどれだけ非依 存か(条件付き独立で定義) 実は、学部ごとに見ると男性と女性とで合格率の差はなかった。 「女性が合格率の低い学部 (F) に応募しがち」という話だった。 91
  91. 91. つまりは「因果関係」を見逃した  本来は以下のような「因果関係」があった  では、因果グラフをつかって Fairness を定義したらどうか?  Causal Fairness の出番 92
  92. 92. (この論文での) Causal Fairness の定義  前提: Admissible な属性と Inadmissible な属性をユーザが決定  Admissible: 合否に影響してはいけない属性(性別、趣味)  Inadmissible: 合否に影響して良い属性(学部、成績)  このとき Causal Fairness は  シンプルに言い換えると  「合否に影響してはいけない属性」が「合否に影響していない」ということ 定義(Causally Fair) 因果グラフにおいて「合否に影響してはいけない属性」だけをたどって 「合否にたどり着く」ことが「できない」 93
  93. 93. Causal Fairness の例 Causally Fair 「趣味  合否」の因果関係がない Not Causally Fair 「性別」から赤線(Inadmissible) だけをたどって「合否」まで行ける 定義(Causally Fair) 因果グラフにおいて「合否に影響してはいけない属性」だけをたどって 「合否にたどり着く」ことが「できない」 94
  94. 94. どうやって Causally Fair な予測モデルを得る?  単純には Inadmissible な属性を全て捨て予測モデルを学習  合否に影響してはいけない属性(性別、趣味)  捨てる  合否に影響して良い属性(学部、成績)  学習に使う  単純なやりかたの課題  1. 「属性が全て必要」なとき(e.g., データ公開時)には使えない  2. 「予測精度」が下がりうる(使える情報量が減るので) 95
  95. 95. この論文のアプローチ: 教師データの修正 𝐷 = 𝒙𝑖, 𝑦𝑖 𝑁 Not Causally Fair 「性別」から赤線(Inadmissible) だけをたどって「合否」まで行ける 因果分析 Causally Fair 「趣味  合否」の因果関係がない 𝐷′ 因果分析 修正 96
  96. 96. どうやって教師データを修正する? 驚くべき発見: “Causally Fair な教師データの条件”は DB の古典的な “Multi-Value Dependency (MVD)” と等価 論文に証明(理解困難) 97
  97. 97. Database Repairing「俺にまかせろ!」 驚くべき発見: “Causally Fair な教師データの条件”は DB の古典的な “Multi-Value Dependency (MVD)” と等価 Data Repairing: テーブルデータにレコード(タプル)を追加/削除して MVD が達成される状況に持ってゆく [Arenas+99] Causally Fair の保証に Data Repairing が使える! 98
  98. 98. その後のあらすじ  しかし Data Repairing で MVD を達成する問題は NP-Hard  上記の問題が がなんと Non-Negative Matrix Factorization (NMF) になることを証明  これはすごい(二回目)  NMF の近似アルゴリズムによって、現実的に「Causally Fair」を 達成することが可能に! 色々な概念がつながってゆく過程が最高に楽しい論文 Best Paper は納得! (数式は理解が困難だけれど……) 99
  99. 99. Best paper / runner-ups  (Best Paper) Interventional Fairness : Causal Database Repair for Algorithmic Fairness  概要: 機械学習における「Fairness」の問題を Database Repair の問題にして解く  コメント: 「委員全員が褒めた。DBの問題にして解くやり方がエレガント」  (Runner-up) Incremental and Approximate Inference for Faster Occlusion-based Deep CNN Explanations  CNN (深層学習)の説明性を担保する方式を高速化。DBのマテビューを応用  コメント: 「Best DB Transfer Award だ(DBの技法を他分野に応用)」  (Runner-up) Fast General Distributed Transactions with Opacity  分散トランザクション処理で「アボートされたトランザクションも strict serializable」であることをオーバーヘッド少なく保証する (opacity)  コメント: なし https://av.tib.eu/media/42950 109
  100. 100. INCREMENTAL AND APPROXIMATE INFERENCE FOR FASTER OCCLUSION-BASED DEEP CNN EXPLANATIONS SIGMOD 2019 Best Paper Runner-Up Supun Nakandala, Arun Kumar, Yannis Papakonstantinou (UCSD) 110
  101. 101. Convolutional Neural Network 111
  102. 102. Occlusion-based Explanation (OBE)  「CNN が予測時にどこを見ているか」を推定する方式のひとつ  画像の一部を隠して予測。スコアが大きく変わる点を「重要」とみなす  シンプルだが、重い  何回も何回も予測するため 112
  103. 103. この研究は OBE を DB 的に取り扱い、高速化  Convolutionを Relational Algebra (Join  Group-by  Aggregation) として扱う  計算の重複は逐次ビュー管理にして排除  画像の一部をマスクするだけなので、 大部分の計算は重複  キャッシュし再利用  複数の CNN 予測を Multi-Query Opt. に  GPUメモリを有効活用 113
  104. 104. 所感  ODE という問題自体に対しては「ちょっと大げさ」な印象  (Array-DB でよく見るような話)  一方「ニューラルネットにDB技術を応用/援用できる」と気づかせ てくれる eye-opening な研究と感じた(受賞理由も同様)  Convolution を Relational Algebra とみなす  Prediction を Query ととらえる  連続的が Prediction は Sequential Query となり、結果をキャッシュすれば Materialized View Maintainance になる  Multi-Query Optimization のテクニックも活用できる 114
  105. 105. SIGMOD に参加して  データベースコミュニティの「危機感」  このデータの時代において、論文の投稿数は横ばいか、やや減少傾向  他のコミュニティからの参加者も、少ない印象  若干「システム寄り」にも感じられる SIGMOD は余計に?  一方、新しい息吹や可能性も  Data Integration や Entity Matching などの「古典的で難しく、しかしビジネス上め ちゃくちゃ重要なDBの課題」が、機械学習技術の発展とその導入により、進展  Fairness や Interpretability など CS 全体での課題と DB 理論との接続  実応用、企業とのコネクションがより求められるように?  ほとんどの(純粋理論ではない)発表には「企業」の存在(企業研究所、共同研究)  理論・実装・ビジネス、すべてをこなすスーパーマンみたいな人がたくさん やっぱりデータベースは面白い! 115
  106. 106. 謝辞  参加するにあたり SIGMOD-J のご支援を頂きました  ご支援、誠にありがとうございます  発表の機会も頂きまして、誠にありがとうございます  現地でお世話になった方々、ありがとうございました  コーヒーブレイクでの議論のおかげで、様々の理解が深まりました 116

×