Successfully reported this slideshow.
Your SlideShare is downloading. ×

Wikipedia science ai_online_discussion

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Loading in …3
×

Check these out next

1 of 36 Ad

More Related Content

Similar to Wikipedia science ai_online_discussion (20)

More from Tomoaki Watanabe (20)

Advertisement

Recently uploaded (20)

Wikipedia science ai_online_discussion

  1. 1. ウィキペディアの集合知、 データ駆動型の知、制度とし ての科学研究、ネットの言論 渡辺智暁(慶應大学) シンポジウム「大学におけるウィキペディアの利活用と課題」 2019.09.28 於:東京経済大学
  2. 2. 簡単な自己紹介 • 社会科学者:情報社会論・情報通信政策 • 「オープン化」は大きな興味のひとつ • ネットワークインフラのオープン化(回線開放政策、ネット中立性) • ソフトウェア開発のオープン化(オープンソース) • 政策決定プロセスのオープン化(マルチステークホルダープロセス) • ガバナンスのオープン化(ボランティアの自治によるサイト運営) • データ利用のオープン化(オープンデータ) • 教育のオープン化(提供者・受益者の制約緩和) • モノづくり分野のオープン化(製造設備・手段の廉価化・普及) • 異質な者の排除や排外主義とロボットやAI • etc.
  3. 3. オープン化:ウィキペディアの例 • 百科事典の編纂を不特定多数に開放する • 百科事典の複製や改変を(著作者の排他的権利のままにしておかず) 不特定多数に許諾し、人々の判断に委ねる • 百科事典サイトの運営を利用者の自治に委ねる • 百科事典サイトの基幹ソフトウェアを不特定多数の有志の開発に委ね る • その複製や改変を(著作者の排他的権利のままにしておかず)不特定 多数に許諾し、人々に委ねる • (寡占的な市場であった百科事典に従来と違ったアプローチで新規参 入する)
  4. 4. とりあげたい問い:知の生成プロセス 1.ウィキペディアとネット言論の比較 • ウィキペディアは案外うまく行っているように見える • 最近はネット言論はフェイクや歪曲や党派対立や誹謗中傷やヘ イトやらで、あまりうまく言っていないように見える →どちらも不特定多数に開かれたプロセスだが、両者の違いは何 か?
  5. 5. とりあげたい問い(2) 2.学術研究の制度に関する山ほどの問題 ・ウィキペディアとの比較で 査読の有効性(限界) ・AI、ビッグデータ系のデータ駆動型の知との比較で 因果関係の立証手続きとしてのCRT 方法論としての問題 学術研究を取り巻く環境・参加者の動機の問題 →学術研究は参加者の構成的にも、方法論的にも、制度的にも、 問題があるようだ。
  6. 6. とりあげたい問い(3) 3.こうした断片的な考えを整理しようとするとどうなるか? ・既存の科学的研究に照らして妙なところがあるAI・ビッグデー タ系研究もそう悪くない ・ウィキペディアも案外正しい →既存の科学よりも優れた代案があるのか? vs. そもそも知を生み出すプロセスから、正しさの保証を調達 しようとすることが期待過剰なのではないか?
  7. 7. ウィキペディア vs ネット言論 • ウィキペディアは案外正しい • ネットの言論にはかなりひどいものもある • 「ネットの自浄作用」は働かない? • ならば言論の自由を制限するような政策を政府が打つことも正当化さ れる? • 「ウィキペディアの自浄作用」は働いている?
  8. 8. ウィキペディアの「自浄作用」? • 投稿される内容は相対的に問題が少ない? • 歪曲、虚偽、不当な価値判断…など • 比較は難しいが、量として「少ない」わけではない。 • アクティブな参加者には、ウィキペディアの方針や目的におおむね共 感している人が多い、ぐらいは言えるだろう • ウィキペディアは「集約」するメディアである。 • いろいろな人が好きなことを書いていればよい、わけではない • 記事としての一貫性が(読者のために)求められる • 「棲み分け」や「分断」は自然発生しづらい • 特定の記事の内容をめぐり、あるいは記載順序などを巡り、争いが起 こりやすい構造とも言える
  9. 9. ウィキペディアの「自浄作用」?(2) • 整合性を確保するための重要な方針が存在する • 情報源に関する方針 = 判断者の制限 • 投稿者が真であると信じているだけの見解の類は受け付けない • 信頼できる情報源に掲載されている情報の、出典付き記載を受け付ける • 信頼できる情報源の掲載内容の真偽は原則問われない • 言語行為的な次元の制限: • 紹介・解説はOK、主張はNG
  10. 10. ウィキペディアの「自浄作用」?(3) • 理論的には、完璧ではない • 「何をどうまとめるか」「どう形容するか」「どの順序で記述するか」などをめ ぐる争いは起こりうる。 • 「信頼できる情報源」の判断を巡る争いも起こりうる • 叙述が読者に与える印象も、それによって左右される。 • 実態としては、かなり効果があるのでは • かなり多くの紛争の種が解決される • ウィキペディアで「集約」される情報は、「学術的に主流派の説を大 きく紹介」「俗説や極論は紹介するとしても扱いが小さい」ものにな りやすい
  11. 11. • とりあえずの結論:ウィキペディアはーー • 多様な意見を記事として一貫性のある形で集約するメディアであり • 集約にあたって取捨選択を決める効果的な方針がある • その帰結として、「変わった意見」は少なく「信頼できそうな情報」 は多い • 3つのコメント・留意点: 1.ウィキペディアは「真理」ではなく「主流派の見解」を説明するこ とに主眼をおいている。 2.これは集合知と呼ぶべきものか、疑問がある 3.ネットの言論もウィキペディアのマネをすればうまく行くのか?
  12. 12. 1.真実と主流派説の違い • 時代の常識に影響され、後には間違いとされるような考え方 • 人種、性などについての意見 • 病気の原因やメカニズムについての説明 • 等々 • 真実の追求はそもそも放棄しているとも言える • 信頼できる情報源よりも、参加者の判断を下に置いているとも言えるのでは?
  13. 13. 2.「集合知」? • 人々の知を持ち寄って、より優れた知にしている • そういう面もある。(信頼できる情報源の持ち寄り等) • 参加者は独自の意見や判断をあまり行使しない • 「信頼できる情報源」の制作者の判断に依存する度合いが高い • 集合知としてはかなり限られたタスクにしか取り組んでいない のではないか?
  14. 14. 3.ネットの言論への示唆 • 「集約」を試みても、ウィキペディアのような取捨選択の指針がな ければ機能しないだろう。 • ウィキペディアの方針はネットの言論にはあてはめにくい • ネットの言論が「信頼できる情報源」のみを扱うべきか? • 一次資料を援用した言論を控えるべきか? • 主流派の説の説明を中心とすべきか? • 信頼できる情報源で取り上げていないような事柄について沈黙を守るべき か? • ただ、言論のためのプラットフォームは、参加者による自治のため のツールやアーキテクチャー、方針の共有促す仕組みなどがウィキ ペディアに比べてずっと乏しい。 • ここは何か学ぶ余地があるのでは?
  15. 15. 科学 vs. ウィキペディア
  16. 16. ウィキペディアと学術的な百科事典 • 英語版を対象とした品質比較調査では、ほぼ同等 • 正確さにおいて優れていると出ることも • 何故なのか? 1.そもそも専門家による記事に誤りが含まれているのは何故なのか? 2.そもそもウィキペディアがまっとうな品質になるのは何故なのか?
  17. 17. ウィキペディアの品質(含:正確性)確保の 方法 • そもそもウィキペディアは何故カオスにならないのか? →参加者の動機、ガバナンス、品質改善のツールなどの組み合わせ • 荒らしたい人<意味のある貢献をしたい人 (落書き等) • 情報の取捨選択・紛争処理のわかりやすいルール(前述) • 問題のある投稿を発見するための仕組みがサイトに様々に組み込まれている = 透明性が高く、相互監視が可能 • 問題のある投稿・投稿者に対処するツールが多く存在する。 • ウィキペディアにおける攻撃側と回復側のパワーバランスが、回復側に有利 になるようにツールが開発され続けて来た
  18. 18. 学術論文の「査読」 • 執筆者の名前と査読者の名前は、互いに対して明かされない • 当該分野の専門家が査読を担当する • 規定の基準に従って内容を評価する • 編集長などが複数の査読者の評価を踏まえて採否を決める • 書き直しを条件とした採用などもある • →書き手の資格は問わない、内容だけを問う制度に近い ※但し日本では学会の会員以外からの投稿を受け付けていない論文誌も ※百科事典類には学術論文にあるような査読があるとは限らない
  19. 19. 査読の弱点(抄) • 捏造には弱い • 発見される場合でも時間がかかる • 隠ぺいにはもっと弱い • 意外なパターンの発見、強い効果は評価されやすく、「あると思っ たパターンが見つからなかった」報告は評価が低い • (いわゆる出版バイアス。そもそも研究者側も出版しようと試みもしない傾 向も。) • 強い効果は他の目的の研究をしている際に、偶然見つかることがあ るが、本来の目的とはズレていることもあり、小規模データを元に 報告される。→大規模データで再現しようとするとできないことが 多い。= 偶然の産物でしかないものが評価され、広まってしまう
  20. 20. 顕著な被害のひとつ:脂質v糖質 • 1960年代の心疾患関連のレビュー論文 • レビュー論文:数々の研究を比較し全体的な傾向を報告する • 脂質の影響を強調し、糖質の孕むリスクを無視するような形で レビュー論文を執筆 • 近年になって、執筆者の一人が砂糖業界とのつながりを持ち、 資金供与を受けていたが開示されていなかった、原稿の内容に ついて砂糖業界の人の要望を満たす意図で執筆していることを 業界の人に連絡している、などの事実が明るみに。 • 数十年の間かなりの影響力を持ったとする説がある。
  21. 21. 顕著な被害のひとつ:再現性の危機 • 既存の主だった論文に報じられている効果(パターン)を再現 しようとすると、かなり高い確率で再現できない。 • 心理学:再現できたのは40%だけ • がん生物学:10%だけ(!) • ウィキペディアよりはるかにひどい惨状とも言える
  22. 22. 科学を見放すべきか? • そうとも思えない。 • 研究の方法や査読制度、その他の制度形成を通じて、こうした 問題への対策も部分的には導入されている • e.g. 隠ぺいを防止するために、臨床試験は事前登録を義務付ける
  23. 23. ウィキペディアは学術研究と遜色ない? • ウィキペディアは「信頼できる情報源」の集積サイト(前述) • 学術研究は、そもそも信頼できる情報源が報じていない領域に ついて探索し、パターンを見つけていくような営み。 • つまりWPより遥かにに合意形成が困難な知的活動に取り組んでいる • ただ、「ウィキペディアは査読を受けていないから」信用でき ない、という意見は、査読を過剰評価しているだろう。
  24. 24. 科学 vs. データ駆動型の知(AI・ビッグ データ)
  25. 25. (従来の)科学 vs AI・ビッグデータ データ駆動型の知の称賛派 • 「既存の科学の手法は古い」 • 網羅性の高い/悉皆データを分析するので、代表性やバイアスにつ いて気にする必要がない • 因果関係の探求は不要で、相関関係だけがわかればよい データ駆動型の知への懐疑派 • 理論なき経験則の蓄積 • 膨大なデータ解析は人間にも理解不可能・細部に注目すると不可 解・非合理的な判定も含まれる
  26. 26. 実は従来型の科学研究にも類似の問題 • Randomized Controlled Trials(ランダム化比較試験) • 医薬品の承認課程でも非常に重要な役割を担っている手法 • 「証拠に基づく医学」を推奨するムーブメントでも重視される手法 • 問題が盛りだくさん • 実際には高額・長期間・大規模で再現が極めて困難 • 得られるのは、異なる条件下での被験者の反応の違いのみで、「因果 関係についての知見なき経験則」が生み出されることが多い • 限定された種類の被験者だけを対象に選定するため、医薬品を必要と する患者さん全般にあてはまるかどうかが不明 • 研究資金を提供する製薬会社に不都合な結果の隠ぺいも起こる • 等々
  27. 27. データ駆動型の知は科学に優る? • 実際に機械学習による解析結果を報告する論文などを読むと、… • データの偏りから来る結果の偏りについても議論する • 人間に理解不能な結果をより理解しやすいようにする • 一部の過激な肯定論とトーンが違う。むしろ平凡な科学の一部たろうとして いるところも。 • データ駆動型の知は別格であるという議論はあまり支持できない • データ駆動型の知は従来型の科学の規範にあてはまらないので支持 できない、という議論は科学の規範が現に行われている科学研究に もあてはまっていないことに無自覚 • AIは特に従来の科学を凌駕・代替するものではないにせよ、 • 却下する必要があるほど異質ではない。 • 従来の科学の営み同様、まだまだ改善が必要な、不完全なところのあるプロ セス
  28. 28. まとめ
  29. 29. • ネットの言論も、科学研究も、ウィキペディアのように「信頼 できる情報源の内容の集約」というタスクよりもはるか合意形 成が難しいタスクに取り組んでいる • だからうまく行かないところがあるのも無理はない、かも。 • ネットの言論プラットフォームにも、参加者による自治のため のツールをもっと提供し、運営のオペレーションの権限を委任 し、方針を共有させるようなものがもっとあってよいのではな いか?
  30. 30. • 科学の研究も理想とは程遠い現状にある • 改善の余地があり、改善の取り組みもある • ウィキペディアは査読がないからダメ、はその科学の現状に照 らして行き過ぎた拒否反応 • AIやビッグデータは方法論的に問題があり、因果関係の解明や 人間にとっての理解可能性がないからダメ、も行き過ぎ
  31. 31. 集合知の観点からのまとめ • ウィキペディアのコンテンツは集合知としての特筆性は弱いのでは ないか • ウィキペディアの自治の仕組みについては、まだまだ学ぶところが あるのではないか • 狭い領域ではあるが、それなりのレベルで機能していると評価すべ き • 2000年代後半のウィキペディアといい、2010年代後半のAIといい、 新しい知の生成方法を過度に批判し、既存の科学や学術研究の営み を過度に理想化してしまうことには要注意。
  32. 32. 大学における教育・研究との関わり • 引用してはいけない正当な理由があるとしたら… • (英語版については、)誤りが多いからではないのでは? • お手軽過ぎて、調査のスキル・習慣の習得の役に立たないからでは? • 執筆や翻訳を通じて関わる学習の形はアリでは。 • 学術研究はウィキペディアにとっては、健全に機能してもらわない と困る存在 • ウィキペディアの記事の査読による協力もアリでは • (ただし過剰な期待は禁物) • 総説論文のようなものをオープンライセンスで提供し、ウィキペディアで取 り込めるようにするともっと育つ • 日本の場合はそれ以前に、学術資料の電子化、オンライン公開
  33. 33. パネル討論等から更に考えたことのメモ ウィキペディアを参考文献とすることの是非 • 孫引きはNG、原典をあたれ、という方針に基づくウィキペディアの 引用の禁止は、まあわかる。 • その線で考えると、マスコミ系の資料や解説書の類でもNGになると思うので、 ハードルが高いかも、とも思う。 • 学術論文であっても、ウィキペディアの記事であっても、信頼でき る度合いは実は様々なのでそれを踏まえた多様・柔軟な対応をする べき、というのがひとつの正論だろう。 • だが、そのような方針は運用コストが高い。教員も具体的にどの文献はよい、 悪い、という判定を簡単にできるわけではない。 • そうであれば、学会や査読や学術研究者といった要素と結びついている学術 論文はOK、信頼してよい根拠がそのような権威と無縁なウィキペディアは一 律NG、というのは便宜的な方針としては、わからなくはない。
  34. 34. 更に考えたことのメモ(2) • 個別の論文に報告されている知見が再現できないことについては、 科学者は特に驚かない。* • レビュー論文やメタ分析、システマテイック・レビューなどを参照し、多く の研究の傾向を把握するリテラシーを科学者であれば持っているだろう。* • では大学のレポート課題の参考文献についての方針はそれを踏まえ ているかというと、そうでもない。 • ついでに言えば、ウィキペディアの信頼できる情報源に関する方針も、同様 の問題を孕んでいるのでは。 *この辺りは時実先生の示唆による
  35. 35. 更に考えたことのメモ(3) • 何故再現性が低い研究が多いか? • 制度や関係者の動機面に起因するところもあると思う(前述) • それとは別に対象の複雑さに起因するところもあると思う。 • あるパターンの生気を左右する要因が多数あり、それらを簡単には列挙でき ないような、そういうパターンを研究している場合には、ある条件下で観察 されたパターンを再現しようにも、どういう条件下で再現できるのかも容易 に解明できない。 • 再現性も低くなるし、小さな、個別論文単位の研究の蓄積を通じてその複雑 さに呼応する理論・モデルを作れるかは、保証の限りではないだろう。 • 社会を扱う社会科学、人体を扱う医学などはこの問題に直面しやすい • 特定少数の変数に着目すれば幅広い範囲の事象が予測・説明できる、という度合いが 低い。 →科学の制度改革や社会的条件・環境の改善だけでは解決しない面が残るのでは?
  36. 36. 本資料のライセンス • この資料はCC BY 4.0 国際 (creativecommons.org/licenses/by/4.0/)で提 供されています • 著作者名:渡辺智暁 • なお、ライセンス本文中に言及がある「著作権表示」、「無保証を参照す る表示」にあたるものはありません。 「本パブリック・ライセンスを参 照する表示」にあたるのは上の一文だけです • そこで、この資料を利用して別の資料を作成した場合などには、たとえば、 以下のような表示をすればよいことになります。(それに加えて、合理的 に実施可能な場合にはこの資料のURLを記載します。): 「この資料の一部は、渡辺智暁による資料を改変の上利用しています。 利用した資料のライセンスを参照する表示:『この資料はCC BY 4.0 国際 (creativecommons.org/licenses/by/4.0/)で提供されています。』」

×