Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

科学を変えた10のコンピュータ・コード

2021/03/19(金) 【オンライン】はんなりPython #38 サクラな季節なLT会 発表資料

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all
  • Be the first to comment

  • Be the first to like this

科学を変えた10のコンピュータ・コード

  1. 1. 科学を変えた10の コンピュータ・ コード フォートランからプレプリントアーカイブまで、プログラミングと プラットフォームの進歩は、生物学、気候科学、物理学を新たな高 みへと導いたのです。JeffreyM.Perkel はんなりPython #38 サクラな季節なLT会 @TyaoiB 2021/03/19
  2. 2. Nature Vol 589 21January 2021 345 - 348 この読み物記事の紹介 です
  3. 3. 天文学から 動物学まで、 現代の偉大 な科学的発 見の裏には、 必ずコン ピュータが 存在する  2019年、リング状の光り輝くブラックホールの実際 の形状画像  通常の写真ではなく、アメリカ、メキシコ、チリ、 スペイン、南極にある電波望遠鏡で撮影されたデー タを数学的に変換し合成したものだ。  研究チームは、この偉業で使用したプログラミング コードを、論文と一緒に公開し、科学界の人々が成 果の共有と発展に資するようにした。  こうしたことは一般的な流れになってきている。  スタンフォード大学・計算生物学者マイケル=レ ヴィット  2013年のノーベル化学賞受賞  化学構造をモデル化するための計算ストラテジーの研 究。  現在のノートPCは、1967年当時に、受賞対象の研究 用に作ったコンピューターの約1万倍のメモリとク ロックスピードを備えている。  「今日、私たちは本当に驚異的な計算処理能力を手 にしている。」「問題は、それを活用するにはまだ 人間の思考力を必要とすることです。」
  4. 4. the scientist- coderの出番 です  強力なコンピュータ+研究課題に対応できるソフト ウェア+そのソフトウェアの書き方や使い方を知っ ている 研究者  英国エジンバラに本部を置き、科学分野におけるソ フトウェアの開発と利用の改善を目的とした組織で あるSoftware Sustainability Instituteのディレクター、 ニール・チュ・ホン氏  「研究は今や基本的にソフトウェアと結びついてい ます」  「研究活動のあらゆる側面に浸透しています」。
  5. 5. この記事の 焦点は…  過去数十年間において、研究を変えた重要なコード  このようなリストは決定的なものではない  過去1年間に何十人もの研究者に聞き取り調査を行 い、科学の世界に大きな影響を与えた10種類のソフ トウエアーツールの多様なラインナップを作成した。
  6. 6. 先駆的言語: Fortranコンパイラ 1957年
  7. 7.  最初の近代的なコンピューターは、ユーザーフレンドリーで はなかった。  初期:何万枚ものパンチカードを使ってコードを入力  機械語やアセンブリ言語の開発:コードでコンピュータをプロ グラミング  科学者に手の届かない言語:コンピュータ・アーキテクチャの 熟知を必要。  「formula translation」言語Fortranの登場が状況を一変  IBM社のジョン・バッカスとそのチームが開発  人間が読める命令を使ってコンピューターをプログラム  コンパイラは、その指示を高速で効率的な機械語に変換。  ニュージャージー州プリンストン大学の気候学者である真鍋淑 郎氏 「初めてコンピュータ科学者ではない自分たちでプログラムを組 むことができました」  現在Fortranは、気候モデル、流体力学、計算化学など、複雑 な線形代数を必要とする分野で広く使われている、強力なコ ンピュータで素早く数値を計算することができる。 高速化 されたコードの書き方を知るプログラマーは今でもたくさん いる。昔のFortranコードベースは、今でも世界中の研究室や スーパーコンピュータの中で生き続けています。
  8. 8. 信号処理装置: 高速フーリエ変換 (FFT) 1965年
  9. 9.  電波天文学者が空を観測するとき、時間とともに変 化する複雑な信号の不協和音を捉える。 電波の性質を理解するには、その信号が周波数の関数 としてどのように見えるかを見る必要がある。 それを可能にするのが、フーリエ変換と呼ばれる数学 的プロセス。 しかし効率が悪く、N個のデータセットに対してN2個 の計算が必要となる。  米国の数学者クーリーとチューキー  このプロセスの高速化方法FFTを発見。  アルゴリズムを繰り返し適用する再帰を用いて、 フーリエ変換の計算問題をわずかN log2(N)ステップ に簡略化。  速度は、Nが大きくなるほど向上。  1,000点の場合は約100倍、100万点の場合は約5万倍の スピードアップになります。  FFTはコードで何度も実装され、人気のあるオプ ションの1つはFFTWと呼ばれ「西欧で最速のフーリ エ変換」と呼ばれている。
  10. 10. デジタル信 号処理、画 像解析、構 造生物学な どへの応用 が可能に なった。  「これは、応用数学と工学における偉大な出来事の 1つです」(英国オックスフォード大学の数学者 ニック・トレフェセン)  米国ローレンス・バークレー国立研究所分子生物物 理学・統合バイオイメージング部門ポール・アダム ス  1995年にバクテリアのタンパク質GroELの構造を精 密化したFFTとスーパーコンピュータを使った。 「計算には何日も何時間もかかった」「FFTを使わず に計算しようとすると、永遠にかかってしまうだろ う」 実はドイツの数学者ガウスは1805年に、この問題を 解決したが発表しなかった。
  11. 11. 分子のカタログ化: 生物学的データベー ス (1965) 今日の科学研究に不可欠なデータベースの背景に はソフトウェアの存在は忘れられがち
  12. 12. 過去数十年の 間に、データ ベースは規模 を拡大し、 様々な分野を 形作ってきた が、生物学ほ ど劇的な変化 はなかっただ ろう。  今日の膨大なゲノムやタンパク質のデータベースの 端緒は、米国のバイオインフォマティクスの先駆者、 マーガレット・デイホフの研究。  1960年代初頭、生物学者がタンパク質のアミノ酸配 列の解明に取り組んでいた  異なる種間の進化的関係の手がかりを求めて、1965 年には、当時判明していた65種類のタンパク質の配 列、構造、類似性を記載。  データをパンチカードでエンコードしており、デー タベースの拡張や検索が可能だった。  その後、他のコンピュータ化された生物学的データ ベースが登場。  1971年:17万以上の高分子構造を持つ「Protein Data Bank」公開。  1982年:米国国立衛生研究所のDNAアーカイブ 「GenBank」の原型が公開。
  13. 13. 「この発見 は客観的な 生物学の到 来を意味す る。」 (NCBIオス テル氏)  1983年7月、ロンドンの生化学者、ウォーター フィールドとドゥーリトル  ヒト成長因子とサルの癌ウイルスのタンパク質配列 間の類似性を報告。  この結果は、ウイルスが成長因子をまねて、細胞の 無秩序な増殖を引き起こすことを示唆。 「この発見は、コンピュータや統計学に興味のな かった生物学者たちは、配列比較で、がんについて 何かを理解することができることに気づいた。」 (NCBIオステル氏)
  14. 14. 「大学院生当 時、 Entrezを 使っていて魔 法のようだと 思ったもので す」 (NCBI現 所長代理ス ティーブン・ シェリー)  1991年:NCBIのプログラマーがEntrezを開発  DNA配列からタンパク質配列、文献までを研究者が 自由に移動できるようにするツール。 研究者は、  仮説検証のための実験をする研究  公開データセットから、実際にデータを収集した人 が思いつかなかったような関連性を見つけ出す研究 ができるようになった
  15. 15. 気象予測の 先駆け: 大循環モデル (1969)
  16. 16. コンピュー ターの先駆 者フォン・ ノイマン  第二次世界大戦末期、コンピューターを天気予報に も応用開始。  それまでの天気予報:経験と勘で予測するものだっ た。  フォン・ノイマンのチーム:「物理法則に基づいて 数値的な気象予測」を目指す。  1940年代後半:フォン・ノイマン、プリンストン大 学高等研究所に気象予測チームを設立  1955年:地球物理学的流体力学研究所の第2チーム が、ノイマンが「無限の予測」と呼ぶ気候モデルの 研究を開始。  1958年:チームに加わった真鍋は大気のモデリング に、同僚のカーク・ブライアンは海洋のモデリング に着手。  1969年、この2つのモデルを組み合わせることに成 功し、2006年の『Nature』誌で科学技術計算の「マ イルストーン」と呼ばれたモデルが誕生。
  17. 17.  米国海洋大気庁の地球流体力学研究所モデリングシ ステム部門ヴェンカトラマニ・バラジ氏  「予測のための方程式は何十年も前から知られてい たが、初期の気象学者はこの問題を現実的に解決す ることができませんでした。」  「現在の状況を入力し、それが短期間でどのように 変化するかを計算し、それを繰り返すという、非常 に時間のかかる作業を行わなければならなかったた め、気象が追いつくまでに数学を完成させることが できなかった。」  「コンピュータはこの問題を扱いやすくしたので す。」
  18. 18.  現在のモデルでは、地球の表面は25×25キロメート ルの正方形に、大気は数十レベルに分割されている。  一方、真鍋とブライアンが開発した海洋と大気の統 合モデルでは、500km四方の正方形と9つのレベル を使用し、地球の6分の1しかカバーしていない。  それでもバラジ氏は言う: 「あのモデルは素晴らしい仕事をしてくれました」 「二酸化炭素濃度の上昇がもたらす影響を初めてイ ンシリコで検証することができたのです。」
  19. 19. 膨大な量の数字や情 報を取り扱い分析す る標準規格: BLAS (1979)
  20. 20.  科学技術計算では,ベクトルや行列を使った、非常 に多くの極めて単純な数学的演算が行われる。  1970年代:このような演算を行うための世界共通の 計算ツールがなかった。  科学分野のプログラマーは、基本的な数学を実行す るための効率的なコードの作成に時間を費やし、科 学的な問題に集中することができなかった。
  21. 21. プログラミン グの世界が必 要とした標準 規格「Basic LinearAlgebra Subprograms (BLAS6)」 の制定 (1979) 1990年まで進化し続けたこの標準規格は、ベクトル、 そして後には行列の数学のための基本的なルーチン を何十も定義している。  一般的な関数の名前を標準化  BLASを使ったコードはどのコンピュータでも同じ ように動作することを保証。  コンピュータメーカーは、自社のハードウェアで高 速に動作するようにBLASの実装を最適化。  現在、BLASはサイエンティフィック・コンピュー ティング・スタックの心臓部であり、科学ソフト ウェアを動かすコードとなっている。
  22. 22.  テネシー大学ノックスビル校のコンピュータ科学者 で、BLAS開発チームのメンバー ジャック・ドン ガラ氏 「BLASは、行列やベクトルの数学を、足し算や引き 算と同じような基本的な計算単位にまで落とし込ん だのです」 「コンピューティングを行うための布地を提供して います」  テキサス大学オースティン校のコンピュータ科学者、 ロバート・ヴァン・デ・ゲイン氏 「BLASは、科学的な計算のために定義されたイン ターフェースの中で、おそらく最も重要なもの」
  23. 23. 顕微鏡の必需品: NIH Image (1987)
  24. 24. 1980年代初 頭、米国国 立衛生研究 所の脳画像 研究室に所 属のプログ ラマー、 ウェイン・ ラズバンド  デジタル化したX線フィルムをコンピューター上で 表示したり分析したりするためのプログラムを、15 万ドルもするPDP-11ミニコンピュータ用に作成。  1987年:アップル社から出た親しみやすく手頃な価 格で、実験室で画像を解析するのに最適な「マッキ ントッシュII」に移植した。  NIH Imageとその後継製品は、研究者があらゆるコ ンピュータであらゆる画像を表示し、数値化するこ とを可能にした。  ImageJは、1990年代からほとんど変わっていない、 シンプルで最小限のユーザーインターフェースを備 えています。しかし、内蔵されているマクロレコー ダー(マウスのクリックやメニューの選択を記録し てワークフローを保存できる)、幅広いファイル フォーマットへの対応、柔軟なプラグインアーキテ クチャなどにより、無限の拡張性を備えている。
  25. 25.  ソフトウェアファミリー:  WindowsおよびLinuxユーザー向けJavaベースの ImageJ  ImageJのディストリビューションFiji  ブロード研究所のイメージングプラットフォームに 所属する計算生物学者のベス・シミニ氏 「ImageJは、私たちが持っているツールの中で最も基 礎的なものであることは間違いありません」 「イメージャーやその派生プロジェクトであるフィ ジーを使わずに顕微鏡を使ったことのある生物学者と は、文字通り話をしたことがありません」  この理由のひとつは「これらのツールが無料である こと」(ラズバンド氏)
  26. 26. 配列検索ツール: BLAST (1990)
  27. 27. 動詞化した ソフト名: 検索なら Google 遺伝学なら BLAST  進化による変化は、置換、欠失、ギャップ、再配列 として分子配列に刻み込まれる。配列間の類似性、 特にタンパク質間の類似性を検索することで、研究 者は進化上の関係を発見し、遺伝子機能を知ること ができる。  それゆえに、急速に膨らむ分子情報のDBを、迅速 かつ包括的に検索することが重要。
  28. 28.  1978年:デイホフは、「ポイント・アクセプタン ス・ミューテーション」マトリックスを考案。 2つのタンパク質の関連性を、その配列の類似性だけ でなく、進化的な距離にも基づいて評価できるように した。  1985年:ウィリアム・ピアソンとデビッド・リップ マンは、このマトリックスと高速検索機能を組み合 わせたアルゴリズム、FASTPを発表。  1987年:リップマン、ウォーレン・ギッシュ、ス ティーブン・アルチュル、ウェブ・ミラー、ジー ン・マイヤーズは、さらに強力な改良版「Basic Local Alignment SearchTool(BLAST)」を開発。  1990年:BLASTは、急速に増大するデータベースを 扱うために必要な検索速度と、より進化的に遠いが マッチする配列を拾う能力を併せ持つ。
  29. 29.  データベースの更新が郵送で行われていた時代に、 ギッシュは電子メールシステムを構築し、後には ウェブベースのアーキテクチャを構築した。  これにより、ユーザーはNCBIのコンピュータ上で 遠隔地から検索を行うことができ、検索結果は常に 最新の状態に保たれることになる。  ハーバード大学の計算生物学者ショーン・エディ氏 「このシステムは、当時まだ始まったばかりのゲノム 生物学の分野に、未知の遺伝子がどのような働きをす るのかを、関連する遺伝子に基づいて解明するという、 画期的なツールをもたらした。」 「世界中のシーケンシング研究室にとっては、巧妙な 新語となった。BLASTingは動詞になったものの1つで す。"BLASTing your sequences "という言葉が出てきま した。」
  30. 30. Preprint powerhouse: arXiv.org (1991) 当日版では紹介しませんでした
  31. 31.  1980年代後半:一部の高エネルギー物理学者たちは、 投稿した原稿の物理的なコピーを、友人や礼儀とし て同僚に郵送していた。  物理学者のポール・ジンスパーグ曰く(2011年) 「食物連鎖の下位にいる者は、Aリストに載っている 者の恩恵を受けており、エリートではない機関に所 属する意欲的な研究者は、特権の輪から完全に外れ ていることが多かった。」  (注:プレプリントは、学術雑誌に投稿する最終原 稿。投稿後、掲載までには当時数ヶ月から半年か かったので、投稿とともに情報を共有することは最 新データをいち早く知ることができるという恩恵が あった)
  32. 32.  1991年:ロスアラモス国立研究所に所属していたジ ンスパーグは、競争条件を平等にするために、電子 メールの自動応答システムを開発。  購読者は,論文の識別子が付いたプレプリントのリ ストを毎日受け取ることができ、  1通のメールで、研究所のコンピュータシステムから 論文を投稿したり、取得したり、新しい論文のリス トを入手したり、著者やタイトルで検索したりする ことができるようになる。  当初計画:記事の保存期間は3ヶ月で、内容は高エネ ルギー物理学のコミュニティに限定。  同僚の説得:無期限保存に。"掲示板からアーカイブ に変わった瞬間”  1993年:ジンスパーグ氏の専門分野よりもはるかに 遠い分野の論文が殺到し、ジンスパーグはこのシス テムをWWWに移行  1998年:現在のarXiv.orgに改称
  33. 33. 今年30周年 プレプリン ト掲載数180 万件、すべ て無料  2011年:20周年を記念してNature Photonics誌の編集者曰く、  「arXivがこれほど人気のあるサービスである理由を理 解するのは難しいことではない」  「このシステムは、研究者がいつ何をしたかを示すフ ラグを立てるための迅速かつ便利な方法を提供し、従 来のジャーナルでの査読に必要な手間と時間を回避し ている」  この成功から、生物学、医学、社会学などの分野でBioarXiv など姉妹アーカイブのブームが起った。  その影響は、今日、SARS-CoV-2というウイルスについて発 表された何万ものプレプリントに表れている。 (注:SARS-CoV-2のケースでは、昨年1月に各国の最新データが 早々に明らかにされ各研究グループが投稿前論文への公開コメン ト欄で議論が伯仲し論文としてパブリッシュされるという展開を みせた)  30年前には素粒子物理学界の外では異端視されていた方法論 が、今では一般的に明らかで自然なものとみなされているこ とは喜ばしいことです。その意味では、研究プロジェクトの 成功のようなものです(ジンスパーグ氏)
  34. 34. Data explorer: IPython Notebook (2011)
  35. 35.  Pythonはインタプリタ型言語で、プログラムは一行 ごとに実行されます。  プログラマーは、REPL(Read-evaluate-print loop) と呼ばれる一種の計算上のコール&レスポンスツー ルを使うことができ、コードを入力するとインター プリターがそれを実行する。  たとえば、コードのモジュールを簡単にプリロード したり、データの可視化を開いたままにしたりする ことはできなかった。そこでェルナンド・ペレスは 独自のバージョンを作成した。
  36. 36. データサイ エンスの革 命  その結果が、ペレスが2001年12月に発表した259行 の「インタラクティブ」なPythonインタープリタで ある Ipython。  2011年:ペレスは物理学者Brian Granger、数学者Evan Pattersonと協力して、このツールをWebブラウザに 移行させ、IPythonノートブックを立ち上げた。
  37. 37.  IPythonノートブックは他の計算ノートと同様、 コード、結果、グラフィックス、テキストを1つの ドキュメントにまとめた。  他のプロジェクトとは異なる点 オープンソースであり、多くの開発者コミュニティから の貢献を求めた。 科学者に人気の言語であるPythonにも対応。  2014年:IPythonはProject Jupyterへと進化 約100種類の言語をサポート。 ユーザーは遠隔地にあるスーパーコンピュータ上の データを自分のラップトップと同じように簡単に調べ ることができるようになった。
  38. 38. データサイ エンティス トにとって、 Jupyterはデ ファクトス タンダード として登場 した (Nature, 2018)  「当時、コード共有プラットフォームGitHubには 250万冊のJupyterノートブックがありましたが、現 在では、2016年の重力波の発見や2019年のブラック ホールの撮像を記録したものを含め、1000万冊近く になっています。私たちがこれらのプロジェクトに 少しでも貢献できたことは、非常にやりがいのある ことです」(ペレス氏)
  39. 39. 高速学習: AlexNet (2012)
  40. 40. 2つのタイプ の人工知能 (AI) 1. 成文化されたルールを用いるもの 2. 脳の神経構造をエミュレートしてコンピュータ に「学習」させるもの  「何十年もの間、AIの研究者たちは後者のアプロー チを意味のないものとみなしていた」(トロント大 学ジェフリー・ヒントン)
  41. 41.  ImageNet:100万枚の日常的な物体の画像データ ベースを使ってAIを学習させ、その結果得られたア ルゴリズムを別の画像セットでテストするという、 毎年行われている研究会  2012年:トロント大学ジェフリー・ヒントンの大学 院生であるアレックス・クリジェフスキーとイリ ヤ・スツケバー  当時の最高のアルゴリズムでは、約4分の1の画像が 誤って分類されていた。2人が開発したAlexNetは、 ニューラルネットワークをベースにした「深層学 習」アルゴリズムで、このエラー率を16%にまで低 減した。  十分な量の学習データと優れたプログラミング、そ して新たに登場したグラフィカル・プロセス・ユ ニット(元々はコンピュータのビデオ性能を向上さ せるために設計されたプロセッサ)の能力が組み合 わさった結果だった。
  42. 42.  2009年、本当の意味でのアルゴリズムのブレークス ルーは、起きていた。  「それは、数十年かけて改良された従来のAIよりも 正確に音声を認識できるニューラルネットワークを 開発したときのことでした。」(ヒントン)  これらの勝利は、研究室や診療所などでの深層学習 の台頭の先駆けとなった。携帯電話が音声による問 い合わせを理解できるのも、画像解析ツールが写真 の中の細胞を簡単に取り出すことができるのも、 ディープラーニングのおかげである。AlexNetは、 科学を、そして世界を根本的に変えてきた数多くの ツールの中で、その地位を確立している。

×