本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
GPU の分析への応用などの基礎技術の進化とクラウドの爆発的な普及に伴い、だれもが使いたいときに使いたい時だけ高性能なマシンリソースを使える時代が到来し、家電、スマホ、ビジネスアプリケーションなどありとあらゆるものに AI が搭載されているとうたわれ、一部のデータサイエンティストが担っていた高度な分析や深層学習のフレームワークもエンドユーザーで使いこなす人も少なくありません。
一方で、AI や深層学習という言葉が独り歩きし、まず AI 導入ありきでプロジェクトが始まり、目的が失われ頓挫するようなケースや、予測した結果についての妥当性について説明がつかず、結果がうまく利用できないようなケースも見られるようになってきました。
今回のセミナーでは、AI や高度な分析についての最新トレンドと、その使いどころについて、実際の事例や経験などを踏まえお伝えします。
10. AI の種類
• 理想: ⼈間のように考えて⾏動できる AI
⇒ 汎⽤的な AI = AGI: Artificial General Intelligence
⇒ 強い AI (Strong AI)
• ex) ドラえもん
• 現実: ⼈より巧みに⾏える物事が予め定義された⼀つに限定
⇒ 弱い AI (Narrow AI)
• ex) iPhone & Siri,Android & Google アシスタント
11. AI ができること・していること
• ⼊⼒に対して適切な出⼒を出すシステム
• 膨⼤な計算を膨⼤なエネルギーを使って
膨⼤な半導体を動作させて解答または選択肢を絞り込む
⇒ 強引なやり⽅
⇒ 数を撃てば当たるの総当たり戦略
• Machine learning is just statistics !
Gaming PC で⽣成
Illustration of Big Data で⽣成
12. ⼈と AI の⽐較
学習 規則性 判断
データ
セット
機械
学習
判断
Illustration of a doctor's face in a white coat で⽣成
Illustration of Artificial Intelligence で⽣成
14. ⾃動運転
• SONY が深層強化学習
プラットフォームを
利⽤して訓練された
⾃律型 AI を発表
• グランツーリスモ
SPORT を通じて
カーレーシングという
難度の⾼いスポーツを
マスターしたことは,
AI の⾶躍的進歩
• Nature に掲載
https://www.gran-turismo.com/jp/gran-turismo-sophy/
Gerdes, J. C. (2022). Neural networks overtake humans in Gran Turismo racing game.
15. 核融合炉の制御
• DeepMind (Google)が,
トカマク型核融合炉の
磁気制御を⾏える
AI の開発に成功
• Nature に掲載
Degrave, J., Felici, F., Buchli, J., Neunert, M., Tracey, B., Carpanese, F., ... & Riedmiller, M. (2022).
Magnetic control of tokamak plasmas through deep reinforcement learning. Nature, 602(7897), 414-419.
20. 学習型 AI のまとめ
• 定式化の複雑さを⼤量のデータで汎⽤性を⾼めた最適化
⇒ “データが少ない” や “(普通の) ⼈間が定式化できる”
⇒ 条件であれば数理最適化すれば良い
⇒ 普通の⼈間が定式化できるのであれば AI を使う必要はない
⇒ 医⽤画像領域では需要が⾒込める
⇒ 医療画像領域に限らず AI で導き出した結果に
⇒ 貢献した要因を説明できることが重要
⇒ (説明可能な AI)
Illustration of Artificial Intelligence で⽣成
21. 学習型 AI の弱点
• COVID-19 (新型コロナウイルス感染症) による影響
• マスクにより顔認証ができなくなった
• 消費者の購⼊パターンが変わり,購⼊予測が役に⽴たなかった
• ラベル付けできる速度に AI の進化は制限される
⇒ ⾃⼰教師あり学習や教師なし学習が主流になれば
⇒ さらなる⾶躍が⾒込まれる
a dog is putting with N95 mask で⽣成
26. Multimodal Artificial Intelligence
マルチモーダル AI
• 従来通りに 1 つのモダリティーのみを処理する単⼀の AI モデルは,
シングルモーダル AI (Single modal AI),ユニモーダル AI
(Unimodal AI)
• 数値/画像/テキスト/⾳声などの複数種類のデータ (= Modality) を
組み合わせて,もしくは関連付けて処理できる単⼀の AI モデル
• 2021 年頃から⾃然⾔語とコンピュータビジョンを取り扱う
マルチモーダル AI が注⽬
• マルチモーダル AI の代表例としては,
テキストから画像を⽣成する DALL·E2 などが挙げられる
27. AI が⽣成した画像
Sacred and wonderful oil painting of a messed up fat cat celebrating the arrival of a new era.
新しい時代の到来を祝福するメチャクチャ太った猫の神聖で素晴らしい油絵
Stability AI Stable Diffusion Stable Diffusion
28. DALL·E mini (⾔語から画像を⽣成)
• DALL·E mini
• 画像を説明する短いフレーズを⼊
⼒すると,⼊⼒されたテキストに
基づいて画像を⽣成するAIモデル
DALL·E mini の AI モデルは
3,000 万個のラベル付された画像を分析し,
単語と画素の間にある関係性を抽出することで収集した
統計パターンを利⽤して画像を作成
32. 乳がん
• 乳がんの発症を⾼い精度で予測できる AI モデルを MIT が開発
• 2009 年 1 ⽉ 1 ⽇から 2012 年 12 ⽉ 31 ⽇までの
39,571 ⼈ 88,994 件のマンモグラフィを使⽤
• ⼈の⽬では認識できない微細なパターンも特定できるように訓練
• ⼈種に関わらず⾼精度
Above: MIT/MGH AI model identified woman at high risk 4 years (left) before her breast cancer (right):.Image Credit: MIT CSAIL
33. 肺がん
• 肺がんの発症を⾼い精度で予測できる AI モデルを Google が開発
• 45,856 件の胸部 CT スクリーニング検査でがんが発⾒された症例
• Google の AI モデルは医師チームよりも
がんのケースを 5 %多く検知でき,誤診率は 11 %低かった
A promising step forward for predicting lung cancer https://www.blog.google/technology/health/lung-cancer-prediction/
End-to-end lung cancer screening with three-dimensional deep learning on low-dose chest computed tomography Nature Medicine (2019)
37. 先⾏研究との⽐較
• 99mTc-MIBI 副甲状腺シンチグラフィの感度の⽐較
Wei, et al. (2015) Treglia, et al. (2016) 本研究のモデル
Static像 SPECT SPECT/CT
SPECT/CT Static像
患者ベース 病変ベース 早期相 遅延相
63% 66% 84% 88% 88% 90% 93%
95% CI : 95% CI : 95% CI : 95% CI : 95% CI :
mFPI=0.58 mFPI=0.47
51 - 74% 57 - 74% 78 - 90% 84 - 92% 82 - 92%
Static 像のみで SPECT/CT 以上の検出感度
38. AI の判断基準の可視化
• Grad-CAM
Selvaraju, R. R., Cogswell, M., Das, A., Vedantam, R., Parikh, D., & Batra, D. (2017).
Grad-cam: Visual explanations from deep networks via gradient-based localization.
In Proceedings of the IEEE international conference on computer vision (pp. 618-626).
39. Grad-CAM による画像の分類根拠
• 近年,AI の可視化が必要だと⾔われている
⇒ AI が分類した根拠を Grad-CAM にて表⽰
• 胸部エックス線写真の撮影⽅向を判断するモデルを作成
(JRC 2021 に採択された演題)
• ⾻シンチグラフィで打撲と⾻転移を分類するモデルを作成
(RSNA 2021 に採択された演題)
1. Deep Convolutional Neural Network を利⽤した撮影画像と依頼オーダーの整合性判定
2. Differentiation of trauma and bone metastasis in the ribs of bone scintigraphy using AI,
and visualization of the site of interest of AI by Grad-CAM
50. ⼤規模データセット
RUSSAKOVSKY, Olga, et al.
Imagenet large scale visual recognition challenge.
International journal of computer vision, 2015, 115.3: 211-252.
55. 合成データ (Synthetic Data) の可能性
• AI の主流である深層学習では,膨⼤な教師データが必要不可⽋
• 現実世界に⾜りないデータを補うために “合成データ” を⽤いる
• コンピュータのアルゴリズムによって⽣成された,
限りなく実際のデータに近い⼈⼯データ
“ICCV2021” で Microsoft が発表した
“Fake it till you make it” は
合成データのみを⽤いて
⼈間の顔を解析できることを実証
←図11
学習データとして使⽤するために
ランダムに⽣成しレンダリングした合成顔
WOOD, Erroll, et al. Fake it till you make it: face analysis in the wild using synthetic data alone.
In: Proceedings of the IEEE/CVF international conference on computer vision. 2021. p. 3681-3691.
62. データやモデルのバイアスに対処
• 実世界の顔認識
• 特定のセンシティブ属性にデータが偏ることは容易に考えられる
⇒ 属性によって認識率に差が⽣じる
• 対策するには多数の属性の注釈を⾏う必要があり⾼コストとなる
⇒ センシティブ属性の注釈なしでバイアスを軽減させる⼿法を提案
Cao, Dong, et al. "Domain balancing: Face recognition on long-tailed domains." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.
Figure 3. There are three main modules: DFI, RBM and DBM. The DFI indicates the local distances within a local region.
The RBM harmonizes the representation ability in the network architecture, while the DBM balances the contribution in the loss.
63. 偏⾒がもたらす不公平
• AI は学習データやアルゴリズムの偏り,
学習データに (潜在的に) 存在する差別や偏⾒ (Bias) によって AI は
不公平で差別的になり得る.
• Black Lives Matter (BLM) ⇒ AI を⽤いた顔認証の問題提起
• バイアスの問題 ⇒ AI はバイアスを学習する
• 倫理,責任問題
• AI による差別やプライバシー侵害などが懸念
⇒ AI も社会のルールや倫理を守ることが求められている.
⇒ AI 倫理として,AI の公平性や有益性,説明責任,
プライバシー保護などを⽰し始めている.
67. 2D から 3D を⽣成する AI
R: Saito, Shunsuke, et al. "PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020. P.91 の Figure 7 より引⽤
L: Ying, Xingde, et al. "X2CT-GAN: reconstructing CT from biplanar X-rays with generative adversarial networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2019. P10625 Figure 6 より引⽤
• 教師データが豊富にある領域では
⼆次元画像から三次元形状を復元する試みが多数⾏われている.
69. LOZEN, Andrew, et al. Y-stent-assisted coil embolization for the management of unruptured cerebral aneurysms: report of six cases. Acta neurochirurgica, 2009, 151.12: 1663-1672. Fig.2 より引⽤
⼊⼒ 出⼒
三次元形状の復元