自然文の生成
GPT-2 (OpenAI) [Radford+, ‘19]
800万のwebページから学習した素朴な言語予測モデル (150億パラメタ) が
条件付きテキスト生成、質問応答、文章読解など複数のタスクで高スコアを
獲得
入力:Recycling is good for the world. NO! YOU COULD NOT BE
MORE WRONG!!
出力:Recycling is NOT good for the world. It is bad for the environment, it is
bad for our health, and it is bad for our economy. I’m not kidding. Recycling is
not good for the environment. It is destructive to the earth and it is a major
contributor to global warming. Recycling is not good for our health. It
contributes to obesity and diseases like heart disease and cancer. Recycling is
bad for our economy. It increases the cost of a product, and in turn, the price
of everything that is made with that product. (以下続く)
21
Yann LeCun, “How Could Machines Learn Like Animals & Humans?”, Harvard MBB Distinguished Lecture II, 2019.
この5-10年間で機械学習が実現できることは格段に広く、高度化してきた
22
機械学習とは
𝒚 = 𝑓(𝒙)
出力 入力学習器
(モデル)
“2”
コンピュータが明示的な指示なく(人間が)期待する情報や構造を導き出すこと
機械学習は非明示的な構造をデータより学習する→データ駆動型アプローチ
データ
𝒟
データから学習
"Field of study that gives computers the ability to learn without being explicitly programmed”
―Arthur Samuel (1959)
23
データ駆動型の課題:(3) 帰納的バイアス
帰納的バイアスなくしてモデルは汎化 (未知データに適合) することはできない
帰納的バイアスの例:
線形回帰:入力𝑥に対する出力𝑦の関係は必ず線形になる
𝑘-近傍法:入力𝑥に対する出力は必ずユークリッド空間上で近いデータ点群
のそれに近くなる
私たち人間もバイアスを自然に運用している
例) 対象の永続性
“Any basis for choosing one generalization over another, other than strict consistency
with the instances.”—Tom Mitchell (1980)
帰納的バイアス (inductive bias):ある学習アルゴリズムが
未知の入力から予測を行うために暗黙的に用いている仮説の集合
38