Recursively Summarizing Books with Human Feedbackharmonylab
公開URL:https://arxiv.org/abs/2109.10862
出典:Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nisan Stiennon, Ryan Lowe, Jan Leike, Paul Christiano : Recursively Summarizing Books with Human Feedback, arXiv:2109.10862 (2021).
概要:MLモデルの学習のために行動の良し悪しを表すtraining signalを人間がループの中で提供する必要があるタスクが多く存在する.人間による評価に時間や専門的な知識を要するタスクの学習のためには,効果的なtraining signalを生成するためのスケーラブルな手法が必要となる.本論文では書籍全体の要約タスク(abstractive)を対象として,再帰的なタスクの分解と人間のフィードバックからの学習を組み合わせたアプローチを紹介する.モデルによる要約の中には人間が書いた要約の品質に匹敵する要約もあるが,平均するとモデルの要約は人間の要約に著しく劣ることが示された.
□Author
Masaya Mori, Global Head of Rakuten Institute of Technology, Executive Officer, Rakuten Inc.
森正弥 楽天株式会社 執行役員 兼 楽天技術研究所代表
□Description
そもそもなぜ人工知能(AI)をビジネスで活用する必要があるのかの視点に基づいて、AI活用戦略について述べた講演の資料です。
Recursively Summarizing Books with Human Feedbackharmonylab
公開URL:https://arxiv.org/abs/2109.10862
出典:Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nisan Stiennon, Ryan Lowe, Jan Leike, Paul Christiano : Recursively Summarizing Books with Human Feedback, arXiv:2109.10862 (2021).
概要:MLモデルの学習のために行動の良し悪しを表すtraining signalを人間がループの中で提供する必要があるタスクが多く存在する.人間による評価に時間や専門的な知識を要するタスクの学習のためには,効果的なtraining signalを生成するためのスケーラブルな手法が必要となる.本論文では書籍全体の要約タスク(abstractive)を対象として,再帰的なタスクの分解と人間のフィードバックからの学習を組み合わせたアプローチを紹介する.モデルによる要約の中には人間が書いた要約の品質に匹敵する要約もあるが,平均するとモデルの要約は人間の要約に著しく劣ることが示された.
□Author
Masaya Mori, Global Head of Rakuten Institute of Technology, Executive Officer, Rakuten Inc.
森正弥 楽天株式会社 執行役員 兼 楽天技術研究所代表
□Description
そもそもなぜ人工知能(AI)をビジネスで活用する必要があるのかの視点に基づいて、AI活用戦略について述べた講演の資料です。