SlideShare a Scribd company logo
1 of 23
Download to read offline
人間との相互作用に基づく
ヒューマノイドロボット上の語順
と挙動のオンライン学習


                      東京工業大学
                    佐藤彰洋 賀小淵
                   小倉和貴 長谷川修

 電子情報通信学会論文誌, D Vol.J91-D, No.8, pp.2045-2060 (2008)
1/22
    1.1 研究の背景
   サービスロボットへの期待が高まる
       人間とのコミュニケーション(言語能力)が重要な要素
   従来型ロボットの問題点(タスク依存)
       プログラムされた状況しか対応できない
           プログラムされていない言葉で話しかけられると・・・
   プログラムされていない状況に対応するには?
       知らない言葉でも、見たり、聞いたりして意味を獲得
        できれば良い


   オンラインで追加的に言語能力を獲得
    できるロボットが求められている
2/22
1.2 言語獲得における課題
1.単語グラウンディング(単語レベルの意味理解)
    音声パターンと概念(感覚情報)の対応付け

            「赤」   対応

2.文法の学習(文章レベルの意味理解)
    語順と意味の対応付け
    同じ単語を使っても、語順が違うと違う意味
        「りんご(を)、みかん(に)、近づける」
        「みかん(を)、りんご(に)、近づける」
3/22
1.3 既存研究
問題点       ・確率的な処理→大量の学習データが必要
          ・バッチ処理→オンライン・追加学習ができない

    単語グラウンディング
      Roy, Pentlandら(2002)
         手法:音と映像のクロスモーダル情報を最大化
         問題点:静止画像を利用(動的概念を獲得できない)
        Yu, Ballardら(2004)
         手法:マルチモーダル情報の確率的な対応付け
         問題点:物体と単語が1対1に対応、追加学習に問題がある
    文法の学習
      岩橋ら(2003)
         手法:HMMによる動的概念と語順の獲得
         問題点:事前にデータを用意し、バッチ学習
4/22
1.4 本研究の特徴
   実環境で追加的・自律的に概念を獲得
   言語の意味を発達的に学習

   従来研究に対する優位性
       事前知識なしで、概念を分類
       1つのデータから学習できる
       オンラインで文法(語順)を学習
       柔軟な追加学習を実現
5/22
    1.5 研究に使用したロボット

   ステレオカメラ
       色、形、位置を取得


   自由度:12
    (首:2、片腕:5)
       指定位置に手を移動
       物体を握る・放す
6/22
2.1 単語グラウンディング
   本研究で扱う単語(4種類)
       静的概念
           色、形、物体(色と形の組み合わせ)の3種類

                  色:「赤」
                  形:「丸」
                  物体:「りんご」
       動的概念
           動き
                       「近づく」
7/22
2.2 静的概念の獲得

   概念とは
       特徴ベクトルをクラスタリング
       抽出されたクラスを概念とする


   概念と音声ラベルの対応付け
       音声の入力数を基に確率的に対応付け
        →概念の分類が可能

        例          色を表す言葉?
            「赤」は   形を表す言葉?
                   物体を表す言葉?
8/22
2.3 特徴ベクトル
   色ベクトル(3次元)
       RGBの値を0~1に正規化
   形ベクトル(8次元)
                 物体の存在する領域の割合を
                  形ベクトルの要素とする


                中心付近は無視
   物体(11次元)
       色ベクトル+形ベクトル
9/22
2.4 静的概念の形成
   SOINNによるクラスタリングの例
10/22
2.5 音声との対応付け
11/22
2.6 動的概念の獲得
   特徴量:軌跡(位置ベクトルの時系列)
       軌跡は物体の位置関係によって正規化

   動きを表す言葉
       音声は文章として与える
       未知単語と軌跡を対応付ける

    例:「りんご、みかん、近づける」

         物体   物体   未知     ※静的概念(りんご、みかん)は
                           学習済みとする


        「近づける」が動きを表すと推定
12/22
2.7 概念学習と音声との対応付け
   Supervised SOINNによる学習
       時系列データの追加学習が可能
       軌跡のアップデートが可能          HMMなど
       学習データ1つから学習可能         では難しい
       軌跡の長さに依存せずに学習

                            音声
        正
        規
        化                   動的概念
        さ
        れ                   近づける
        た
        軌
        跡                    回す
13/22
2.8 動的概念の形成
14/22
3.1 文法の学習
   ボトムアップ学習とトップダウン学習の融合
       少数の学習例から正しい文法を獲得
       アップデート可能
   ボトムアップ学習
       単語クラスの遷移確率を学習
           様々な長さの文章を生成できる
   トップダウン学習
       実世界の状況との対応付け
           文法の解釈が一意に定まる
15/22
3.2 ボトムアップ学習
   単語クラス(色、形、物体、動き、未知)による
    Bigramモデルを構築




   長さnで最も確率の高い語順を生成
16/22
3.3 トップダウン学習
   実世界の状況と対応付けて文章を解釈
       例:「りんご、みかん、近づける」




                学
                習
    「動作の主体→動作の参照点→動きの種類」
      という語順を獲得
17/22
    3.4 少数例からの文法獲得
   語順の学習例
       「りんご、みかん、近づける」を学習
           トップダウン:動作の主体→動作の参照点→動きの種類
           ボトムアップ:物体→物体→動き


   文章生成の例

                           ※静的概念(メロン、ルビー)は
                            学習済みとする



        「メロン、 ルビー、 近づける」
18/22
4.1 実験の概要
   実験に使用した物体(9種類)

               色(3種類):赤、黄色、緑
               形(3種類):丸、三角、四角



   提示した動き(6種類)
       近づける、遠ざける、またぐ、回す、上げる、下げ
        る
19/22
4.2 学習結果:物体の指差し
20/22
4.3 学習結果:物体の移動
21/22
4.4 学習結果:動きの説明
22/22
5 まとめと課題
   実現されたシステム
       事前知識のない状態から、発達的に言語能力を獲得
       人間とコミュニケーションしながら、オンラインで学習


       見たり、聞いたりすることで発達するロボットの
        最初の一歩を実現
   今後の課題
       動作を増やす(現在は6種類)
       概念を増やす(現在は、色、形など4種類)
       複雑な文法に対応する(現在は「語順」のみ)

More Related Content

What's hot

SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてRyutaro Yamauchi
 
Deep Learningについて(改訂版)
Deep Learningについて(改訂版)Deep Learningについて(改訂版)
Deep Learningについて(改訂版)Brains Consulting, Inc.
 
論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mappingAkira Taniguchi
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisDeep Learning JP
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs Deep Learning JP
 
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A SurveyAkira Taniguchi
 
画像認識のための深層学習
画像認識のための深層学習画像認識のための深層学習
画像認識のための深層学習Saya Katafuchi
 
DLフレームワークChainerの紹介と分散深層強化学習によるロボット制御
DLフレームワークChainerの紹介と分散深層強化学習によるロボット制御DLフレームワークChainerの紹介と分散深層強化学習によるロボット制御
DLフレームワークChainerの紹介と分散深層強化学習によるロボット制御Ryosuke Okuta
 
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要Kenji Urai
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーnlab_utokyo
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像Rei Takami
 
超高速オンライン転移学習
超高速オンライン転移学習超高速オンライン転移学習
超高速オンライン転移学習SOINN Inc.
 
人間とのインタラクションにより言葉と行動を学習するロボット, 岩橋直人
人間とのインタラクションにより言葉と行動を学習するロボット, 岩橋直人人間とのインタラクションにより言葉と行動を学習するロボット, 岩橋直人
人間とのインタラクションにより言葉と行動を学習するロボット, 岩橋直人KIT Cognitive Interaction Design
 
20150803.山口大学講演
20150803.山口大学講演20150803.山口大学講演
20150803.山口大学講演Hayaru SHOUNO
 
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...Kento Doi
 
全脳関西編(松尾)
全脳関西編(松尾)全脳関西編(松尾)
全脳関西編(松尾)Yutaka Matsuo
 

What's hot (20)

SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
Deep Learningについて(改訂版)
Deep Learningについて(改訂版)Deep Learningについて(改訂版)
Deep Learningについて(改訂版)
 
論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey
 
画像認識のための深層学習
画像認識のための深層学習画像認識のための深層学習
画像認識のための深層学習
 
DLフレームワークChainerの紹介と分散深層強化学習によるロボット制御
DLフレームワークChainerの紹介と分散深層強化学習によるロボット制御DLフレームワークChainerの紹介と分散深層強化学習によるロボット制御
DLフレームワークChainerの紹介と分散深層強化学習によるロボット制御
 
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
 
MIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearningMIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearning
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像
 
超高速オンライン転移学習
超高速オンライン転移学習超高速オンライン転移学習
超高速オンライン転移学習
 
Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
 
人間とのインタラクションにより言葉と行動を学習するロボット, 岩橋直人
人間とのインタラクションにより言葉と行動を学習するロボット, 岩橋直人人間とのインタラクションにより言葉と行動を学習するロボット, 岩橋直人
人間とのインタラクションにより言葉と行動を学習するロボット, 岩橋直人
 
20150414seminar
20150414seminar20150414seminar
20150414seminar
 
20150803.山口大学講演
20150803.山口大学講演20150803.山口大学講演
20150803.山口大学講演
 
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
 
全脳関西編(松尾)
全脳関西編(松尾)全脳関西編(松尾)
全脳関西編(松尾)
 
IEEE ITSS Nagoya Chapter
IEEE ITSS Nagoya ChapterIEEE ITSS Nagoya Chapter
IEEE ITSS Nagoya Chapter
 

Similar to I

Python nlp handson_20220225_v5
Python nlp handson_20220225_v5Python nlp handson_20220225_v5
Python nlp handson_20220225_v5博三 太田
 
人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)
人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)
人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)KIT Cognitive Interaction Design
 
記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―
記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―
記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―Tadahiro Taniguchi
 
Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Yoshitaka Ushiku
 
第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchiAkira Taniguchi
 
第2回勉強会 オブジェクト指向
第2回勉強会 オブジェクト指向第2回勉強会 オブジェクト指向
第2回勉強会 オブジェクト指向hakoika-itwg
 
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT大規模言語モデルとChatGPT
大規模言語モデルとChatGPTnlab_utokyo
 

Similar to I (10)

Python nlp handson_20220225_v5
Python nlp handson_20220225_v5Python nlp handson_20220225_v5
Python nlp handson_20220225_v5
 
人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)
人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)
人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)
 
東北弁発表
東北弁発表東北弁発表
東北弁発表
 
Oop
OopOop
Oop
 
記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―
記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―
記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―
 
Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線
 
第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi
 
第2回勉強会 オブジェクト指向
第2回勉強会 オブジェクト指向第2回勉強会 オブジェクト指向
第2回勉強会 オブジェクト指向
 
Sci13 招待講演
Sci13 招待講演Sci13 招待講演
Sci13 招待講演
 
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT大規模言語モデルとChatGPT
大規模言語モデルとChatGPT
 

More from SOINN Inc.

Dr.Kawewong Ph.D Thesis
Dr.Kawewong Ph.D ThesisDr.Kawewong Ph.D Thesis
Dr.Kawewong Ph.D ThesisSOINN Inc.
 
Original SOINN
Original SOINNOriginal SOINN
Original SOINNSOINN Inc.
 
PhDThesis, Dr Shen Furao
PhDThesis, Dr Shen FuraoPhDThesis, Dr Shen Furao
PhDThesis, Dr Shen FuraoSOINN Inc.
 
SOIAM (SOINN-AM)
SOIAM (SOINN-AM)SOIAM (SOINN-AM)
SOIAM (SOINN-AM)SOINN Inc.
 
学生さんへのメッセージ
学生さんへのメッセージ学生さんへのメッセージ
学生さんへのメッセージSOINN Inc.
 

More from SOINN Inc. (8)

PBAI
PBAIPBAI
PBAI
 
Dr.Kawewong Ph.D Thesis
Dr.Kawewong Ph.D ThesisDr.Kawewong Ph.D Thesis
Dr.Kawewong Ph.D Thesis
 
SSA-SOINN
SSA-SOINNSSA-SOINN
SSA-SOINN
 
E-SOINN
E-SOINNE-SOINN
E-SOINN
 
Original SOINN
Original SOINNOriginal SOINN
Original SOINN
 
PhDThesis, Dr Shen Furao
PhDThesis, Dr Shen FuraoPhDThesis, Dr Shen Furao
PhDThesis, Dr Shen Furao
 
SOIAM (SOINN-AM)
SOIAM (SOINN-AM)SOIAM (SOINN-AM)
SOIAM (SOINN-AM)
 
学生さんへのメッセージ
学生さんへのメッセージ学生さんへのメッセージ
学生さんへのメッセージ
 

Recently uploaded

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成Hiroshi Tomioka
 

Recently uploaded (9)

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
 

I

  • 1. 人間との相互作用に基づく ヒューマノイドロボット上の語順 と挙動のオンライン学習 東京工業大学 佐藤彰洋 賀小淵 小倉和貴 長谷川修 電子情報通信学会論文誌, D Vol.J91-D, No.8, pp.2045-2060 (2008)
  • 2. 1/22 1.1 研究の背景  サービスロボットへの期待が高まる  人間とのコミュニケーション(言語能力)が重要な要素  従来型ロボットの問題点(タスク依存)  プログラムされた状況しか対応できない  プログラムされていない言葉で話しかけられると・・・  プログラムされていない状況に対応するには?  知らない言葉でも、見たり、聞いたりして意味を獲得 できれば良い  オンラインで追加的に言語能力を獲得 できるロボットが求められている
  • 3. 2/22 1.2 言語獲得における課題 1.単語グラウンディング(単語レベルの意味理解)  音声パターンと概念(感覚情報)の対応付け 「赤」 対応 2.文法の学習(文章レベルの意味理解)  語順と意味の対応付け  同じ単語を使っても、語順が違うと違う意味  「りんご(を)、みかん(に)、近づける」  「みかん(を)、りんご(に)、近づける」
  • 4. 3/22 1.3 既存研究 問題点 ・確率的な処理→大量の学習データが必要 ・バッチ処理→オンライン・追加学習ができない  単語グラウンディング  Roy, Pentlandら(2002) 手法:音と映像のクロスモーダル情報を最大化 問題点:静止画像を利用(動的概念を獲得できない)  Yu, Ballardら(2004) 手法:マルチモーダル情報の確率的な対応付け 問題点:物体と単語が1対1に対応、追加学習に問題がある  文法の学習  岩橋ら(2003) 手法:HMMによる動的概念と語順の獲得 問題点:事前にデータを用意し、バッチ学習
  • 5. 4/22 1.4 本研究の特徴  実環境で追加的・自律的に概念を獲得  言語の意味を発達的に学習  従来研究に対する優位性  事前知識なしで、概念を分類  1つのデータから学習できる  オンラインで文法(語順)を学習  柔軟な追加学習を実現
  • 6. 5/22 1.5 研究に使用したロボット  ステレオカメラ  色、形、位置を取得  自由度:12 (首:2、片腕:5)  指定位置に手を移動  物体を握る・放す
  • 7. 6/22 2.1 単語グラウンディング  本研究で扱う単語(4種類)  静的概念  色、形、物体(色と形の組み合わせ)の3種類 色:「赤」 形:「丸」 物体:「りんご」  動的概念  動き 「近づく」
  • 8. 7/22 2.2 静的概念の獲得  概念とは  特徴ベクトルをクラスタリング  抽出されたクラスを概念とする  概念と音声ラベルの対応付け  音声の入力数を基に確率的に対応付け →概念の分類が可能 例 色を表す言葉? 「赤」は 形を表す言葉? 物体を表す言葉?
  • 9. 8/22 2.3 特徴ベクトル  色ベクトル(3次元)  RGBの値を0~1に正規化  形ベクトル(8次元) 物体の存在する領域の割合を 形ベクトルの要素とする 中心付近は無視  物体(11次元)  色ベクトル+形ベクトル
  • 10. 9/22 2.4 静的概念の形成  SOINNによるクラスタリングの例
  • 12. 11/22 2.6 動的概念の獲得  特徴量:軌跡(位置ベクトルの時系列)  軌跡は物体の位置関係によって正規化  動きを表す言葉  音声は文章として与える  未知単語と軌跡を対応付ける 例:「りんご、みかん、近づける」 物体 物体 未知 ※静的概念(りんご、みかん)は 学習済みとする 「近づける」が動きを表すと推定
  • 13. 12/22 2.7 概念学習と音声との対応付け  Supervised SOINNによる学習  時系列データの追加学習が可能  軌跡のアップデートが可能 HMMなど  学習データ1つから学習可能 では難しい  軌跡の長さに依存せずに学習 音声 正 規 化 動的概念 さ れ 近づける た 軌 跡 回す
  • 15. 14/22 3.1 文法の学習  ボトムアップ学習とトップダウン学習の融合  少数の学習例から正しい文法を獲得  アップデート可能  ボトムアップ学習  単語クラスの遷移確率を学習  様々な長さの文章を生成できる  トップダウン学習  実世界の状況との対応付け  文法の解釈が一意に定まる
  • 16. 15/22 3.2 ボトムアップ学習  単語クラス(色、形、物体、動き、未知)による Bigramモデルを構築  長さnで最も確率の高い語順を生成
  • 17. 16/22 3.3 トップダウン学習  実世界の状況と対応付けて文章を解釈  例:「りんご、みかん、近づける」 学 習 「動作の主体→動作の参照点→動きの種類」 という語順を獲得
  • 18. 17/22 3.4 少数例からの文法獲得  語順の学習例  「りんご、みかん、近づける」を学習  トップダウン:動作の主体→動作の参照点→動きの種類  ボトムアップ:物体→物体→動き  文章生成の例 ※静的概念(メロン、ルビー)は 学習済みとする 「メロン、 ルビー、 近づける」
  • 19. 18/22 4.1 実験の概要  実験に使用した物体(9種類) 色(3種類):赤、黄色、緑 形(3種類):丸、三角、四角  提示した動き(6種類)  近づける、遠ざける、またぐ、回す、上げる、下げ る
  • 23. 22/22 5 まとめと課題  実現されたシステム  事前知識のない状態から、発達的に言語能力を獲得  人間とコミュニケーションしながら、オンラインで学習  見たり、聞いたりすることで発達するロボットの 最初の一歩を実現  今後の課題  動作を増やす(現在は6種類)  概念を増やす(現在は、色、形など4種類)  複雑な文法に対応する(現在は「語順」のみ)