Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
「HOME'Sデータセット」を活⽤用
した不不動産物件画像への深層学習
の適⽤用の取り組み
株式会社ネクスト  リッテルラボラトリー
主席研究員    清⽥田  陽司
1Copyright(c) NEXT Co., Ltd. All Right...
2Copyright(c) NEXT Co., Ltd. All Rights Reserved.
›  研究分野: ⾃自然⾔言語処理理応⽤用、情報検索索、情報推薦
›  略略歴
•  京都⼤大  ⼤大学院情報学研究科  (1998-2004)...
3Copyright(c) NEXT Co., Ltd. All Rights Reserved.
株式会社ネクストのサービス
⽇日本最⼤大級の不不動産・住宅宅サイト HOME’S を運営
※1 フジサンケイビジネスアイ調べ (2014.3.3...
>2011年年4⽉月設⽴立立の社内研究所
  東京⼤大学との産学連携企業  (株)リッテルが⺟母体
>レコメンデーションエンジンやユーザーインターフェースなど
  住まいや暮らしに関わる情報技術の研究・開発
4
株式会社ネクスト  リッテルラボ...
5Copyright(c) NEXT Co., Ltd. All Rights Reserved.
6Copyright(c) NEXT Co., Ltd. All Rights Reserved.
›  『HOME’S』賃貸物件  (約530万)
•  2015年年9⽉月時点で掲載されていた全データ
•  賃料料、⾯面積、⽴立立地(市区町村、郵便便番号、最寄
り駅、徒歩分)、築年年数、間取り、建物構造、
諸設備などの属性を含む
•  特定...
8Copyright(c) NEXT Co., Ltd. All Rights Reserved.
HOME’Sデータセット  利利⽤用申込の状況
提供開始から7ヶ⽉月で,⽇日本全国・⽶米国の約35研究室から申込
9Copyright(c) NEXT Co., Ltd. All Rights Reserved.
›  情報学
•  画像処理理,他のデータ(SNSなど)との結合
›  建築学,建築デザイン
•  間取り,空間デザインなど
›  経済学,経営...
10Copyright(c) NEXT Co., Ltd. All Rights Reserved.
›  ディープラーニングの物件画像への適⽤用はホット
トピック
›  学習⽤用正解データの作成は、ディープラーニング
適⽤用でもっとも重要な問...
11Copyright(c) NEXT Co., Ltd. All Rights Reserved.
不不動産情報サイトで不不動産会社を選ぶ際のポイントは?(RSC 2015年年調査)
物件の写真の点数が多い
物件の写真の⾒見見栄えが良良い
7...
不不動産物件画像に関する研究課題
›  物件画像の品質を判定する
•  物件が分かりやすい
•  感性的に魅⼒力力的である
›  画像から対象物件の情報を抽出する
•  不不動産会社の情報⼊入⼒力力の負担低減
•  新たな検索索軸の開発
システ...
13Copyright(c) NEXT Co., Ltd. All Rights Reserved.
deep learningによる物件画像へのタグ付け例例
不不動産会社によるタグ
「内装」
ディープラーニングによるタグ
「居間」 22.42...
タスクの設定
›  不不動産物件画像から住居選択⽀支援のための情報を
抽出を、畳み込みニューラルネットワークにて⾏行行
う
•  画像種別
•  キッチンの使いやすさ
•  キッチンの種類
•  キッチンのワークスペースの広さ
畳み込みニューラルネットワーク(CNN)
›  畳み込みニューラルネットワーク  (CNN)
•  画像認識識に特化したDeep Learningの⼿手法
•  画像ラベルのスコアを推定する
•  学習に数千〜~数万枚の教師データが必要
畳み込...
CNNの適⽤用
›  畳み込みニューラルネットワーク  (CNN)
•  Network in Network (nin)[3]
•  深層学習フレームワークChainer上のninモデルを使⽤用
›  256×256の画像を⼊入⼒力力として使...
•  物件画像データ    約8300万枚
HOME’Sデータセット  概要
周辺
17%
外観
11%
内装
11%
居間
7%間取り
6%
キッチン
5%
⾵風呂呂
4%
⽞玄関
3%
寝室
1%
設備
1%
収納
1%
トイレ
1%
洗⾯...
CNNと分類データ作成  〜~タスク1  画像種別〜~
›  どの種類の物件画像なのかを判定する
›  HOME’Sデータセット画像に付けられているタグを正解
データとして使⽤用
•  13タグ分の画像を使⽤用
•  それぞれ訓練⽤用1万枚、検...
CNNと分類データ作成  〜~キッチンの使いやすさの抽出〜~
›  「キッチンの使いやすさ」を画像から抽出する
›  使いやすさを分解、より詳細な指標を作成
›  各指標に特化させた学習済みモデルでスコアを算出、
重みづけをして加算、使いやすさ...
CNNと分類データ作成  〜~タスク2 キッチンの種類〜~
›  様々な分類⽅方法あり
›  学習に⽤用いる正解データがないため、作成する必要あり
⼀一体型かそうでないか 形に注⽬目した分類 他の部屋との関係性に
よる分類
セクショナルキッチン...
CNNと分類データ作成  〜~タスク2 キッチンの種類〜~
›  様々な分類⽅方法あり
›  学習に⽤用いる正解データがないため、作成する必要あり
⼀一体型かそうでないか 形に注⽬目した分類 他の部屋との関係性に
よる分類
セクショナルキッチン...
簡易易型キッチン システムキッチン セクショナルキッチン
CNNと分類データ作成  〜~タスク2 キッチンの種類〜~
›  どの種類のキッチンか判定
簡易易型
キッチン
システム
キッチン
セクショナル
キッチン
キッチン部分 その他
主に単⾝身⽤用の
壁に囲まれた
キッチン
コンロと⼀一体
成型のキッチ
ン
コンロを置く
場所が分かれ
ている
キッチンを構
成するパーツ
キッチンでな
い画...
CNNと分類データ作成  〜~タスク3 キッチンのワークスペース広さ〜~
›  キッチンのワークスペースの広さを判定
•  まな板や切切ったものを置ける
•  調理理のしやすさに⼤大きく影響
狭い 広い
とても狭い 狭い 普通 広い とても広い
まな板が置け
ない
まな板はおけ
るが、切切った
もの等を置け
ない
まな板、切切っ
たものなどを
置ける
複数の調理理過
程のものを置
ける
調理理に⼗十分な
スペースがあ
る
CNNと分類データ作成...
CNNと分類データ作成  〜~データ拡張について〜~
›  精度度を⾼高くする⼯工夫
•  枚数を増やす
•  各クラスの枚数を合わせる
›  画像を⽔水増しする⼿手法=データ拡張
とても狭い
狭い
普通
広い
とても広い
420枚
716枚
...
CNNと分類データ作成  〜~タスクまとめ〜~
›  不不動産物件画像から住居選択⽀支援のための情報を
抽出を、畳み込みニューラルネットワークにて⾏行行
う
•  画像種別                                    ...
28Copyright(c) NEXT Co., Ltd. All Rights Reserved.
›  テストデータのError rate: 0.218
実験結果  〜~タスク1  画像種別〜~
物件画像種別  結果
正答サンプル 不不正答...
29Copyright(c) NEXT Co., Ltd. All Rights Reserved.
›  テストデータのError rate: 0.143
実験結果  〜~タスク1  画像種別〜~
物件画像種別  結果
30Copyright(c) NEXT Co., Ltd. All Rights Reserved.
›  不不正解となったケース109例例を検証
•  判別器の誤り                            61%
•  正解デー...
31
›  テストデータでのError rate: 0.116
実験結果  〜~タスク2  キッチンの種類〜~
キッチン種類  結果
正解:セクショナル
スコア:99.6%
正解:システム
スコア:99.9%
正解:簡易易型
セクショナル:91...
32Copyright(c) NEXT Co., Ltd. All Rights Reserved.
›  Error rate: 0.362
›  相関係数:0.717
実験結果  〜~タスク3 キッチンのワークスペース広さ〜~
キッチン  ...
33Copyright(c) NEXT Co., Ltd. All Rights Reserved.
実験結果  まとめ
›  タスク1: 画像種別
  →error:0.14  正解データの誤りと重複タグあり
›  タスク2: キッチンの種類...
34Copyright(c) NEXT Co., Ltd. All Rights Reserved.
›  クラウドソーシングを⽤用いた正解データ拡充
•  訓練データの拡張による過学習改善
•  Ground Truthとして使える⾼高精度度...
35Copyright(c) NEXT Co., Ltd. All Rights Reserved.
Now we are hiring!
36Copyright(c) NEXT Co., Ltd. All Rights Reserved.
参考  〜~タスク1  タスク3 キッチンのワークスペース広さ〜~
データ拡張の効果
データ拡張無し(各250枚)
Error: 0.74
デ...
Upcoming SlideShare
Loading in …5
×

「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み

5,442 views

Published on

WebDB Forum 2016
技術報告セッション

Published in: Technology
  • Be the first to comment

「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み

  1. 1. 「HOME'Sデータセット」を活⽤用 した不不動産物件画像への深層学習 の適⽤用の取り組み 株式会社ネクスト  リッテルラボラトリー 主席研究員    清⽥田  陽司 1Copyright(c) NEXT Co., Ltd. All Rights Reserved. WebDB Forum 2016 技術報告セッション 2016.09.13@慶應義塾⼤大学⽇日吉キャンパス
  2. 2. 2Copyright(c) NEXT Co., Ltd. All Rights Reserved. ›  研究分野: ⾃自然⾔言語処理理応⽤用、情報検索索、情報推薦 ›  略略歴 •  京都⼤大  ⼤大学院情報学研究科  (1998-2004) •  対話型質問応答システム     企業(マイクロソフト)との共同研究 •  JSTさきがけポスドク@京都⼤大  河原研 (2004) •  東京⼤大  情報基盤センター  中川研  助教/特任講師  (2004-2012) •  図書館ナビゲーションシステム/Wikipediaマイニング •  株式会社リッテル  主席研究員/CTO (2007-2011) •  図書館ナビゲーションシステム実⽤用化(国⽴立立国会図書館リサー チ・ナビなど) •  Hadoopベースの⼤大規模データ処理理技術展開     産学連携スタートアップとのかかわり •  株式会社ネクスト  リッテルラボラトリー  (2011-) •  情報レコメンデーションR&D (主にHOME’S)     ⼤大学との共同研究 ›  ⾔言語処理理学会  編集委員 (2010-2012)、⼈人⼯工知能学会  編集委員 (2014-)、WebDB Forum産学連携担当幹事 (2015-)、IEEE DSAA'2017 Sponsorship co-chair ⾃自⼰己紹介
  3. 3. 3Copyright(c) NEXT Co., Ltd. All Rights Reserved. 株式会社ネクストのサービス ⽇日本最⼤大級の不不動産・住宅宅サイト HOME’S を運営 ※1 フジサンケイビジネスアイ調べ (2014.3.31掲載) ※2 利利⽤用者数 No.1 ニールセンNetView 2013年年4⽉月データ (家庭および職場のPC     からのアクセス・カテゴリ: 家庭とファッションサブカテゴリ:不不動産)
  4. 4. >2011年年4⽉月設⽴立立の社内研究所   東京⼤大学との産学連携企業  (株)リッテルが⺟母体 >レコメンデーションエンジンやユーザーインターフェースなど   住まいや暮らしに関わる情報技術の研究・開発 4 株式会社ネクスト  リッテルラボラトリー 4 新感覚お部屋探しアプリ HOME Sヘヤサク! 部屋作りシミュレーション GRID VRICK タンジブル不動産検索 UI
  5. 5. 5Copyright(c) NEXT Co., Ltd. All Rights Reserved.
  6. 6. 6Copyright(c) NEXT Co., Ltd. All Rights Reserved.
  7. 7. ›  『HOME’S』賃貸物件  (約530万) •  2015年年9⽉月時点で掲載されていた全データ •  賃料料、⾯面積、⽴立立地(市区町村、郵便便番号、最寄 り駅、徒歩分)、築年年数、間取り、建物構造、 諸設備などの属性を含む •  特定の物件と直接紐紐付く属性は含まず ›  上記全物件に対応する画像データ  (約8300万) •  深層学習適⽤用を想定した画像サイズ •  不不動産会社が付与した属性データ(画像の種類、 フリーテキスト)を含む ›  フルサイズ間取り図画像データ (約510万) •  間取りデータ、フリーテキストあり HOME’Sデータセット  概要
  8. 8. 8Copyright(c) NEXT Co., Ltd. All Rights Reserved. HOME’Sデータセット  利利⽤用申込の状況 提供開始から7ヶ⽉月で,⽇日本全国・⽶米国の約35研究室から申込
  9. 9. 9Copyright(c) NEXT Co., Ltd. All Rights Reserved. ›  情報学 •  画像処理理,他のデータ(SNSなど)との結合 ›  建築学,建築デザイン •  間取り,空間デザインなど ›  経済学,経営情報学 •  賃料料推定,経済動向 ›  都市学・環境学 •  街の属性 データセット利利⽤用研究者の主な分野 これまでに接点のなかった研究者とのリレーションができつつある
  10. 10. 10Copyright(c) NEXT Co., Ltd. All Rights Reserved. ›  ディープラーニングの物件画像への適⽤用はホット トピック ›  学習⽤用正解データの作成は、ディープラーニング 適⽤用でもっとも重要な問題 ›  不不動産物件データと他のデータ(SNS、地域オープ ンデータ、etc.)との統合により新たな価値が⽣生 まれる データセットの提供を通じて得られた知⾒見見
  11. 11. 11Copyright(c) NEXT Co., Ltd. All Rights Reserved. 不不動産情報サイトで不不動産会社を選ぶ際のポイントは?(RSC 2015年年調査) 物件の写真の点数が多い 物件の写真の⾒見見栄えが良良い 71.9% 32.5%
  12. 12. 不不動産物件画像に関する研究課題 ›  物件画像の品質を判定する •  物件が分かりやすい •  感性的に魅⼒力力的である ›  画像から対象物件の情報を抽出する •  不不動産会社の情報⼊入⼒力力の負担低減 •  新たな検索索軸の開発 システムキッチン 料料理理しやすい 収納スペースが⼗十分
  13. 13. 13Copyright(c) NEXT Co., Ltd. All Rights Reserved. deep learningによる物件画像へのタグ付け例例 不不動産会社によるタグ 「内装」 ディープラーニングによるタグ 「居間」 22.4294 「キッチン」 18.8581 「収納」 15.6817 不不動産会社によるタグ 「その他」 ディープラーニングによるタグ 「バルコニー」 22.2454 「設備」 18.868 不不動産会社によるタグ 「収納」 ディープラーニングによるタグ 「収納」 22.8901 「⽞玄関」 22.1572 「エントランス」 17.2992 「設備」 14.7072
  14. 14. タスクの設定 ›  不不動産物件画像から住居選択⽀支援のための情報を 抽出を、畳み込みニューラルネットワークにて⾏行行 う •  画像種別 •  キッチンの使いやすさ •  キッチンの種類 •  キッチンのワークスペースの広さ
  15. 15. 畳み込みニューラルネットワーク(CNN) ›  畳み込みニューラルネットワーク  (CNN) •  画像認識識に特化したDeep Learningの⼿手法 •  画像ラベルのスコアを推定する •  学習に数千〜~数万枚の教師データが必要 畳み込みと プーリングを 何層か繰り返し 畳み込み層 プーリング層 キッチン 0.93 リビング 0.04 トイレ 0.03
  16. 16. CNNの適⽤用 ›  畳み込みニューラルネットワーク  (CNN) •  Network in Network (nin)[3] •  深層学習フレームワークChainer上のninモデルを使⽤用 ›  256×256の画像を⼊入⼒力力として使⽤用 ›  画像の70%を訓練データ、30%をテストデータ [3] Network In Network, 2014 Min Lin1,2, Qiang Chen2 , Shuicheng Yan2
  17. 17. •  物件画像データ    約8300万枚 HOME’Sデータセット  概要 周辺 17% 外観 11% 内装 11% 居間 7%間取り 6% キッチン 5% ⾵風呂呂 4% ⽞玄関 3% 寝室 1% 設備 1% 収納 1% トイレ 1% 洗⾯面 1% バルコニー 0% エントランス 0% 駐⾞車車場 0% 地図 0% ⼦子供部屋 0% その他 28% 画像種別 枚数(万枚) 周辺 1413 外観 947 内装 941 居間 558 間取り 524 キッチン 453 ⾵風呂呂 364 ⽞玄関 269 寝室 89 設備 88 収納 85 トイレ 64 洗⾯面 54 バルコニー 38 エントランス 38 駐⾞車車場 14 地図 12 ⼦子供部屋 2 その他 2299
  18. 18. CNNと分類データ作成  〜~タスク1  画像種別〜~ ›  どの種類の物件画像なのかを判定する ›  HOME’Sデータセット画像に付けられているタグを正解 データとして使⽤用 •  13タグ分の画像を使⽤用 •  それぞれ訓練⽤用1万枚、検証⽤用1000枚 ›  ⼊入⼒力力⼿手間軽減と精度度の向上が⽬目的 u 間取り u 地図 u ⽞玄関 u 居間 u キッチン u ⾵風呂呂 u トイレ u 外観 u 周辺 u 内装 u その他 u 寝室 u ⼦子供部屋 u 洗⾯面 u 収納 u 設備 u バルコニー u エントランス u 駐⾞車車場 使⽤用するタグ 使⽤用しないタグ 外観 周辺 居間 間取り ⾵風呂呂
  19. 19. CNNと分類データ作成  〜~キッチンの使いやすさの抽出〜~ ›  「キッチンの使いやすさ」を画像から抽出する ›  使いやすさを分解、より詳細な指標を作成 ›  各指標に特化させた学習済みモデルでスコアを算出、 重みづけをして加算、使いやすさとする •  個⼈人の嗜好に合わせた使いやすさを算出可能 種類スコア 設備スコア 広さスコア 動線スコア 収納スコア 学習済み モデル 学習済み モデル 学習済み モデル 学習済み モデル 学習済み モデル 使いやすさ w1 w2 w3 w4 w5 重みw
  20. 20. CNNと分類データ作成  〜~タスク2 キッチンの種類〜~ ›  様々な分類⽅方法あり ›  学習に⽤用いる正解データがないため、作成する必要あり ⼀一体型かそうでないか 形に注⽬目した分類 他の部屋との関係性に よる分類 セクショナルキッチン システムキッチン L型 I型 アイラ ンド型 オープン型 クローズ型
  21. 21. CNNと分類データ作成  〜~タスク2 キッチンの種類〜~ ›  様々な分類⽅方法あり ›  学習に⽤用いる正解データがないため、作成する必要あり ⼀一体型かそうでないか 形に注⽬目した分類 他の部屋との関係性に よる分類 セクショナルキッチン システムキッチン L型 I型 アイラ ンド型 オープン型 クローズ型
  22. 22. 簡易易型キッチン システムキッチン セクショナルキッチン CNNと分類データ作成  〜~タスク2 キッチンの種類〜~ ›  どの種類のキッチンか判定
  23. 23. 簡易易型 キッチン システム キッチン セクショナル キッチン キッチン部分 その他 主に単⾝身⽤用の 壁に囲まれた キッチン コンロと⼀一体 成型のキッチ ン コンロを置く 場所が分かれ ている キッチンを構 成するパーツ キッチンでな い画像 CNNと分類データ作成  〜~タスク2 キッチンの種類〜~ ›  キッチン部位、その他を加えた5クラス分類 ›  発表者が分類した画像各1000枚
  24. 24. CNNと分類データ作成  〜~タスク3 キッチンのワークスペース広さ〜~ ›  キッチンのワークスペースの広さを判定 •  まな板や切切ったものを置ける •  調理理のしやすさに⼤大きく影響 狭い 広い
  25. 25. とても狭い 狭い 普通 広い とても広い まな板が置け ない まな板はおけ るが、切切った もの等を置け ない まな板、切切っ たものなどを 置ける 複数の調理理過 程のものを置 ける 調理理に⼗十分な スペースがあ る CNNと分類データ作成  〜~タスク3 キッチンのワークスペース広さ〜~ ›  置けるものの程度度で5段階+その他で6クラス分類 ›  5500枚を分類し、各1000枚になるようデータ拡張
  26. 26. CNNと分類データ作成  〜~データ拡張について〜~ ›  精度度を⾼高くする⼯工夫 •  枚数を増やす •  各クラスの枚数を合わせる ›  画像を⽔水増しする⼿手法=データ拡張 とても狭い 狭い 普通 広い とても広い 420枚 716枚 1627枚 1246枚 254枚 1000枚 1000枚 1000枚 1000枚 1000枚 元画像 コントラスト強調 コントラスト低減 反転+コントラスト強調
  27. 27. CNNと分類データ作成  〜~タスクまとめ〜~ ›  不不動産物件画像から住居選択⽀支援のための情報を 抽出を、畳み込みニューラルネットワークにて⾏行行 う •  画像種別                                                                    →タスク1 •  キッチンの使いやすさ •  キッチンの種類                                                              →タスク2 •  キッチンのワークスペースの広さ              →タスク3
  28. 28. 28Copyright(c) NEXT Co., Ltd. All Rights Reserved. ›  テストデータのError rate: 0.218 実験結果  〜~タスク1  画像種別〜~ 物件画像種別  結果 正答サンプル 不不正答サンプル キッチン97.3% リビング52.0% 間取り91.0% ⾵風呂呂100.0% 正解:リビング 結果:収納 収納                40.1% リビング  20.6% 洗⾯面                12.1% 正解:洗⾯面 結果:⾵風呂呂 ⾵風呂呂                64.7% 洗⾯面                26.2% トイレ            3.1% 正解:収納 結果:⾵風呂呂 ⾵風呂呂                      75.0% トイレ                  9.2% バルコニー    3.7%
  29. 29. 29Copyright(c) NEXT Co., Ltd. All Rights Reserved. ›  テストデータのError rate: 0.143 実験結果  〜~タスク1  画像種別〜~ 物件画像種別  結果
  30. 30. 30Copyright(c) NEXT Co., Ltd. All Rights Reserved. ›  不不正解となったケース109例例を検証 •  判別器の誤り                            61% •  正解データの誤り                  20% •  重複するカテゴリ画像    18% 実験結果  〜~タスク1  画像種別〜~ 物件画像種別  結果 正解:キッチン ⽞玄関  47.955%   キッチン  44.462%   設備  2.804%   正解:トイレ ⾵風呂呂  80.673%   トイレ  18.004%   洗⾯面  1.137%   正解:収納 ⽞玄関  40.034%   収納  39.006%   バルコニー  9.342%  
  31. 31. 31 ›  テストデータでのError rate: 0.116 実験結果  〜~タスク2  キッチンの種類〜~ キッチン種類  結果 正解:セクショナル スコア:99.6% 正解:システム スコア:99.9% 正解:簡易易型 セクショナル:91.5% 簡易易型                      :6.27% 正解:キッチン部分 その他        :94.1% 簡易易型        :3.92% 正答サンプル 不不正答サンプル
  32. 32. 32Copyright(c) NEXT Co., Ltd. All Rights Reserved. ›  Error rate: 0.362 ›  相関係数:0.717 実験結果  〜~タスク3 キッチンのワークスペース広さ〜~ キッチン  ワークスペース  結果 分類 スコア とても狭い 20 狭い 40 普通 60 広い 80 とても広い 100
  33. 33. 33Copyright(c) NEXT Co., Ltd. All Rights Reserved. 実験結果  まとめ ›  タスク1: 画像種別   →error:0.14  正解データの誤りと重複タグあり ›  タスク2: キッチンの種類   →error:0.12 ›  タスク3: キッチンのワークスペース広さ   →error:0.36  相関0.72
  34. 34. 34Copyright(c) NEXT Co., Ltd. All Rights Reserved. ›  クラウドソーシングを⽤用いた正解データ拡充 •  訓練データの拡張による過学習改善 •  Ground Truthとして使える⾼高精度度な正解データ の作成  →評価指標を整備 ›  画像の品質と魅⼒力力度度の抽出 今後の課題
  35. 35. 35Copyright(c) NEXT Co., Ltd. All Rights Reserved. Now we are hiring!
  36. 36. 36Copyright(c) NEXT Co., Ltd. All Rights Reserved. 参考  〜~タスク1  タスク3 キッチンのワークスペース広さ〜~ データ拡張の効果 データ拡張無し(各250枚) Error: 0.74 データ拡張あり(各1000枚) Error:0.52

×