SlideShare a Scribd company logo
1 of 4
Download to read offline
人工知能学会研究会資料
                                                             SIG-SWO-A801-04

                         オントロジー拡充のための
               固有表現の共起情報を用いた語彙獲得

                    稲葉 真純       長野 伸一       川村 隆浩      服部 正典
    Masumi INABA, Shinichi NAGANO, Takahiro KAWAMURA, and Masanori HATTORI

                                   株式会社 東芝
                                 Toshiba Corporation

     Abstract: オントロジー活用アプリケーションの運用において,継続的なオントロジーの拡充は
     重要な課題である.     我々は,商品情報に関するオントロジーを活用した評判分析技術の研究開発
     を行っている.本稿では,大量の商品データから未知の商品や新商品の名称を抽出し,オントロ
     ジーの語彙獲得を効率化する手法を提案する.DVD の商品情報を用いた評価実験では,適合率
     87.1%,再現率 87.4%の精度で商品名を抽出できた.

                                             本稿では,商品オントロジーの更新コストを低減
1. はじめに                                     するため,大量の商品データから効率的に商品名を
  近年,Weblog や Wiki,SNS (Social Networking   抽出し,商品オントロジーの既存のクラスに属する
Service) などを利用して,誰もが簡単に Web コンテ             インスタンスを拡充する手法を提案する.2 章では,
ンツを作成できるようになった.消費者によって発                     オントロジーを活用した評判分析技術について述べ
信される情報は CGM (Consumer Generated Media) と    る.3 章では,固有表現の共起情報を用いた語彙獲
呼ばれ,商品やサービスに関するクチコミも多い.                     得の手法を提案する.次に 4 章で,提案手法の評価
クチコミは消費者の購買行動に大きな影響を与えて                     実験について報告する.最後に,5 章で今後の課題
おり,マーケティングの面からも注目されている.                     について述べてまとめとする.
そこで,我々は,CGM からクチコミを収集し,商品
の評判情報を分析するサービス       「ユビ de コミミハサ
                                            2. 評判分析技術
ンダー」を開発してきた [1].
  ユビ de コミミハサンダーの特徴は,       商品に関する
                                             ユビdeコミミハサンダーは,CGMから商品に関す
知識体系として,商品オントロジーを用いることに
                                            るクチコミを抽出し,要約を提示するサービスであ
ある.商品オントロジーを用いることで,クチコミ
                                            る.ユビdeコミミハサンダーの構成を図 1に示す.
で言及されている商品の特定や,商品ジャンルの判
                                            例えば,ユーザがある本のタイトルを入力すると,
定が可能になる.     しかし, 情報伝達速度が速い CGM
                                            著者や出版社などの情報を取得し,本の感想を述べ
で言及される新商品を分析するには,定期的にオン
                                            たブログを収集する.ポジティブ・ネガティブ判定
トロジーを更新する必要がある [2].オントロジー
                                            機能では,収集したブログの内容を解析し,評判情
を用いたアプリケーションの構築運用において,語
                                            報を集計する.関連トピック抽出機能では,話題の
彙獲得の効率化は,十分な情報量を確保するために
                                            関連商品を提示する.また,ソート&フィルタリン
不可欠な課題である.
                                            グ機能では,有用なブログを選出する.これらの機
                                            能により,多数のクチコミ情報を誰でも簡単に調べ
 連絡先:稲葉 真純,masumi.inaba@toshiba.co.jp       ることができる.要約の抽出には,商品の感想に関
 〒212-8582 川崎市幸区小向東芝町 1                     する表現をまとめた感性表現オントロジー [3]と,
 株式会社 東芝 研究開発センター                           個別の商品について製造メーカや出演者などの詳細
 知識メディアラボラトリー



                                        04-01
情報を記した商品メタデータ,および商品情報をま       商品情報コーパスの一部を図 3に示す.コーパスに
とめた商品オントロジーを利用する.             は,以下の特徴がある.
 商品オントロジーを図 2に示す.商品オントロジ
                                  • 商品名は単数または複数の固有表現で構成される
ーは,商品ジャンルで分類したクラス階層と,商品
                                  • 固有表現の並び順には規則性がある
名を表す膨大なインスタンスを関連付けたライトウ
                                  • コーパス中で繰り返し用いられる固有表現がある
ェイト・オントロジーである.
 商品オントロジーの拡充には,商品ジャンルを表
すクラスや,個別の商品名を表すインスタンス,商         そこで,固有表現の共起情報を用いたインスタン
品の特徴を表す属性のノード数を増やすアプローチ       ス拡充システムを開発した.システム構成を図 4に
や,それらのノード間の関係を蜜にするアプローチ       示す.システムは,商品名の集合を入力とし,イン
が考えられる.このうち,提案手法では,指定のク       スタンスを出力する.システム内部は,初期化部,
ラスに属するインスタンスのノード数を増やすため       形態素解析部,意味タグ付与部,インスタンス生成
に,未知の商品や新商品の名称を獲得することをタ       部の 4 つの処理で構成される.意味タグとは,固有
ーゲットとする.                      表現の意味を分類したものである.意味タグ付与に
                              は,固有表現と意味タグのマッチング履歴と,意味
                              タグの並び順を共起情報として記録したデータベー
                              スを用いる.
                                まず,ステップ 1 の初期化部で,コーパスの全角
                              半角を正規化する.次に,ステップ 2 で,正規化さ
                              れたコーパスを形態素解析する.次に,ステップ 3
                              で,コーパスに意味タグを付与する.意味タグは,
                              IREX [4]や拡張固有表現階層 [5]の固有表現分類を
                              元に定義する.最後に,ステップ 4 で,商品名のイ
                              ンスタンスを生成する.
                                次節以降では,ステップ 3 の意味タグ付与部につ
                              いて説明する.

  図 1 ユビ de コミミハサンダーの構成           スター・ウォーズ エピソード 2/クローンの攻撃

                                  スター・ウォーズ エピソード 6/ジェダイの帰還

                                  スター・ウォーズ エピソード 4 新たなる希望 リミテッド・エディション

                                  スター・ウォーズ トリロジー リミテッド・エディション (初回限定生産)

                                  スター・ウォーズ クローン大戦 Vol.2

                                  スター・ウォーズ クローン大戦 VOLUME ONE


                                         図 3 商品情報コーパスの一部




     図 2 商品オントロジー


3. 提案手法
 新製品の発売サイクルに追従するため,定期的に
Webから収集する大量の商品名をコーパスにする.
                                        図 4 インスタンス拡充システム


                          04-02
3.1 未知語の獲得
 新しいコーパスには未知語が多く含まれる.これ
らの未知語に意味タグを付与するために,意味タグ
の並び順を利用する.未知語の獲得手順を図 5に示
す.まず,コーパス中の既知の語彙に意味タグを付
与する.未知語には仮に「不明」の意味タグを付与
し,意味タグの並びを完成させる.次に,意味タグ
の並びの履歴を参照し,意味タグの並び数が同数の
意味タグの並びを抽出する.既知の意味タグについ
て,出現位置のマッチングを行う.出現位置が一致
する意味タグの並びのうち,出現頻度が最も高い意
味タグの並びから順に候補とする.続いて,「不明」
                               図 6 意味タグの並びの獲得手順
の意味タグを仮付与した語彙と,既知語の部分マッ
チングを行う.最も文字列が一致する順に,既知語
に与えられた意味タグを未知語の意味タグ候補とす
                           4. 評価実験
る.ここで,前述の出現頻度が高い意味タグの並び
の候補との一致を判定することで,
               「不明」の意味タ
                           4.1 実験概要
グが解決し,未知語を獲得することができる.

                            提案手法の有効性を確認するため,評価実験を行
                           った.本実験では,DVD オントロジーのインスタン
                           ス(商品名)の作成に関して,人手で作成した正解
                           データと,提案手法により生成した実験データを比
                           較し,抽出精度を算出した.
                            コーパスとして,  DVD 発売情報のポータルサイト
                           から,邦画,洋画,音楽,アニメ,TV ドラマの 5
                           分野 1 万件の商品名を人手で収集した. これにより,
                           実験の前提条件として,コーパスは DVD 以外のノ
                           イズ情報を取り除いたものとみなすことができる.
                            実験データの作成方法を説明する.まず,人名,
                           商品ジャンル,タイトル,サブタイトル,ボリュー
                           ム,エディションの 6 つの意味タグを定義する.次
      図 5 未知語の獲得手順
                           に,提案手法を用いて固有表現を抽出し,<タイト
                           ル>または<タイトルとサブタイトル>の組み合わ
3.2 意味タグの並びの獲得             せを商品名と定義して商品名を生成した.
                            作成される商品名の正解数については,作品のセ
 意味タグの並びの獲得手順を図 6に示す.はじめ
                           ット販売などを考慮し,1 つの元データから,複数
に,コーパス中の既知の語彙に意味タグを付与する.
                           の正解が作成することがある.
全ての語彙に意味タグが付与され,且つ意味タグの
並びの履歴に同じ構成の意味タグの並びがない場合
                           4.2 結果と考察
は,新たな意味タグの並びとして抽出し,出現頻度
が最も低い意味タグの並びとして履歴に記録する.
                            コーパスから抽出した意味タグの並び順の一部を
また,コーパス中の語彙に意味タグを付与し,未知
                           表 1に示す.実験の結果,タイトルのみで構成され
語を含む意味タグの並びを完成させたとき,履歴に
                           る商品名はコーパス全体に対して少なく,商品名を
同じ意味タグの並び数がない場合は,未知語と既知
                           抽出する手法の必要性が確かめられた.また,並び
語の部分マッチングを行う.最も文字列が一致する
                           数が増加するほど,並び順のバリエーションも増加
既知語に与えられた意味タグを,未知語の意味タグ
                           することがわかった.意味タグの共起情報について
とする.これにより,新たな意味タグの並びを獲得
                           は,機械学習を適用できると考えられる.
できる.



                       04-03
表 1 意味タグの並び順の一部                            きると考えられる.一方,意味タグの並び順につい
                                                  ては,分野ごとに特徴があり,異なる分野への転用
並び数     意味タグの並び順
                                                  は困難であると考えられる.しかし,同ジャンルの
         タイトル
1
                                                  インスタンスを拡充する用途においては,共起情報
         タイトル           ボリューム
2
                                                  を用いる提案手法の有効性が確かめられた.この結
         タイトル           サブタイトル
                                                  果から,一度システムでインスタンスを生成した分
         タイトル           エディション
                                                  野については,定期的なオントロジーの更新コスト
         商品ジャンル              タイトル
                                                  を低減できると考えられる.
         タイトル           サブタイトル       エディション
3
         タイトル           サブタイトル       エディション
                                                            表 3 意味タグが含まれる割合
         タイトル           ボリューム       エディション
                                                           意味タグ       割合 (%)
         ジャンル           タイトル    サブタイトル
                                                           エディション     51.8
         人名     タイトル          サブタイトル
                                                           ボリューム      30.9
         商品ジャンル              タイトル    サブタイトル
                                                           人名         10.1
                                                           商品ジャンル     7.2
  次に,生成した商品名の精度を算出した.適合率
(Precision) の算出方法を式(1)に,再現率 (Recall) の
                                                  5. まとめ
算出方法を式(2)に示す.コーパスに対する精度の算
出結果を表 2 に示す.適合率は 87.1%であった.精
                                                   Web リソースを用いることによって,膨大かつ新
度が低くなった原因には,複数の語彙で構成される
                                                  鮮なデータを入手することは魅力的である. しかし,
複合語が抽出できなかったことが挙げられる.しか
                                                  取得した語彙の正確性を自動的に判定することは困
し,生成した商品名の出力結果については,正解デ
                                                  難である.最終的な判定は人間が行うことを前提と
ータと完全一致はしないまでも,部分的には有効で
                                                  しているが,判定規則を学習することで抽出精度を
あり,ユーザへの推薦データとしては十分な結果が
                                                  高めることもできる.今後は,共起情報を機械学習
得られたと考えられる.一方,再現率は 87.4%であ
                                                  に適用し,判定処理を効果的に行うことも検討した
った.精度低下の要因としては,1 つのデータから
                                                  い.また,構築したオントロジーを元に,CGM など
複数の正解を生成すべき場合に,生成漏れがあった
                                                  の口語表現が含まれるデータから,商品名の略語や
ことが挙げられる.今後は,複数の商品名を判別す
                                                  愛称などの同義語を抽出する技術にも取り組んでい
るためのパターンを整備する必要がある.
                                                  きたい.

             correct
Pr ecision =                                      参考文献
                               (1)
              all   method
                                                  [1] T. Kawamura, S. Nagano, M. Inaba, Y. Mizoguchi:
          correct
Re call =                                              Mobile Service for Reputation Extraction from Weblogs -
                               (2)
           all                                         Public Experiment and Evaluation, Proceedings of
               manual
                                                       Twenty-Second Conference on Artificial Intelligence
                                                       (AAAI-07), 2007.
           表 2 適合率と再現率
                                                  [2] 鈴木健之, 丸山広, 中村太一: 競合製品や競合するサ
             適合率 (%) 再現率 (%)
                                                       ービスに関するオントロジーの構築とその利用, 第
提案手法         87.1    87.4
                                                       16 回セマンティックウェブとオントロジー研究会,
                                                       2007.
 タイトルとサブタイトル以外で,コーパス中に含
                                                  [3] 飯田貴之, 長野伸一, 山崎智弘, 服部正典, 川村隆浩:
まれる意味タグの割合を表 3に示す.DVDのコーパ
                                                       評判分析のための感性表現オントロジーメンテナン
スには,エディションやボリュームの意味タグに分
                                                       スツールの開発, 第 18 回セマンティックウェブとオ
類できる固有表現が多く含まれることがわかった.
                                                       ントロジー研究会, 2008.
これらの意味タグは,分野に関わらず DVD 全般に
                                                  [4] IREX: Information Retrieval and Extraction Exercise,
広く分布していた.この結果から,出現頻度が高い
                                                       http://nlp.cs.nyu.edu/irex/.
意味タグに分類される固有表現の抽出精度を高める
                                                  [5] S. Sekine, K. Sudo, C. Nobata: Extended Named Entity
ことで,インスタンスの抽出精度を高めることがで
                                                       Hierarchy, 2002.



                                              04-04

More Related Content

What's hot

株式会社 花みずき工房 きらりタウン浜北
株式会社 花みずき工房 きらりタウン浜北株式会社 花みずき工房 きらりタウン浜北
株式会社 花みずき工房 きらりタウン浜北sunseago
 
Requirement Development meets SOA
Requirement Development meets SOARequirement Development meets SOA
Requirement Development meets SOAiwasaki
 
Ordinary Management
Ordinary ManagementOrdinary Management
Ordinary ManagementKoichi ITO
 
プログラマのためのテスト1
プログラマのためのテスト1プログラマのためのテスト1
プログラマのためのテスト1Kuniaki Igarashi
 
パーソナルヘルスレコード(Personal Health Record)の現状と将来
パーソナルヘルスレコード(Personal Health Record)の現状と将来パーソナルヘルスレコード(Personal Health Record)の現状と将来
パーソナルヘルスレコード(Personal Health Record)の現状と将来Tadahiro Okuda
 
波動強命水「活」 0428
波動強命水「活」 0428波動強命水「活」 0428
波動強命水「活」 0428Hanamaru Fujii
 
Copyright and Creative Commons
Copyright and Creative CommonsCopyright and Creative Commons
Copyright and Creative CommonsJun Nogata
 
Socila Media2009 4 15
Socila Media2009 4 15Socila Media2009 4 15
Socila Media2009 4 15Yuki Fujino
 

What's hot (9)

株式会社 花みずき工房 きらりタウン浜北
株式会社 花みずき工房 きらりタウン浜北株式会社 花みずき工房 きらりタウン浜北
株式会社 花みずき工房 きらりタウン浜北
 
Requirement Development meets SOA
Requirement Development meets SOARequirement Development meets SOA
Requirement Development meets SOA
 
Ordinary Management
Ordinary ManagementOrdinary Management
Ordinary Management
 
プログラマのためのテスト1
プログラマのためのテスト1プログラマのためのテスト1
プログラマのためのテスト1
 
パーソナルヘルスレコード(Personal Health Record)の現状と将来
パーソナルヘルスレコード(Personal Health Record)の現状と将来パーソナルヘルスレコード(Personal Health Record)の現状と将来
パーソナルヘルスレコード(Personal Health Record)の現状と将来
 
波動強命水「活」 0428
波動強命水「活」 0428波動強命水「活」 0428
波動強命水「活」 0428
 
Copyright and Creative Commons
Copyright and Creative CommonsCopyright and Creative Commons
Copyright and Creative Commons
 
Socila Media2009 4 15
Socila Media2009 4 15Socila Media2009 4 15
Socila Media2009 4 15
 
4 15 Guidance
4 15 Guidance4 15 Guidance
4 15 Guidance
 

Viewers also liked

Спирты. Этанол и метанол
Спирты. Этанол и метанолСпирты. Этанол и метанол
Спирты. Этанол и метанолSvetik Svetik
 
Session Powerpoint, AIESEC European Regional Conference
Session Powerpoint, AIESEC European Regional ConferenceSession Powerpoint, AIESEC European Regional Conference
Session Powerpoint, AIESEC European Regional Conferencelucye symons
 
Neumonia de lenta resolución
Neumonia de lenta resoluciónNeumonia de lenta resolución
Neumonia de lenta resoluciónResidentes1hun
 
10 cosas que una empresa puede aprender de Star Wars
10 cosas que una empresa puede aprender de Star Wars10 cosas que una empresa puede aprender de Star Wars
10 cosas que una empresa puede aprender de Star WarsAlfredo Vela Zancada
 
Language and technology
Language and technologyLanguage and technology
Language and technologyMark O'Meara
 
‘कंप्‍यूटर पर हिंदी प्रयोग हेतु आधारभूत प्रशिक्षण कार्यक्रम’ विषय पर हिंदी का...
‘कंप्‍यूटर पर हिंदी प्रयोग हेतु आधारभूत प्रशिक्षण कार्यक्रम’ विषय पर हिंदी का...‘कंप्‍यूटर पर हिंदी प्रयोग हेतु आधारभूत प्रशिक्षण कार्यक्रम’ विषय पर हिंदी का...
‘कंप्‍यूटर पर हिंदी प्रयोग हेतु आधारभूत प्रशिक्षण कार्यक्रम’ विषय पर हिंदी का...राहुल खटे (Rahul Khate)
 
Características Neuropsicológicas de la demencia fronto-temporal, variante co...
Características Neuropsicológicas de la demencia fronto-temporal, variante co...Características Neuropsicológicas de la demencia fronto-temporal, variante co...
Características Neuropsicológicas de la demencia fronto-temporal, variante co...NEUROCONSULTAS
 
Distinguishing gas bearing sandstone reservoirs within mixed siliciclastic-ca...
Distinguishing gas bearing sandstone reservoirs within mixed siliciclastic-ca...Distinguishing gas bearing sandstone reservoirs within mixed siliciclastic-ca...
Distinguishing gas bearing sandstone reservoirs within mixed siliciclastic-ca...Ahmed Hafez
 
9. 9 3 La Constitución Política de 1991
9. 9 3 La Constitución Política de 19919. 9 3 La Constitución Política de 1991
9. 9 3 La Constitución Política de 1991Marioandres1405
 
Mercantil II.... Derecho Concursal
Mercantil II.... Derecho ConcursalMercantil II.... Derecho Concursal
Mercantil II.... Derecho ConcursalRosangela Sira
 
Poliarteritirs Nodosa
Poliarteritirs NodosaPoliarteritirs Nodosa
Poliarteritirs Nodosadrmelgar
 
Programed instructional material
Programed instructional materialProgramed instructional material
Programed instructional materialAtul Thakur
 
Child Abuse SGP
Child Abuse SGPChild Abuse SGP
Child Abuse SGPkcrigamire
 

Viewers also liked (20)

Спирты. Этанол и метанол
Спирты. Этанол и метанолСпирты. Этанол и метанол
Спирты. Этанол и метанол
 
Infografía día del padre parte1.v1.0
Infografía día del padre parte1.v1.0Infografía día del padre parte1.v1.0
Infografía día del padre parte1.v1.0
 
POTESTAD TRIBUTARIA
POTESTAD TRIBUTARIAPOTESTAD TRIBUTARIA
POTESTAD TRIBUTARIA
 
Session Powerpoint, AIESEC European Regional Conference
Session Powerpoint, AIESEC European Regional ConferenceSession Powerpoint, AIESEC European Regional Conference
Session Powerpoint, AIESEC European Regional Conference
 
presentacion sobre regencia de farmacia
presentacion sobre regencia de farmaciapresentacion sobre regencia de farmacia
presentacion sobre regencia de farmacia
 
Neumonia de lenta resolución
Neumonia de lenta resoluciónNeumonia de lenta resolución
Neumonia de lenta resolución
 
10 cosas que una empresa puede aprender de Star Wars
10 cosas que una empresa puede aprender de Star Wars10 cosas que una empresa puede aprender de Star Wars
10 cosas que una empresa puede aprender de Star Wars
 
Language and technology
Language and technologyLanguage and technology
Language and technology
 
‘कंप्‍यूटर पर हिंदी प्रयोग हेतु आधारभूत प्रशिक्षण कार्यक्रम’ विषय पर हिंदी का...
‘कंप्‍यूटर पर हिंदी प्रयोग हेतु आधारभूत प्रशिक्षण कार्यक्रम’ विषय पर हिंदी का...‘कंप्‍यूटर पर हिंदी प्रयोग हेतु आधारभूत प्रशिक्षण कार्यक्रम’ विषय पर हिंदी का...
‘कंप्‍यूटर पर हिंदी प्रयोग हेतु आधारभूत प्रशिक्षण कार्यक्रम’ विषय पर हिंदी का...
 
Características Neuropsicológicas de la demencia fronto-temporal, variante co...
Características Neuropsicológicas de la demencia fronto-temporal, variante co...Características Neuropsicológicas de la demencia fronto-temporal, variante co...
Características Neuropsicológicas de la demencia fronto-temporal, variante co...
 
Distinguishing gas bearing sandstone reservoirs within mixed siliciclastic-ca...
Distinguishing gas bearing sandstone reservoirs within mixed siliciclastic-ca...Distinguishing gas bearing sandstone reservoirs within mixed siliciclastic-ca...
Distinguishing gas bearing sandstone reservoirs within mixed siliciclastic-ca...
 
9. 9 3 La Constitución Política de 1991
9. 9 3 La Constitución Política de 19919. 9 3 La Constitución Política de 1991
9. 9 3 La Constitución Política de 1991
 
Convulsiones neonatales
Convulsiones neonatalesConvulsiones neonatales
Convulsiones neonatales
 
Dislipidemias
DislipidemiasDislipidemias
Dislipidemias
 
Mercantil II.... Derecho Concursal
Mercantil II.... Derecho ConcursalMercantil II.... Derecho Concursal
Mercantil II.... Derecho Concursal
 
Actividad Financiera del Estado
Actividad Financiera del EstadoActividad Financiera del Estado
Actividad Financiera del Estado
 
Poliarteritirs Nodosa
Poliarteritirs NodosaPoliarteritirs Nodosa
Poliarteritirs Nodosa
 
Programed instructional material
Programed instructional materialProgramed instructional material
Programed instructional material
 
Child Abuse SGP
Child Abuse SGPChild Abuse SGP
Child Abuse SGP
 
Education Technology: Program Instruction or Learning
Education Technology: Program Instruction or LearningEducation Technology: Program Instruction or Learning
Education Technology: Program Instruction or Learning
 

SIG-SWO-A801-04

  • 1. 人工知能学会研究会資料 SIG-SWO-A801-04 オントロジー拡充のための 固有表現の共起情報を用いた語彙獲得 稲葉 真純 長野 伸一 川村 隆浩 服部 正典 Masumi INABA, Shinichi NAGANO, Takahiro KAWAMURA, and Masanori HATTORI 株式会社 東芝 Toshiba Corporation Abstract: オントロジー活用アプリケーションの運用において,継続的なオントロジーの拡充は 重要な課題である. 我々は,商品情報に関するオントロジーを活用した評判分析技術の研究開発 を行っている.本稿では,大量の商品データから未知の商品や新商品の名称を抽出し,オントロ ジーの語彙獲得を効率化する手法を提案する.DVD の商品情報を用いた評価実験では,適合率 87.1%,再現率 87.4%の精度で商品名を抽出できた. 本稿では,商品オントロジーの更新コストを低減 1. はじめに するため,大量の商品データから効率的に商品名を 近年,Weblog や Wiki,SNS (Social Networking 抽出し,商品オントロジーの既存のクラスに属する Service) などを利用して,誰もが簡単に Web コンテ インスタンスを拡充する手法を提案する.2 章では, ンツを作成できるようになった.消費者によって発 オントロジーを活用した評判分析技術について述べ 信される情報は CGM (Consumer Generated Media) と る.3 章では,固有表現の共起情報を用いた語彙獲 呼ばれ,商品やサービスに関するクチコミも多い. 得の手法を提案する.次に 4 章で,提案手法の評価 クチコミは消費者の購買行動に大きな影響を与えて 実験について報告する.最後に,5 章で今後の課題 おり,マーケティングの面からも注目されている. について述べてまとめとする. そこで,我々は,CGM からクチコミを収集し,商品 の評判情報を分析するサービス 「ユビ de コミミハサ 2. 評判分析技術 ンダー」を開発してきた [1]. ユビ de コミミハサンダーの特徴は, 商品に関する ユビdeコミミハサンダーは,CGMから商品に関す 知識体系として,商品オントロジーを用いることに るクチコミを抽出し,要約を提示するサービスであ ある.商品オントロジーを用いることで,クチコミ る.ユビdeコミミハサンダーの構成を図 1に示す. で言及されている商品の特定や,商品ジャンルの判 例えば,ユーザがある本のタイトルを入力すると, 定が可能になる. しかし, 情報伝達速度が速い CGM 著者や出版社などの情報を取得し,本の感想を述べ で言及される新商品を分析するには,定期的にオン たブログを収集する.ポジティブ・ネガティブ判定 トロジーを更新する必要がある [2].オントロジー 機能では,収集したブログの内容を解析し,評判情 を用いたアプリケーションの構築運用において,語 報を集計する.関連トピック抽出機能では,話題の 彙獲得の効率化は,十分な情報量を確保するために 関連商品を提示する.また,ソート&フィルタリン 不可欠な課題である. グ機能では,有用なブログを選出する.これらの機 能により,多数のクチコミ情報を誰でも簡単に調べ 連絡先:稲葉 真純,masumi.inaba@toshiba.co.jp ることができる.要約の抽出には,商品の感想に関 〒212-8582 川崎市幸区小向東芝町 1 する表現をまとめた感性表現オントロジー [3]と, 株式会社 東芝 研究開発センター 個別の商品について製造メーカや出演者などの詳細 知識メディアラボラトリー 04-01
  • 2. 情報を記した商品メタデータ,および商品情報をま 商品情報コーパスの一部を図 3に示す.コーパスに とめた商品オントロジーを利用する. は,以下の特徴がある. 商品オントロジーを図 2に示す.商品オントロジ • 商品名は単数または複数の固有表現で構成される ーは,商品ジャンルで分類したクラス階層と,商品 • 固有表現の並び順には規則性がある 名を表す膨大なインスタンスを関連付けたライトウ • コーパス中で繰り返し用いられる固有表現がある ェイト・オントロジーである. 商品オントロジーの拡充には,商品ジャンルを表 すクラスや,個別の商品名を表すインスタンス,商 そこで,固有表現の共起情報を用いたインスタン 品の特徴を表す属性のノード数を増やすアプローチ ス拡充システムを開発した.システム構成を図 4に や,それらのノード間の関係を蜜にするアプローチ 示す.システムは,商品名の集合を入力とし,イン が考えられる.このうち,提案手法では,指定のク スタンスを出力する.システム内部は,初期化部, ラスに属するインスタンスのノード数を増やすため 形態素解析部,意味タグ付与部,インスタンス生成 に,未知の商品や新商品の名称を獲得することをタ 部の 4 つの処理で構成される.意味タグとは,固有 ーゲットとする. 表現の意味を分類したものである.意味タグ付与に は,固有表現と意味タグのマッチング履歴と,意味 タグの並び順を共起情報として記録したデータベー スを用いる. まず,ステップ 1 の初期化部で,コーパスの全角 半角を正規化する.次に,ステップ 2 で,正規化さ れたコーパスを形態素解析する.次に,ステップ 3 で,コーパスに意味タグを付与する.意味タグは, IREX [4]や拡張固有表現階層 [5]の固有表現分類を 元に定義する.最後に,ステップ 4 で,商品名のイ ンスタンスを生成する. 次節以降では,ステップ 3 の意味タグ付与部につ いて説明する. 図 1 ユビ de コミミハサンダーの構成 スター・ウォーズ エピソード 2/クローンの攻撃 スター・ウォーズ エピソード 6/ジェダイの帰還 スター・ウォーズ エピソード 4 新たなる希望 リミテッド・エディション スター・ウォーズ トリロジー リミテッド・エディション (初回限定生産) スター・ウォーズ クローン大戦 Vol.2 スター・ウォーズ クローン大戦 VOLUME ONE 図 3 商品情報コーパスの一部 図 2 商品オントロジー 3. 提案手法 新製品の発売サイクルに追従するため,定期的に Webから収集する大量の商品名をコーパスにする. 図 4 インスタンス拡充システム 04-02
  • 3. 3.1 未知語の獲得 新しいコーパスには未知語が多く含まれる.これ らの未知語に意味タグを付与するために,意味タグ の並び順を利用する.未知語の獲得手順を図 5に示 す.まず,コーパス中の既知の語彙に意味タグを付 与する.未知語には仮に「不明」の意味タグを付与 し,意味タグの並びを完成させる.次に,意味タグ の並びの履歴を参照し,意味タグの並び数が同数の 意味タグの並びを抽出する.既知の意味タグについ て,出現位置のマッチングを行う.出現位置が一致 する意味タグの並びのうち,出現頻度が最も高い意 味タグの並びから順に候補とする.続いて,「不明」 図 6 意味タグの並びの獲得手順 の意味タグを仮付与した語彙と,既知語の部分マッ チングを行う.最も文字列が一致する順に,既知語 に与えられた意味タグを未知語の意味タグ候補とす 4. 評価実験 る.ここで,前述の出現頻度が高い意味タグの並び の候補との一致を判定することで, 「不明」の意味タ 4.1 実験概要 グが解決し,未知語を獲得することができる. 提案手法の有効性を確認するため,評価実験を行 った.本実験では,DVD オントロジーのインスタン ス(商品名)の作成に関して,人手で作成した正解 データと,提案手法により生成した実験データを比 較し,抽出精度を算出した. コーパスとして, DVD 発売情報のポータルサイト から,邦画,洋画,音楽,アニメ,TV ドラマの 5 分野 1 万件の商品名を人手で収集した. これにより, 実験の前提条件として,コーパスは DVD 以外のノ イズ情報を取り除いたものとみなすことができる. 実験データの作成方法を説明する.まず,人名, 商品ジャンル,タイトル,サブタイトル,ボリュー ム,エディションの 6 つの意味タグを定義する.次 図 5 未知語の獲得手順 に,提案手法を用いて固有表現を抽出し,<タイト ル>または<タイトルとサブタイトル>の組み合わ 3.2 意味タグの並びの獲得 せを商品名と定義して商品名を生成した. 作成される商品名の正解数については,作品のセ 意味タグの並びの獲得手順を図 6に示す.はじめ ット販売などを考慮し,1 つの元データから,複数 に,コーパス中の既知の語彙に意味タグを付与する. の正解が作成することがある. 全ての語彙に意味タグが付与され,且つ意味タグの 並びの履歴に同じ構成の意味タグの並びがない場合 4.2 結果と考察 は,新たな意味タグの並びとして抽出し,出現頻度 が最も低い意味タグの並びとして履歴に記録する. コーパスから抽出した意味タグの並び順の一部を また,コーパス中の語彙に意味タグを付与し,未知 表 1に示す.実験の結果,タイトルのみで構成され 語を含む意味タグの並びを完成させたとき,履歴に る商品名はコーパス全体に対して少なく,商品名を 同じ意味タグの並び数がない場合は,未知語と既知 抽出する手法の必要性が確かめられた.また,並び 語の部分マッチングを行う.最も文字列が一致する 数が増加するほど,並び順のバリエーションも増加 既知語に与えられた意味タグを,未知語の意味タグ することがわかった.意味タグの共起情報について とする.これにより,新たな意味タグの並びを獲得 は,機械学習を適用できると考えられる. できる. 04-03
  • 4. 表 1 意味タグの並び順の一部 きると考えられる.一方,意味タグの並び順につい ては,分野ごとに特徴があり,異なる分野への転用 並び数 意味タグの並び順 は困難であると考えられる.しかし,同ジャンルの タイトル 1 インスタンスを拡充する用途においては,共起情報 タイトル ボリューム 2 を用いる提案手法の有効性が確かめられた.この結 タイトル サブタイトル 果から,一度システムでインスタンスを生成した分 タイトル エディション 野については,定期的なオントロジーの更新コスト 商品ジャンル タイトル を低減できると考えられる. タイトル サブタイトル エディション 3 タイトル サブタイトル エディション 表 3 意味タグが含まれる割合 タイトル ボリューム エディション 意味タグ 割合 (%) ジャンル タイトル サブタイトル エディション 51.8 人名 タイトル サブタイトル ボリューム 30.9 商品ジャンル タイトル サブタイトル 人名 10.1 商品ジャンル 7.2 次に,生成した商品名の精度を算出した.適合率 (Precision) の算出方法を式(1)に,再現率 (Recall) の 5. まとめ 算出方法を式(2)に示す.コーパスに対する精度の算 出結果を表 2 に示す.適合率は 87.1%であった.精 Web リソースを用いることによって,膨大かつ新 度が低くなった原因には,複数の語彙で構成される 鮮なデータを入手することは魅力的である. しかし, 複合語が抽出できなかったことが挙げられる.しか 取得した語彙の正確性を自動的に判定することは困 し,生成した商品名の出力結果については,正解デ 難である.最終的な判定は人間が行うことを前提と ータと完全一致はしないまでも,部分的には有効で しているが,判定規則を学習することで抽出精度を あり,ユーザへの推薦データとしては十分な結果が 高めることもできる.今後は,共起情報を機械学習 得られたと考えられる.一方,再現率は 87.4%であ に適用し,判定処理を効果的に行うことも検討した った.精度低下の要因としては,1 つのデータから い.また,構築したオントロジーを元に,CGM など 複数の正解を生成すべき場合に,生成漏れがあった の口語表現が含まれるデータから,商品名の略語や ことが挙げられる.今後は,複数の商品名を判別す 愛称などの同義語を抽出する技術にも取り組んでい るためのパターンを整備する必要がある. きたい. correct Pr ecision = 参考文献 (1) all method [1] T. Kawamura, S. Nagano, M. Inaba, Y. Mizoguchi: correct Re call = Mobile Service for Reputation Extraction from Weblogs - (2) all Public Experiment and Evaluation, Proceedings of manual Twenty-Second Conference on Artificial Intelligence (AAAI-07), 2007. 表 2 適合率と再現率 [2] 鈴木健之, 丸山広, 中村太一: 競合製品や競合するサ 適合率 (%) 再現率 (%) ービスに関するオントロジーの構築とその利用, 第 提案手法 87.1 87.4 16 回セマンティックウェブとオントロジー研究会, 2007. タイトルとサブタイトル以外で,コーパス中に含 [3] 飯田貴之, 長野伸一, 山崎智弘, 服部正典, 川村隆浩: まれる意味タグの割合を表 3に示す.DVDのコーパ 評判分析のための感性表現オントロジーメンテナン スには,エディションやボリュームの意味タグに分 スツールの開発, 第 18 回セマンティックウェブとオ 類できる固有表現が多く含まれることがわかった. ントロジー研究会, 2008. これらの意味タグは,分野に関わらず DVD 全般に [4] IREX: Information Retrieval and Extraction Exercise, 広く分布していた.この結果から,出現頻度が高い http://nlp.cs.nyu.edu/irex/. 意味タグに分類される固有表現の抽出精度を高める [5] S. Sekine, K. Sudo, C. Nobata: Extended Named Entity ことで,インスタンスの抽出精度を高めることがで Hierarchy, 2002. 04-04