SlideShare a Scribd company logo
1 of 67
山口研究室M1
  香川宏介
1.論文紹介

2.定義文からのCI関係抽出
1.論文紹介
ISWC2011
    Best-In-Use Paper


   Leveraging
 Community-built
Knowledge for Type
  Coercion in QA
    by IBM Research
概要
Answer Typeを決定

これまでの手法
①質問文から回答タイプを決定
②文書群から回答タイプ制約下で候補
 を絞る
Joepardy! のような多分野からの出題
 の場合、回答タイプがどうなり、その
 インスタンスがどれくらいあるのか、
 容易にはわからない。そこで、正しい
 回答タイプを決定しようというプロセ
 スをとるのではなく、回答タイプ情報
 を用いずに解答候補を取得しておい
 て、回答タイプにふさわしいかを判定
 する

回答タイプをあくまで解候補のスコ
アの一部として利用するアプローチ
質問解析       分類器     回答タイプの決
                   定
                               DB



                     検索        コーパス

                             WEB
                              WEB
                               WEB
                             テキス
                              テキス
                             ト テキス
                              ト
                   解候補         ト
                    解候補
       解             解候補

出力         スコアリン
             グ
質問解析                    回答タイプ候補
                                      DB

                         検索
           解候補  解候補
            解候補  解候補                       コーパス
             解候補  解候補
                                      WEB
                                       WEB
                                        WEB
                                      テキス
                                       テキス
                              TyCor   ト テキス
                                       ト
                                        ト

       解

出力          スコアリン
              グ           回答タイプ情報はあくまで解候補
                          に与えるスコア情報にとどめてお
                          く
WATSON
   の
回答プロセス
WatsonのDeepQA~4つ のステップ~
Question Analysis
       ↓
Hypothesis Generation
       ↓
Hypothesis and Evidence Scoring
       ↓
Candidate Ranking
WatsonのDeepQA~4つ のステップ~
Question Analysis
                        回答対象語(Lexical
                      Answer Type)が何である
                      か(表層文字列レベル)を構
       ↓              文木などから判断し、抽
                              出する
Hypothesis Generation
       ↓
Hypothesis and Evidence Scoring
       ↓
Candidate Ranking
WatsonのDeepQA~4つ のステップ~
Question Analysis
                        回答対象語(Lexical
                      Answer Type)が何である
                      か(表層文字列レベル)を構
       ↓              文木などから判断し、抽
                              出する
Hypothesis Generation
       ↓              クエリを生成し、コーパ
                      スやDBから解答候補を大
                             量に獲得
Hypothesis and Evidence Scoring
       ↓
Candidate Ranking
WatsonのDeepQA~4つ のステップ~
Question Analysis
                        回答対象語(Lexical
                      Answer Type)が何である
                      か(表層文字列レベル)を構
       ↓              文木などから判断し、抽
                              出する
Hypothesis Generation
       ↓              クエリを生成し、コーパ
                      スやDBから解答候補を大
                             量に獲得
Hypothesis and Evidence Scoring
       ↓
                       本論文で触れているところ
Candidate Ranking      解答候補にスコアをつける
                            n-gram, skip-
                          bigram,source-reliabilityな
                          ど多次元によってスコアリン
                                     グ
                          その指標の一つとして回答タ
                                イプ情報がある
WatsonのDeepQA~4つ のステップ~
Question Analysis
                        回答対象語(Lexical
                      Answer Type)が何である
                      か(表層文字列レベル)を構
       ↓              文木などから判断し、抽
                              出する
Hypothesis Generation
       ↓              クエリを生成し、コーパ
                      スやDBから解答候補を大
                             量に獲得
Hypothesis and Evidence Scoring
       ↓
                       本論文で触れているところ
Candidate Ranking      解答候補にスコアをつける
                            n-gram, skip-
                          bigram,source-reliabilityな
                          ど多次元によってスコアリン
    スコアに基づいて解答を得る                    グ
確信度を計算し、クイズに答えるか答えないかの    その指標の一つとして回答タ
         戦略を練る                  イプ情報がある
WatsonのDeepQA~4つ のステップ~
Question Analysis
                        回答対象語(Lexical
                      Answer Type)が何である
                      か(表層文字列レベル)を構
       ↓              文木などから判断し、抽
                              出する
Hypothesis Generation
       ↓              クエリを生成し、コーパ
                      スやDBから解答候補を大
                             量に獲得
Hypothesis and Evidence Scoring
       ↓
                       本論文で触れているところ
Candidate Ranking      解答候補にスコアをつける
                            n-gram, skip-
                          bigram,source-reliabilityな
                          ど多次元によってスコアリン
    スコアに基づいて解答を得る                    グ
確信度を計算し、クイズに答えるか答えないかの    その指標の一つとして回答タ
         戦略を練る                  イプ情報がある
WatsonのDeepQA~4つ のステップ~
Question Analysis
                         回答対象語(Lexical
                      Answer Type)が何である
                      か(表層文字列レベル)を構
       ↓               文木などから判断し、抽
                              出する
Hypothesis Generation Question Analysis
         この論文で紹介されている  のステップで得られた語
       ↓               を手がかりにしてクエリ
           ”TyCor” Component
                      を生成し、コーパスやDB
Hypothesis and Evidence Scoring
                       から解答候補を大量に獲
                               得

       ↓
                        本論文で触れているところ
Candidate Ranking       解答候補にスコアをつける
                            n-gram, skip-
                          bigram,source-reliabilityな
                          ど多次元によってスコアリン
    スコアに基づいて解答を得る                    グ
確信度を計算し、クイズに答えるか答えないかの    その指標の一つとして回答タ
         戦略を練る                  イプ情報がある
Hypothesis Generation において
生成された解答候補(例:宮崎駿)と

Question Analysis において
 生成された回答対象語(例:監督)の

それぞれのtypeの一致度を測ってスコ
 アを出力
EDM(Entity Disambiguation & Matching)
  →解答候補群(candidate answers)をWikipediaのURIに結びつける

TR(Type Retrieval)
  →EDMによって得られた概念をYAGOのクラスに結び付ける(解答
  候補群それぞれの親を見つける)

PDM(Predicate Disambiguation & Matching)
  →回答対象語(LAT)をYAGOのクラスに結びつける


TA(Type Alignment)
  →candidate answersのtypeとLATのtypeの一致度を測り、
     TyCor Componentにおけるスコアとして出力
EDM(Entity Disambiguation & Matching)
  →解答候補群(candidate answers)をWikipediaのURIに結び
  つける

TR(Type Retrieval)
 →EDMによって得られた概念をYAGOのクラスに結び付ける
 (解答候補群それぞれの親を見つける)

PDM(Predicate Disambiguation & Matching)
 →回答対象語(LAT)をYAGOのクラスに結びつける


TA(Type Alignment)
 →candidate answersのtypeとLATのtypeの一致度を測る
input: 解答候補(candidate answer)
output: Wikipediaのタイトル(URI)
  Wikipediaの記事名, リダイレクト, アンカーリン
  ク, 曖昧さ回避のページをランク付けの基準とし
  て使う

・解答候補を単語→概念へマッピングする
・6つの指標によってランク付けする
・Optional ParameterとしてPopularityを用いる
 (ページランクや、記事名のIDFを指標とする)
Direct Contextual Match
input: 解答候補(candidate answer)
              Title Match
              Redirect Match
output: Wikipediaのタイトル(URI)
              Disambiguation Match
  Wikipediaの記事名, リダイレクト, アンカーリン
              Anchor-Link Match
  ク, 曖昧さ回避のページをランク付けの基準とし
              DBPedia name properties
 て使う

・解答候補を単語→概念へマッピングする
・6つの指標によってランク付けする
・Optional ParameterとしてPopularityを用いる
 (ページランクや、記事名のIDFを指標とする)
①Direct Contextual Match
 Wikipediaの記事名をソースに解候補が生成され
 ている、もしくは他のWikipediaのページからリ
 ンクされていればスコア1.0
②Title Match
  Wikipediaの記事名と解答候補語が完全一致して
 いればスコア1.0を与える
③Redirect Match
 リダイレクトに(多少のノイズには目をつぶる)に
 現われていればスコア1.0
④Disambiguation Match
曖昧さ回避のページに現れていれば、
1/(the number of disambiguations)
              のスコアを与える
⑤Anchor Link Match
[[米国|アメリカ合衆国(URI)]]
  のように、Wikipediaにはリンクの文字列とURI
 のセットが多数ある。”米国”のリンクの文字列が
 与えられたときに、”アメリカ合衆国”へ結ばれて
 いる確率をスコアとして与える
⑥DBpedia name properties
 DBPediaには名前関連のプロパティが100以上あ
 る。
 名前、名称、愛称、姓、名・・・・など
 解候補の文字列がこれらのトリプルの目的語に
 なっている場合、主語相当のURIが結び付けるべ
 き概念なのではないか、という考え。
 S(URI)→P(名称などのプロパティ)→O(解候補の文
 字列)

スコアは、1/SになったURIの数
input: EDMで得られたWikipediaのURI(解答候
  補)
output: YAGOにおけるクラスのURI

解答候補語は基本的にはYAGOにおける極めて
highly-specificなクラスに紐づいている
例) CompaniesEstablishedIn1898

 YAGOのクラス階層を、WordNetのクラスが存
 在するレベルにまで上昇させる
input: Lexical Answer Type(LAT)
output: YAGOにおけるクラスのURI
Wikipediaの記事名, リダイレクト, アンカーリンク,
  曖昧さ回避のページをランク付けの基準として使
  う

・4つの指標によってランク付けする
input: Lexical Answer Type(LAT)
output: YAGOにおけるクラスのURI(へMatching)
Wikipediaの記事名, リダイレクト, アンカーリンク,
  曖昧さ回避のページをランク付けの基準として使
  う

・4つの指標によってランク付けする
          WordNetのsense rank
          DBPediaにおけるType Popularity
          Domain-SpecificなType Mapping
          条件付確率
①WordNetのsense rank

②DBPediaにおけるType Popularity
 DBPediaにおいてその概念がいくつのinstance
 を持つか

③Domain SpecificなType-mapping
 Jeopardy!では過去問を調べたところ、starが
 75%の割合で「映画スター」を指し、「星」の
 意味では25%程度だった
④条件付確率を使う。
 AかつBのタイプを持つインスタンス数/Aのタイプを持つイ
 ンスタンス数
 この値が0.5を超えるなら、Bもタイプとして候補にする

例) LATが”俳優”に属し、”俳優”のインスタンス数が4万とする

 “俳優”と”歌手” 両方をタイプとして持つインスタンスが2万
 以上あれば、”歌手”のタイプも候補として加える。

 一方、”俳優”と”大学教授”の両方をタイプとして持つインス
 タンスが100程度しかなければ、候補としては加わらない。

 これによってカバー率を上げている
input: TRで得られた解答候補のtype,
         PDMで得られたLATのtype
output: 両者の一致度を示すスコア

・6つの指標によってランク付けする
input: TRで得られた解答候補のtype,
         PDMで得られたLATのtype
output: 両者の一致度を示すスコア

・6つの指標によってランク付けする

         Equivalent/Sub Class Match
         Disjoint Match
         Sibling Match
         Super Class Match
         Statistical Relatedness
         Lowest Common Ancestor
①Equivalent/Sub Class Match
 LATとcandidate answerのtypeがYAGOにおいて、
 equivalent もしくは candidate answerのtypeがLAT
 のtypeのsubclassならば、score1.0を与える

②Disjoint Match
 逆に、LATとcandidate answerのtypeがYAGOにおい
 てdisjointであれば、score-1.0を与える

③Sibling Match
 LATとinstanceが親クラスを共有していれば
 score0.5を与える、但し、上位過ぎるクラスで共有さ
 れている場合(depth<6)はこの限りではない
④Super Class Match
 candidate answerのtypeがLATのtypeより上位概念の場
 合、score0.3を与える。これは直感的にはおかしいこと
 (基本的には解候補はLATの下位概念であるはず)だが、
 EDMやPDMの誤りを緩和するために経験則的に必要らし
 い

⑤Statistical Relatedness
 閾値を設けてスコアを微調整する

⑥Lowest Common Ancestor
  candidate answerとLATのLowest Common なクラスが
 YAGOにおいてdepth>6の場合、スコア0.25を与える
回答タイプを決めて、それに合う条件で解を探すよ
 りも
回答タイプと、回答タイプ情報を用いないで生成さ
 れた大量の解候補をすり合わせて1つの指標程度
 で扱ったほうが、精度を維持したまま網羅性を高
 められる

Wikipediaの情報資源
(リンク, 曖昧さ回避, リダイレクト)
がスコアリングに有効に働く
クラス階層としてはdepth=6付近が経験則的に有
 効
2.Wikipedia定義文
からのC-I関係抽出
“記事名” + (・・・)とは、(・・・・) + ”上位概念” + で
ある。
 インスタンス収集は一覧ページから
 記事名になっていない語も収集できる


 is-a関係について
 InfoBoxテンプレートの上位・下位関係を利用
 記事内見出し語名の上位・下位構造を利用

 カテゴリ名・記事内見出し語名の文字列一致度を
  利用
人物




    東京都出身の人物


東京都出身の人物(自転車競技)        1~2程度の弁別属性を含む語が直属
                       のクラスとなっている。粒度として
                            はかなり細かい。
高       市
村   山
    宮   川
直       雅
樹   正
        敏
人物




                            XのY(Z)型
                            が非常に多い
    東京都出身の人物


東京都出身の人物(自転車競技)        1~2程度の弁別属性を含む語が直属
                       のクラスとなっている。粒度として
                            はかなり細かい。
高       市
村   山
    宮   川
直       雅
樹   正
        敏
人物




   東京都出身の人物                    自転車競技選手


東京都出身の人物(自転車競技)
                                     定義文から新
                                     たに抽出でき
                                      るC-I関係
                  高        市    竹
                       山
                  村        川    谷
                       宮
                  直    正   雅    賢
                  樹        敏    二
人物



                        スポーツ選手


東京都出身の人物                自転車競技選手


     東京都出身の自転車競技選手


           高        市   竹
                山
           村        川   谷
                宮
           直    正   雅   賢
           樹        敏   二
記事として存   記事が存在しな
              在        い
一覧ページに存在する語    約16万語    約14万語    約30万語
一覧ページに存在しない    約61万語      -        -
語
               約77万語      -        -


~今までのアプローチ~
一覧ページの箇条書き項目を収集
Infoboxテンプレート名を収集
記事として存   記事が存在しな
              在        い
一覧ページに存在する語    約16万語    約14万語    約30万語
一覧ページに存在しない    約61万語      -        -
語
               約77万語      -        -


                   語として不適切なものを取り除く
                        必要がある
既に抽出したものと被ること
もあるが、is-A関係が構築で
    きる可能性
記事として存   記事が存在しな
              在        い
一覧ページに存在する語    約16万語
               約61万語         約14万語   約30万語
一覧ページに存在しない    約61万語           -       -
語
               約77万語           -       -



   記事として存在 かつ 一覧ページに存在しない語




   Infoboxあ
   り
 ランダムに抽出した300の記事を対象
 人手で定義文から上位語を抽出し、日本語語彙大
  系によって判断した
 平均して1記事につき、親を1.14個もつ(σ=0.38)
  抽出できた関係数は322
 判断不能・定義文内に上位語相当語句がない
  記事が12

およそ60~70万程度の関係が取れると思われる
 記事になっていない語に関しては扱えない
 記事になっているが、不適切な語をどう取り除く
  か
 C-I/Is-Aの区別なく、すべて「上位・下位関係」
  として混在した形で抽出される(→既存のWikiOnt
  における関係とうまく結び付けられたりしない
  か?)
   ランダムに選んだインスタンス約300語を対象に
    前述の手法が仮にうまく働いたとして、どの程度
    の深さのクラスが定義文から抽出されるかを調べ
    た。

   定量化は難しいが、基準としては日本語語彙体系
    のカテゴリ(約3000)とインスタンス(約10万)
    例) 名詞→具体→主体→場所→施設→公共施設→学校→小学校(最下層)
    例) 名詞→具体→具体物→無生物→人工物→物品→商品→加工物(最下層)
33%   54%         12%       1%
未知数   約100,000語   約2,000語   数100程度
      レベル         レベル
アナウンサー,
                         自衛官

フリーアナウン
  サー,                           ジャーナリスト,
 航空自衛官                             軍人




                                           人


    33%   54%         12%         1%
    未知数   約100,000語   約2,000語     数100程度
          レベル         レベル
「Бはキリル文字のひとつ」
「8月21日はグレゴリオ暦で年始から233日目にあ
 たり、年末まであと132日ある。」
「ブントは、結びつき、絆、連合、結束、提携、盟
 約、同盟、連邦、束を意味するドイツ語の名詞」
「ロータシズムとは言語学において、ほかの音素が
 /r/音に変化することをいう。」
上位語がとれなかった記事
               定義文に上位語相当語
               句が含まれていない



               状態や行動名を長い名
               詞句で説明しており、
               取り出す長さがチャン
               ク単位を超える
               日付や文字など、そも
               そも取る価値があるの
               か不明
   ルールベース
    「~は~で、主に~を行っている。」などのルー
    ルの適用できない多様な形式に対して取りこぼし
    が多い

   Wikipediaの構造を利用した機械学習ベース
    見出し語や、段落の階層関係を利用
定義文
            ~藤野真紀子~                 (1文目)
    藤野真紀子   日本の   政治   料理研究   エッセイストで
     は、           家、    家、      ある。

 1文目の先頭チャンクは必ず記事名を含むという
  仮定
 Cabochaで解析された(固有表現IOBタグが振られ
  た)チャンク単位が妥当であり、それらの係り受け
  関係も正しいという仮定
 何らかの方法でクラス相当語句を含むチャンクを
  見つけ出すというアプローチ
定義文
            ~藤野真紀子~                 (1文目)
    藤野真紀子   日本の   政治   料理研究   エッセイストで
     は、           家、    家、      ある。

   2番目~末尾のチャンクそれぞれに対して
    スコアリングを行い、ある閾値以上のチャンクは
    その記事名の語の  「クラス相当語句が含まれ
    ている」と仮定し、それらのチャンク内から語句
    を切り出して抽出する(簡単なルールで抽出可能)

    2値分類問題としてSVMで扱う
f(w)<0                       定義文
               ~藤野真紀子~             (1文目)
藤野真紀子は、 日本の      政治   料理研究   エッセイストで
                 家、    家、      ある。

   2番目~末尾のチャンクそれぞれに対して
    スコアリングを行い、ある閾値以上のチャンクは
    その記事名の語の  「クラス相当語句が含まれ
    ている」と仮定し、それらのチャンク内から語句
    を切り出して抽出する(簡単なルールで抽出可能)

    2値分類問題としてSVMで扱う
f(w)<0         f(w)>0                定義文
                ~藤野真紀子~                     (1文目)
    藤野真紀子       日本の      政治    料理研究   エッセイストで
     は、                  家、     家、      ある。

   2番目~末尾のチャンクそれぞれに対して
    スコアリングを行い、ある閾値以上のチャンクは
    その記事名の語の  「クラス相当語句が含まれ
    ている」と仮定し、それらのチャンク内から語句
    を切り出して抽出する(簡単なルールで抽出可能)

    2値分類問題としてSVMで扱う
f(w)<0         f(w)>0   f(w)>0         定義文
                ~藤野真紀子~                       (1文目)
    藤野真紀子       日本の      政治    料理研究     エッセイストで
     は、                  家、     家、        ある。

   2番目~末尾のチャンクそれぞれに対して
    スコアリングを行い、ある閾値以上のチャンクは
    その記事名の語の  「クラス相当語句が含まれ
    ている」と仮定し、それらのチャンク内から語句
    を切り出して抽出する(簡単なルールで抽出可能)

    2値分類問題としてSVMで扱う
f(w)<0    f(w)>0   f(w)>0         定義文
                                   f(w)>0
               ~藤野真紀子~                  (1文目)
藤野真紀子は、 日本の        政治    料理研究     エッセイストで
                   家、     家、        ある。

   2番目~末尾のチャンクそれぞれに対して
    スコアリングを行い、ある閾値以上のチャンクは
    その記事名の語の  「クラス相当語句が含まれ
    ている」と仮定し、それらのチャンク内から語句
    を切り出して抽出する(簡単なルールで抽出可能)

    2値分類問題としてSVMで扱う
定義文
            ~藤野真紀子~                 (1文目)
    藤野真紀子   日本の   政治   料理研究   エッセイストで
     は、           家、    家、      ある。

   2番目~末尾のチャンクそれぞれに対して
    スコアリングを行い、ある閾値以上のチャンクは
    その記事名の語の  「クラス相当語句が含まれ
    ている」と仮定し、それらのチャンク内から語句
    を切り出して抽出する(簡単なルールで抽出可能)

    2値分類問題としてSVMで扱う
 チャンクの位置、文字列長
 直前のチャンクにおけるいくつかの素性
 「であり、」, 「である。」, 「の一つ」などの
  キーワードを含むかどうか
 主題の語との係り受け関係(直接係っているのか、
  ほかのチャンクをいくつか経由して係っているの
  か)
 形態素一致率(共通する度合いが高いチャンクほど
  スコアをあげる等)
  例) 国際会計基準と会計基準
 形態素の共起度合
f(w)<0         f(w)>0   f(w)>0         定義文
                                     f(w)>0
            ~藤野真紀子~                       (1文目)
藤野真紀子       日本の      政治    料理研究     エッセイストで
 は、                  家、     家、        ある。




  学習時に正解か否かは、人手でラべリングすることに
  なる
   学習時には正解となるチャンクに対して正例ラベ
    ルを振っても良いが、Infoboxを含む記事ならば
    Infoboxテンプレート名がチャンクに含まれてい
    ればそれを解として与えることができる可能性が
    高い
                     テンプレート名:サッカー
                     選手

エステバン・マティアス・カンビアッソ・デレアウ
は、アルゼンチン・ブエノスアイレス出身で、同国代
表、インテル所属のサッカー選手
   学習時には正解となるチャンクに対して正例ラベ
    ルを振っても良いが、Infoboxを含む記事ならば
    Infoboxテンプレート名がチャンクに含まれてい
    ればそれを解として与えることができる可能性が
    高い
                     テンプレート名:サッカー
                     選手

エステバン・マティアス・カンビアッソ・デレアウ
は、アルゼンチン・ブエノスアイレス出身で、同国代
表、インテル所属のサッカー選手



          自動的に正解データを付与できる!
定義文に対し
                 て            素性抽出

           前処理                 チャンク長
記事
 記事                           チャンク位置
定義文
  記事
 定義文                          形態素一致率
  定義文     形態素解析               係り受け関係
         チャンキング              共起度合いなど
         係り受け解析



                        人手
        正解ラベルの                       学習
          付与



              Infobox        自動
            閾値判定によ
             る正解付与
                                  分類器
以上です。

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Mtg121024

  • 4. ISWC2011 Best-In-Use Paper Leveraging Community-built Knowledge for Type Coercion in QA by IBM Research
  • 7. Joepardy! のような多分野からの出題 の場合、回答タイプがどうなり、その インスタンスがどれくらいあるのか、 容易にはわからない。そこで、正しい 回答タイプを決定しようというプロセ スをとるのではなく、回答タイプ情報 を用いずに解答候補を取得しておい て、回答タイプにふさわしいかを判定 する 回答タイプをあくまで解候補のスコ アの一部として利用するアプローチ
  • 8. 質問解析 分類器 回答タイプの決 定 DB 検索 コーパス WEB WEB WEB テキス テキス ト テキス ト 解候補 ト 解候補 解 解候補 出力 スコアリン グ
  • 9. 質問解析 回答タイプ候補 DB 検索 解候補 解候補 解候補 解候補 コーパス 解候補 解候補 WEB WEB WEB テキス テキス TyCor ト テキス ト ト 解 出力 スコアリン グ 回答タイプ情報はあくまで解候補 に与えるスコア情報にとどめてお く
  • 10. WATSON の 回答プロセス
  • 11. WatsonのDeepQA~4つ のステップ~ Question Analysis ↓ Hypothesis Generation ↓ Hypothesis and Evidence Scoring ↓ Candidate Ranking
  • 12. WatsonのDeepQA~4つ のステップ~ Question Analysis 回答対象語(Lexical Answer Type)が何である か(表層文字列レベル)を構 ↓ 文木などから判断し、抽 出する Hypothesis Generation ↓ Hypothesis and Evidence Scoring ↓ Candidate Ranking
  • 13. WatsonのDeepQA~4つ のステップ~ Question Analysis 回答対象語(Lexical Answer Type)が何である か(表層文字列レベル)を構 ↓ 文木などから判断し、抽 出する Hypothesis Generation ↓ クエリを生成し、コーパ スやDBから解答候補を大 量に獲得 Hypothesis and Evidence Scoring ↓ Candidate Ranking
  • 14. WatsonのDeepQA~4つ のステップ~ Question Analysis 回答対象語(Lexical Answer Type)が何である か(表層文字列レベル)を構 ↓ 文木などから判断し、抽 出する Hypothesis Generation ↓ クエリを生成し、コーパ スやDBから解答候補を大 量に獲得 Hypothesis and Evidence Scoring ↓ 本論文で触れているところ Candidate Ranking 解答候補にスコアをつける n-gram, skip- bigram,source-reliabilityな ど多次元によってスコアリン グ その指標の一つとして回答タ イプ情報がある
  • 15. WatsonのDeepQA~4つ のステップ~ Question Analysis 回答対象語(Lexical Answer Type)が何である か(表層文字列レベル)を構 ↓ 文木などから判断し、抽 出する Hypothesis Generation ↓ クエリを生成し、コーパ スやDBから解答候補を大 量に獲得 Hypothesis and Evidence Scoring ↓ 本論文で触れているところ Candidate Ranking 解答候補にスコアをつける n-gram, skip- bigram,source-reliabilityな ど多次元によってスコアリン スコアに基づいて解答を得る グ 確信度を計算し、クイズに答えるか答えないかの その指標の一つとして回答タ 戦略を練る イプ情報がある
  • 16. WatsonのDeepQA~4つ のステップ~ Question Analysis 回答対象語(Lexical Answer Type)が何である か(表層文字列レベル)を構 ↓ 文木などから判断し、抽 出する Hypothesis Generation ↓ クエリを生成し、コーパ スやDBから解答候補を大 量に獲得 Hypothesis and Evidence Scoring ↓ 本論文で触れているところ Candidate Ranking 解答候補にスコアをつける n-gram, skip- bigram,source-reliabilityな ど多次元によってスコアリン スコアに基づいて解答を得る グ 確信度を計算し、クイズに答えるか答えないかの その指標の一つとして回答タ 戦略を練る イプ情報がある
  • 17. WatsonのDeepQA~4つ のステップ~ Question Analysis 回答対象語(Lexical Answer Type)が何である か(表層文字列レベル)を構 ↓ 文木などから判断し、抽 出する Hypothesis Generation Question Analysis この論文で紹介されている のステップで得られた語 ↓ を手がかりにしてクエリ ”TyCor” Component を生成し、コーパスやDB Hypothesis and Evidence Scoring から解答候補を大量に獲 得 ↓ 本論文で触れているところ Candidate Ranking 解答候補にスコアをつける n-gram, skip- bigram,source-reliabilityな ど多次元によってスコアリン スコアに基づいて解答を得る グ 確信度を計算し、クイズに答えるか答えないかの その指標の一つとして回答タ 戦略を練る イプ情報がある
  • 18. Hypothesis Generation において 生成された解答候補(例:宮崎駿)と Question Analysis において 生成された回答対象語(例:監督)の それぞれのtypeの一致度を測ってスコ アを出力
  • 19. EDM(Entity Disambiguation & Matching) →解答候補群(candidate answers)をWikipediaのURIに結びつける TR(Type Retrieval) →EDMによって得られた概念をYAGOのクラスに結び付ける(解答 候補群それぞれの親を見つける) PDM(Predicate Disambiguation & Matching) →回答対象語(LAT)をYAGOのクラスに結びつける TA(Type Alignment) →candidate answersのtypeとLATのtypeの一致度を測り、 TyCor Componentにおけるスコアとして出力
  • 20. EDM(Entity Disambiguation & Matching) →解答候補群(candidate answers)をWikipediaのURIに結び つける TR(Type Retrieval) →EDMによって得られた概念をYAGOのクラスに結び付ける (解答候補群それぞれの親を見つける) PDM(Predicate Disambiguation & Matching) →回答対象語(LAT)をYAGOのクラスに結びつける TA(Type Alignment) →candidate answersのtypeとLATのtypeの一致度を測る
  • 21. input: 解答候補(candidate answer) output: Wikipediaのタイトル(URI) Wikipediaの記事名, リダイレクト, アンカーリン ク, 曖昧さ回避のページをランク付けの基準とし て使う ・解答候補を単語→概念へマッピングする ・6つの指標によってランク付けする ・Optional ParameterとしてPopularityを用いる (ページランクや、記事名のIDFを指標とする)
  • 22. Direct Contextual Match input: 解答候補(candidate answer) Title Match Redirect Match output: Wikipediaのタイトル(URI) Disambiguation Match Wikipediaの記事名, リダイレクト, アンカーリン Anchor-Link Match ク, 曖昧さ回避のページをランク付けの基準とし DBPedia name properties て使う ・解答候補を単語→概念へマッピングする ・6つの指標によってランク付けする ・Optional ParameterとしてPopularityを用いる (ページランクや、記事名のIDFを指標とする)
  • 23. ①Direct Contextual Match Wikipediaの記事名をソースに解候補が生成され ている、もしくは他のWikipediaのページからリ ンクされていればスコア1.0 ②Title Match Wikipediaの記事名と解答候補語が完全一致して いればスコア1.0を与える ③Redirect Match リダイレクトに(多少のノイズには目をつぶる)に 現われていればスコア1.0
  • 24. ④Disambiguation Match 曖昧さ回避のページに現れていれば、 1/(the number of disambiguations) のスコアを与える ⑤Anchor Link Match [[米国|アメリカ合衆国(URI)]] のように、Wikipediaにはリンクの文字列とURI のセットが多数ある。”米国”のリンクの文字列が 与えられたときに、”アメリカ合衆国”へ結ばれて いる確率をスコアとして与える
  • 25. ⑥DBpedia name properties DBPediaには名前関連のプロパティが100以上あ る。 名前、名称、愛称、姓、名・・・・など 解候補の文字列がこれらのトリプルの目的語に なっている場合、主語相当のURIが結び付けるべ き概念なのではないか、という考え。 S(URI)→P(名称などのプロパティ)→O(解候補の文 字列) スコアは、1/SになったURIの数
  • 26. input: EDMで得られたWikipediaのURI(解答候 補) output: YAGOにおけるクラスのURI 解答候補語は基本的にはYAGOにおける極めて highly-specificなクラスに紐づいている 例) CompaniesEstablishedIn1898 YAGOのクラス階層を、WordNetのクラスが存 在するレベルにまで上昇させる
  • 27. input: Lexical Answer Type(LAT) output: YAGOにおけるクラスのURI Wikipediaの記事名, リダイレクト, アンカーリンク, 曖昧さ回避のページをランク付けの基準として使 う ・4つの指標によってランク付けする
  • 28. input: Lexical Answer Type(LAT) output: YAGOにおけるクラスのURI(へMatching) Wikipediaの記事名, リダイレクト, アンカーリンク, 曖昧さ回避のページをランク付けの基準として使 う ・4つの指標によってランク付けする WordNetのsense rank DBPediaにおけるType Popularity Domain-SpecificなType Mapping 条件付確率
  • 29. ①WordNetのsense rank ②DBPediaにおけるType Popularity DBPediaにおいてその概念がいくつのinstance を持つか ③Domain SpecificなType-mapping Jeopardy!では過去問を調べたところ、starが 75%の割合で「映画スター」を指し、「星」の 意味では25%程度だった
  • 30. ④条件付確率を使う。 AかつBのタイプを持つインスタンス数/Aのタイプを持つイ ンスタンス数 この値が0.5を超えるなら、Bもタイプとして候補にする 例) LATが”俳優”に属し、”俳優”のインスタンス数が4万とする “俳優”と”歌手” 両方をタイプとして持つインスタンスが2万 以上あれば、”歌手”のタイプも候補として加える。 一方、”俳優”と”大学教授”の両方をタイプとして持つインス タンスが100程度しかなければ、候補としては加わらない。 これによってカバー率を上げている
  • 31. input: TRで得られた解答候補のtype, PDMで得られたLATのtype output: 両者の一致度を示すスコア ・6つの指標によってランク付けする
  • 32. input: TRで得られた解答候補のtype, PDMで得られたLATのtype output: 両者の一致度を示すスコア ・6つの指標によってランク付けする Equivalent/Sub Class Match Disjoint Match Sibling Match Super Class Match Statistical Relatedness Lowest Common Ancestor
  • 33. ①Equivalent/Sub Class Match LATとcandidate answerのtypeがYAGOにおいて、 equivalent もしくは candidate answerのtypeがLAT のtypeのsubclassならば、score1.0を与える ②Disjoint Match 逆に、LATとcandidate answerのtypeがYAGOにおい てdisjointであれば、score-1.0を与える ③Sibling Match LATとinstanceが親クラスを共有していれば score0.5を与える、但し、上位過ぎるクラスで共有さ れている場合(depth<6)はこの限りではない
  • 34. ④Super Class Match candidate answerのtypeがLATのtypeより上位概念の場 合、score0.3を与える。これは直感的にはおかしいこと (基本的には解候補はLATの下位概念であるはず)だが、 EDMやPDMの誤りを緩和するために経験則的に必要らし い ⑤Statistical Relatedness 閾値を設けてスコアを微調整する ⑥Lowest Common Ancestor candidate answerとLATのLowest Common なクラスが YAGOにおいてdepth>6の場合、スコア0.25を与える
  • 35.
  • 36. 回答タイプを決めて、それに合う条件で解を探すよ りも 回答タイプと、回答タイプ情報を用いないで生成さ れた大量の解候補をすり合わせて1つの指標程度 で扱ったほうが、精度を維持したまま網羅性を高 められる Wikipediaの情報資源 (リンク, 曖昧さ回避, リダイレクト) がスコアリングに有効に働く クラス階層としてはdepth=6付近が経験則的に有 効
  • 38. “記事名” + (・・・)とは、(・・・・) + ”上位概念” + で ある。
  • 39.  インスタンス収集は一覧ページから  記事名になっていない語も収集できる  is-a関係について  InfoBoxテンプレートの上位・下位関係を利用  記事内見出し語名の上位・下位構造を利用  カテゴリ名・記事内見出し語名の文字列一致度を 利用
  • 40. 人物 東京都出身の人物 東京都出身の人物(自転車競技) 1~2程度の弁別属性を含む語が直属 のクラスとなっている。粒度として はかなり細かい。 高 市 村 山 宮 川 直 雅 樹 正 敏
  • 41. 人物 XのY(Z)型 が非常に多い 東京都出身の人物 東京都出身の人物(自転車競技) 1~2程度の弁別属性を含む語が直属 のクラスとなっている。粒度として はかなり細かい。 高 市 村 山 宮 川 直 雅 樹 正 敏
  • 42. 人物 東京都出身の人物 自転車競技選手 東京都出身の人物(自転車競技) 定義文から新 たに抽出でき るC-I関係 高 市 竹 山 村 川 谷 宮 直 正 雅 賢 樹 敏 二
  • 43. 人物 スポーツ選手 東京都出身の人物 自転車競技選手 東京都出身の自転車競技選手 高 市 竹 山 村 川 谷 宮 直 正 雅 賢 樹 敏 二
  • 44. 記事として存 記事が存在しな 在 い 一覧ページに存在する語 約16万語 約14万語 約30万語 一覧ページに存在しない 約61万語 - - 語 約77万語 - - ~今までのアプローチ~ 一覧ページの箇条書き項目を収集 Infoboxテンプレート名を収集
  • 45. 記事として存 記事が存在しな 在 い 一覧ページに存在する語 約16万語 約14万語 約30万語 一覧ページに存在しない 約61万語 - - 語 約77万語 - - 語として不適切なものを取り除く 必要がある 既に抽出したものと被ること もあるが、is-A関係が構築で きる可能性
  • 46. 記事として存 記事が存在しな 在 い 一覧ページに存在する語 約16万語 約61万語 約14万語 約30万語 一覧ページに存在しない 約61万語 - - 語 約77万語 - - 記事として存在 かつ 一覧ページに存在しない語 Infoboxあ り
  • 47.  ランダムに抽出した300の記事を対象  人手で定義文から上位語を抽出し、日本語語彙大 系によって判断した  平均して1記事につき、親を1.14個もつ(σ=0.38) 抽出できた関係数は322  判断不能・定義文内に上位語相当語句がない 記事が12 およそ60~70万程度の関係が取れると思われる
  • 48.  記事になっていない語に関しては扱えない  記事になっているが、不適切な語をどう取り除く か  C-I/Is-Aの区別なく、すべて「上位・下位関係」 として混在した形で抽出される(→既存のWikiOnt における関係とうまく結び付けられたりしない か?)
  • 49. ランダムに選んだインスタンス約300語を対象に 前述の手法が仮にうまく働いたとして、どの程度 の深さのクラスが定義文から抽出されるかを調べ た。  定量化は難しいが、基準としては日本語語彙体系 のカテゴリ(約3000)とインスタンス(約10万) 例) 名詞→具体→主体→場所→施設→公共施設→学校→小学校(最下層) 例) 名詞→具体→具体物→無生物→人工物→物品→商品→加工物(最下層)
  • 50. 33% 54% 12% 1% 未知数 約100,000語 約2,000語 数100程度 レベル レベル
  • 51. アナウンサー, 自衛官 フリーアナウン サー, ジャーナリスト, 航空自衛官 軍人 人 33% 54% 12% 1% 未知数 約100,000語 約2,000語 数100程度 レベル レベル
  • 53. 上位語がとれなかった記事 定義文に上位語相当語 句が含まれていない 状態や行動名を長い名 詞句で説明しており、 取り出す長さがチャン ク単位を超える 日付や文字など、そも そも取る価値があるの か不明
  • 54. ルールベース 「~は~で、主に~を行っている。」などのルー ルの適用できない多様な形式に対して取りこぼし が多い  Wikipediaの構造を利用した機械学習ベース 見出し語や、段落の階層関係を利用
  • 55. 定義文 ~藤野真紀子~ (1文目) 藤野真紀子 日本の 政治 料理研究 エッセイストで は、 家、 家、 ある。  1文目の先頭チャンクは必ず記事名を含むという 仮定  Cabochaで解析された(固有表現IOBタグが振られ た)チャンク単位が妥当であり、それらの係り受け 関係も正しいという仮定  何らかの方法でクラス相当語句を含むチャンクを 見つけ出すというアプローチ
  • 56. 定義文 ~藤野真紀子~ (1文目) 藤野真紀子 日本の 政治 料理研究 エッセイストで は、 家、 家、 ある。  2番目~末尾のチャンクそれぞれに対して スコアリングを行い、ある閾値以上のチャンクは その記事名の語の 「クラス相当語句が含まれ ている」と仮定し、それらのチャンク内から語句 を切り出して抽出する(簡単なルールで抽出可能) 2値分類問題としてSVMで扱う
  • 57. f(w)<0 定義文 ~藤野真紀子~ (1文目) 藤野真紀子は、 日本の 政治 料理研究 エッセイストで 家、 家、 ある。  2番目~末尾のチャンクそれぞれに対して スコアリングを行い、ある閾値以上のチャンクは その記事名の語の 「クラス相当語句が含まれ ている」と仮定し、それらのチャンク内から語句 を切り出して抽出する(簡単なルールで抽出可能) 2値分類問題としてSVMで扱う
  • 58. f(w)<0 f(w)>0 定義文 ~藤野真紀子~ (1文目) 藤野真紀子 日本の 政治 料理研究 エッセイストで は、 家、 家、 ある。  2番目~末尾のチャンクそれぞれに対して スコアリングを行い、ある閾値以上のチャンクは その記事名の語の 「クラス相当語句が含まれ ている」と仮定し、それらのチャンク内から語句 を切り出して抽出する(簡単なルールで抽出可能) 2値分類問題としてSVMで扱う
  • 59. f(w)<0 f(w)>0 f(w)>0 定義文 ~藤野真紀子~ (1文目) 藤野真紀子 日本の 政治 料理研究 エッセイストで は、 家、 家、 ある。  2番目~末尾のチャンクそれぞれに対して スコアリングを行い、ある閾値以上のチャンクは その記事名の語の 「クラス相当語句が含まれ ている」と仮定し、それらのチャンク内から語句 を切り出して抽出する(簡単なルールで抽出可能) 2値分類問題としてSVMで扱う
  • 60. f(w)<0 f(w)>0 f(w)>0 定義文 f(w)>0 ~藤野真紀子~ (1文目) 藤野真紀子は、 日本の 政治 料理研究 エッセイストで 家、 家、 ある。  2番目~末尾のチャンクそれぞれに対して スコアリングを行い、ある閾値以上のチャンクは その記事名の語の 「クラス相当語句が含まれ ている」と仮定し、それらのチャンク内から語句 を切り出して抽出する(簡単なルールで抽出可能) 2値分類問題としてSVMで扱う
  • 61. 定義文 ~藤野真紀子~ (1文目) 藤野真紀子 日本の 政治 料理研究 エッセイストで は、 家、 家、 ある。  2番目~末尾のチャンクそれぞれに対して スコアリングを行い、ある閾値以上のチャンクは その記事名の語の 「クラス相当語句が含まれ ている」と仮定し、それらのチャンク内から語句 を切り出して抽出する(簡単なルールで抽出可能) 2値分類問題としてSVMで扱う
  • 62.  チャンクの位置、文字列長  直前のチャンクにおけるいくつかの素性  「であり、」, 「である。」, 「の一つ」などの キーワードを含むかどうか  主題の語との係り受け関係(直接係っているのか、 ほかのチャンクをいくつか経由して係っているの か)  形態素一致率(共通する度合いが高いチャンクほど スコアをあげる等) 例) 国際会計基準と会計基準  形態素の共起度合
  • 63. f(w)<0 f(w)>0 f(w)>0 定義文 f(w)>0 ~藤野真紀子~ (1文目) 藤野真紀子 日本の 政治 料理研究 エッセイストで は、 家、 家、 ある。 学習時に正解か否かは、人手でラべリングすることに なる
  • 64. 学習時には正解となるチャンクに対して正例ラベ ルを振っても良いが、Infoboxを含む記事ならば Infoboxテンプレート名がチャンクに含まれてい ればそれを解として与えることができる可能性が 高い テンプレート名:サッカー 選手 エステバン・マティアス・カンビアッソ・デレアウ は、アルゼンチン・ブエノスアイレス出身で、同国代 表、インテル所属のサッカー選手
  • 65. 学習時には正解となるチャンクに対して正例ラベ ルを振っても良いが、Infoboxを含む記事ならば Infoboxテンプレート名がチャンクに含まれてい ればそれを解として与えることができる可能性が 高い テンプレート名:サッカー 選手 エステバン・マティアス・カンビアッソ・デレアウ は、アルゼンチン・ブエノスアイレス出身で、同国代 表、インテル所属のサッカー選手 自動的に正解データを付与できる!
  • 66. 定義文に対し て 素性抽出 前処理 チャンク長 記事 記事 チャンク位置 定義文 記事 定義文 形態素一致率 定義文 形態素解析 係り受け関係 チャンキング 共起度合いなど 係り受け解析 人手 正解ラベルの 学習 付与 Infobox 自動 閾値判定によ る正解付与 分類器