SlideShare a Scribd company logo
1 of 34
Download to read offline
999回失敗しても、1回うまくいけばいい。それ
が発明家だ。失敗は、うまくいくための練習
だと考えている。
An inventor fails 999 times, and if he
succeeds once, he's in. He treats his
failures simply as practice shots.
It doesn't matter
if you try and try and try again, and fail.
It does matter
if you try and fail, and fail to try again.
発明家(1876-1958)
電動レジスター、点火
装置、セルフスター
ター、ヘッドライト、空
中魚雷、保育器、エン
ジン使用の発電、有
鉛ガソリン、フロン
Charles F. Kettering
自然言語処理 入門トーク
エラー分析ワークショップ
Project Next NLP
2015年5月22日 @ PyData.Tokyo
関根聡
https://sites.google.com/site/projectnextnlp/
 我々は上手に失敗しているだろうか?
 我々は上手に失敗しているだろうか?
 エラーに慣れてしまってはいないだろうか?
 本質的ではない精度向上に満足していないだろ
うか?
 何が本質か見失っていないだろうか?
 難しい問題を避け、次なる眼新しい課題に移ろい
続けていないだろうか?
 エラー分析を通じて自然言語処理の本質的な課題を
明確にする
 同じタスクの複数のシステムのエラー分析を重ね合わせる
 複数のタスクのエラー分析を重ね合わせる
 エラー分析の技術の進展
 エラー分析データーの蓄積
 エラー分析を通した課題の整理、発見
 2014年3月: 年次大会WS (北海道大学)
 データ分析、エラー分析の重要性議論
 プロジェクト発足
 5月19日:キックオフミーティング (情報学研究所)
 プロジェクトの進め方の議論
 9月2、3日:ミッドタームミーティング (首都大学東京)
 各グループで集中討論(1日目)
 各グループの報告(2日目)
 11月:中間報告レポート
 進捗報告
 アドバイザーからのコメント
 3月20、21日:言語処理学会年次大会WS (京都大学)
 今後
 言語処理学会論文誌特集号
 情報処理学会学会誌特集
 国際学会ワークショップ
 NLPのタスクごとに分析を行う (全18タスク)
 分析方法は各グループの自主性に任せる
 それぞれのタスクで事情は異なる
 共通の軸を予め設定できない
 例えば:共通のデータ、ツール、評価WS
基礎技術
形態素解析 鍜治伸裕(東京大学)、森信介(京都大学)
構文解析 河原大輔(京都大学)
述語項構造解析 松林優一郎(東北大学)
要素技術
固有表現抽出 岩倉友哉(富士通研究所)
照応解析 飯田龍(NICT)
言い換え 藤田篤(NICT)
語義曖昧性解消 新納浩幸(茨城大学)
知識獲得 柴田知秀(京都大学)
情報アクセス応用
情報検索 難波英嗣(広島市立大)
要約 高村大也(東工大)、平尾努(NTT)、西川仁(NTT)
情報抽出 新里圭司(楽天)
レビュー解析 藤井敦(東工大)、乾孝司(筑波大)
Web応用 岡崎直観(東北大学)、荒牧英治(京都大学)
東ロボ 宮尾祐介(NII)、横野光(NII)、松崎拓也(名古屋大学)
翻訳、文作成支援、対話
翻訳 工藤拓(グーグル)、グラム・ニュービッグ(奈良先端大)
日本語校正 山本和英(長岡技科大)、鄭育昌(富士通研)
英文校正 水本智也(奈良先端大)
対話 東中竜一郎(NTT)、船越孝太郎(HRI)
 目的、技術、課題をエラー分析を通して紹介
 それぞれ1枚のスライド、1分
 WSでは発表30分 = 30倍濃縮
 後は
 議論の時間
 別の勉強会
 個別にご相談ください (sekine@cs.nyu.edu)
基礎技術
要素技術
情報アクセス応用技術 他応用技術多言語応用技術
それなに? 文を単語に区切る技術
東京都になったのはいつ
東/京都/担った/の/ハイツ
どうやるの? 単語のつながりのスコアを最適化
かだいは? 辞書に載ってない未知語
(新語・低頻度語、表記ゆれ、固有名詞)
ぶんせき? 未知語を全部辞書登録したらどうなるか?
精度は非常に向上する(76.6->90.0)
悪化した理由: ひらがなで書かれた短い語
それでもダメな理由: 未知語処理の仕組み
それなに? 文の構文的構造(文節間の係り受け)を解析する技術
次郎は 太郎が 花子と 見た 映画が 好きだと 言った
どうやるの? 沢山の実例から組み合わせや規則を学習
かだいは? 並列、実例の誤り、節間、規則のカバレージ、品詞誤り、実例の不足
ぶんせき? 1. 実例をクラウドソーシングで作ってみる
正解が何かを伝えるのが難しい例もある
(定型表現、並列句、複数の係り先)
2. 間違ったら、次のシステムはどのくらい困るのか?
評判分析では、係り受けが間違うと大怪我をする
「ホテルのサービスは良かったが街(部屋)は最悪」
????
それなに? 文を述語と構成要素の構造に整理する技術
どうやるの? 沢山の実例から組み合わせや規則を学習
かだいは? ゼロ照応 (精度40%、他は90%)
課題の設定の共有化
ぶんせき? データの分析
解析手がかりを類型化(文節内、直接、文内ゼロ、文外ゼロ)
それなに? 文の中にある名前や数値表現などを見つける技術
太郎は5月18日の朝9時に花子に会いに行った。
人名 日付表現 時間表現 人名
どうやるの? 沢山の実例と辞書による学習
かだいは? 辞書のカバレージ
(新語・低頻度語、表記ゆれ、固有名詞)
ぶんせき? 固有表現を全部辞書登録したらどうなるか?
精度は非常に向上する(10ポイント以上)
それでもダメな理由: 「タマ」「クマ」のような一般的表現
「大川」「勝田」のような曖昧性のある表現
それなに? 「これ」「彼」「当社」「(ゼロ)」などが指す実際の対象を見つける技術
(0が) (0が)
太郎はプリウスを買った。次の日、それに乗って会社に行った
どうやるの? 格情報、意味素性などの特徴を基にした訓練データによる学習
かだいは? 膨大な候補、常識や世界知識の必要性
ぶんせき? どんなところで間違っているのかの分析
アノテーションの誤り、問題
機能語相当表現
外界照応の問題と混在
名詞+“だ”の格要素 。。。 他、数多くの細かい問題
それなに? 同じ意味を示す違った表現を扱う技術
重傷を負う恐れがある
大ケガをしてしまうかもしれない
どうやるの? 言い換え表現を大規模データから収集
かだいは? 人間が作り、理解できる言い換え表現は多彩
ぶんせき? 言い換え表現に関わる技術の整理
技術:
知識作成、認識、生成
言い換え表現の分類:
助詞の交替、自明要素の明示/暗示、主題の交替
語順の変更、態の交替、違う名詞の利用、共参照の置換
それなに? 違う意味を持つ同じ単語を識別する技術
さんまの 旬 はいつ?
さんまの誕生日はいつ?
どうやるの? 実例による学習
かだいは? 語義の定義、大規模訓練データ作成が困難
ぶんせき? 7人の研究者が独自にエラー原因を分析し、比較
エラー分析には色々な視点がある
解き方、現象、システムが解けない原因、
タスクの成り立ちと解き方、素性の問題
必要な訓練事例の種類、ベースラインとの比較
それなに? 常識的な知識を獲得する技術
1)MacBook Air = MBA > ノートパソコン
2)ネイマール:サッカー選手、 バンプレスト:企業
3){ 犬 、 猫 }が吠える
4)Xが犯罪を犯すー>Xが逮捕される
どうやるの? 大規模文章からパターンや文脈の類似性による手がかり
かだいは? パターンの学習、知識を応用する際の有効性
ぶんせき? 照応解析においてどのような知識がどのくらい必要か
3)猫は犬より賢い。彼らは理由なく吠えるからだ
4)Googleはモトローラーを買収した。彼らは破綻していた。
4+)メアリーはスーザンの部屋を掃除した。彼女は感謝された
それなに? 大規模な文書からユーザーが欲しい文章を探す技術
グーグル
図書館情報検索、特許検索
どうやるの? 検索要求に関連した単語が含まれる文章を見つける
かだいは? 検索意図と検索単語の関係
ぶんせき? なんでできないかを分析?
単語の知識(同義語、上位下位語、関連語、語義の曖昧性)
検索意図(観点)が把握できない
常識や世界知識が必要
それなに? 文章を短くする技術
長い文章を短くする
要点をすぐに捕まるように表現を変える
どうやるの? 文章中の重要部分を認識、再構成する
かだいは? 重要な文の見つけ方
1つの文を文法性、内容を維持したまま圧縮する
文章の流れを理解する
ぶんせき? それぞれの課題の原因を追求
誤りの種類と原因を整理
種類: 可読性、 内容性(重要な部分が取れている)、 整合性
原因: 操作、 特徴量、 パラメーター、 探索、 情報の不足
それなに? 文章の中にある情報を構造化する技術
どうやるの? サンプルから、構造化のための規則を学習
かだいは? 様々な表現により事実が述べられる、様々な情報がある
ぶんせき? シンプルなシステムのエラーの体系化
抽出規則(言い換え、照応)、辞書の不足(「復活」=「生産再開」)
文章中の適切部分の認識(過去の事例、他社の事例)
他の技術のエラー(形態素解析、固有表現抽出、曖昧性)
それなに? レビュー文章を解析する技術
どうやるの? ポジティブ、ネガティブ表現辞書を用意する
かだいは? 様々な表現でレビューが書かれている
ぶんせき? シンプルなシステムのエラーを体系化
文中にポジティブとネガティブが混在する
表現辞書のカバレージ
複雑な表現
中立の認識
それなに? Web上の文章のご利益のある応用技術
どうやるの? 様々な自然言語処理技術の応用
かだいは? なんのことなの?だれのことなの?本当のことなの?
ぶんせき? 「風邪のツイートから、誰が本当に罹っているのかを認識」
「たら」「もし」「じゃなかった」「かもしれない」のような表現の収集
過去、否定などの認識
よくある周辺人物の辞書(姉貴)、人名認識(さん、君)
それなに? 東京大学の試験に合格するロボット(人工知能)を作る
どうやるの? 様々な自然言語処理技術の応用
かだいは? 問題の種類ごとに、解決方法を実現
単純な手法で得点が取れてしまう
難しい問題は極端に難しい
言語処理以外の技術(図形の認識)
ぶんせき? それぞれの科目、問題種類ごとに課題を整理
それなに? 自動的に翻訳をする技術
どうやるの? 様々な自然言語技術の応用
かだいは? いっぱい。
ぶんせき? 何が間違っているか?どうして間違えたか?を分析
何を: 単語の削除、並べ替え、単語の誤り、モダリティー、未知語
どうして: 前処理(形態素解析、構文解析、文分割)
ルール抽出(誤ったルール、ルールがない、スコアが低い)
モデル化誤り、探索誤り、原文の誤り
それなに? 日本語文章の誤りや不自然な部分を指摘、訂正する技術
私も失敗な(した)ことに(が)あります
バイクは全然(全部)壊れました。
どうやるの? 辞書、ルールを用意
かだいは? 誤った文章を前提とした自然言語処理基礎技術
ぶんせき? いくつかのシステムのエラーを体系化
表現の洗練: 定型誤り(ら抜き)、用語基準(難しい語)、表現(文体の統一)
字種統一、スペルチェック、表記ゆれ、かっこ
表現の正しさ: 言葉遣い、曖昧表現、内容複雑さ、修飾関係、助詞、文体
悪化した理由: ひらがなで書かれた短い語
日本語学習者:文法(助詞、複合辞)、語彙、句・文全体
それなに? 英文の誤りや不自然な部分を指摘、訂正する技術
I met him face by face at Friday
to on
どうやるの? 辞書、ルールを用意。大規模な正例から学習
かだいは? 様々な種類のエラー
ぶんせき? 前置詞の間違え(3つ目に多い種類)に限って分析
どのような前置詞の入れ替えがあるか
前置詞の入れ替えとその役割の関係性
それなに? ロボットとの対話を実現する技術
U: 台風は大丈夫でしたか
S: 台風は必要です
U: 雨は必要ですよね
S: 朝から雨が降るのです
どうやるの? 様々な自然言語技術の応用
かだいは? いっぱい。
ぶんせき? 対話の破綻を類型化する
同じ内容の繰り返し、矛盾した内容、発話として唐突
ユーザー発話内容の無視、質問に答えてない
原因を「発話、応答、文脈」に類型化
 18のタスクを通じた自然言語処理入門
 あと3つのタスクを計画:辞書作成、文生成、質問応答
 意味に関係する所で自然言語処理は突然難しくなる
 多くの複雑な問題が絡んでいる
 意味の問題の解き方さえも分かっていない
 一方で、大規模なデータ、機械学習で応用の広がり
 この難問を一緒に解いていこうと思う方、大募集

More Related Content

Recently uploaded

プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 

Recently uploaded (7)

プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 

NLP Introduction based on Project Next NLP (日本語: 20150522)