SlideShare a Scribd company logo
{yookuno, msassano}@yahoo-corp.jp


1
                                                                                             1

          90                      [1]


                                                  2

                   [2]                                Web
    Web




               2                        2
                         N-gram
                                                            N-gram               [3]
                          1
                                                                     [4]         MapReduce
                                                                           [5]
                                                  [6]
                                                                                           LOUDS
                                            [7]         N-gram                                [8]




                                        3
                                        3.1               N-gram
                                                                                                  n
                                                                                                 w1 =
                                                                                     n
                                        w1 , ...wn                               P (w1 )
N-gram                              N −1                                      c                            b
                                                     [1]


              ∏
              n                         ∏
                                        n
     n
 P (w1 ) =          P (wi |w1 ) =
                            i−1
                                              P (wi |wi−N +1 ) (1)
                                                      i−1
                                                                                                                     D
              i=1                       i=1
                                                                                                            Absolute
                                                P (wi |wi−N +1 )
                                                        i−1




                                                                                     max(0, C(abc) − D) + DN (ab∗)P (c|b)
                                                                        P (c|ab) =
                                           i
                                                                                                   C(ab∗)
                                        C(wi−N +1 )                                                                     (4)
              P (wi |wi−N +1 ) =
                      i−1
                                           i−1
                                                                 (2)
                                        C(wi−N +1 )                               N (ab∗)                         ab
               j                    j
            C(wi )                 wi
                                                          i−1
                                        (2)              wi−N +1
                             wi
                                                                       3.4   Kneser-Ney
                      N                                                 Absolute
                                                                        N-gram                             N-gram
                                                             N
                                                                       Kneser-Ney                          [10]
                                                     0
                                                                                 max(0, N (∗bc) − D) + DR(∗b∗)P (c|b)
                                                                        P (c|ab) =
                                                                                                 N (∗b∗)
                                                                                                                    (5)
                                                                               R(∗b∗) = c : N (∗bc) > 0       ∗b∗
3.2       Dirichlet                                                                          N-gram


N-gram               P (wi |wi−N +1 )
                             i−1
                                                                 Di-
richlet                                                          (N-
                                                                       3.5
1)-gram
            [9]
                                                                                                       n
                                                                                                      w1

                           C(wi−N +1 ) + αP (wi |wi−N +2 )
                              i                   i−1
 P (wi |wi−N +1 ) =
         i−1

                                                                                            1∑
                                       i−1                                                     n
                                    C(wi−N +1 ) + α
                                                                 (3)                 H=−          log2 P (wi |w1 )
                                                                                                               i−1
                                                                                                                         (6)
                                                                                            n i=1
      (3)    Dirichlet                                   (N-1)-gram
      P (wi |wi−N +2 )
              i−1
                                                           Dirichlet     H            bit
                                1-gram            P (w)                P P = 2H
                          P (w) = C(w)
                                    C
      C


3.3       Absolute                                                     3.6   MapReduce                     N-gram

                             [4]                            j
                                                           wi    abc                               N-gram
                                                                                                          i
                      a                                          b                      N-gram         C(wi−N +1 )
Map(int id, string doc):
    string[] words = MorphologicalAnalyze(doc)                      1:                    N                                (bit)
        for i = 1 to size(words)-N+1                                         Wikipedia                                  Blog
            Emit(words[i..i+N-1], 1)                           N    Dirichlet     Kneser-Ney           Dirichlet          Kneser-Ney
                                                               1     10.65             10.65               10.77             10.77
Reduce(string[] words, int[] counts):                          2      8.71              8.52               9.63               9.44
    sum = 0                                                    3      7.72              5.15               9.21               6.87
        for each count in counts                               4      7.09              5.23               9.35               7.70
            sum += count                                       5      6.64              5.69               9.43               8.73
        Emit(words, sum)                                       6      6.73              6.25               9.48               9.33
                                                               7      6.47              6.23               9.49               9.62
                1: MapReduce           N-gram
                                                              4.2
                       MapReduce[11]                1
                                                                                                    Yahoo!
                       Map       Reduce
          [5]
                                                                              2009      10             2010         10               1
                                                                                         LZO                                2TB


                                                                          Hadoop
          Map                          Map
                                                              1CPU/12GB Memory/1TB*4 HDD                                      20
                                                                         1      +              19
Shuffle
                                                                                 Yahoo!                         API
                                          Reduce
                                              MapReduce
                 Hadoop
                                                              4.3

4                                                                                      LZO                          N
                                                                                                                2
4.1
                                        N           [12]                         2:                         :
                                                                                               860GB            2TB
                             Wikipedia                                                          9:50        28:16
        1000                                    mecab 0.98                    1-gram            2:14            7:42
                                                         1                    2-gram            3:34        13:45
                                            α   D       1                     3-gram            5:02        20:43
10000             10                                                          4-gram            8:58
                   1                                                          5-gram           11:12
                                                                              6-gram           13:00
                                                                              7-gram           14:48
    •                    N        Wikipedia


                                                                         2TB          4-gram
    •                                               Wikipe-
        dia                  Kneser-Ney
                                                                                                       3
860GB                                  1 7-gram                                N


                                          1000
                  Dirichlet


                                                        100
    10000


          N                 N-gram                               [1]            ,                .                 .
                                                                               , 1999.
                                                    N-gram
                                                                 [2]           ,             ,         ,       .
                                                                                           .                           , Vol.40,
                                                                        No.7, pp.2946-2953, 1999.
    3:                           (bit)                  (byte)
                                                                 [3] Stanley Chen and Joshua Goodman. An Empiri-
N        10000     1000       100        10000   1000     100           cal Study of Smoothing Techniques for Language
                                                                        Modeling. TR-10-09, Computer Science Group,
1        16.25     17.21      17.80      2.8M    9.1M     40M
                                                                        Harvard University, 1998.
2         7.71     6.48       7.66       21M     127M   683M
3         8.88     6.41       6.51       30M     293M     2.5G   [4] Deniz Yuret. Smoothing a Tera-word Language
4         8.93     6.71       6.18       23M     201M     3.6G       Model. ACL-08: HLT, pp.141-144, June 2008.
5         8.66     6.20       5.97       15M     232M     3.5G   [5] Thorsten Brants, Ashok C. Popat, Peng Xu,
6         8.28     5.98       5.74       8.2M    160M     1.6G          Franz J. Och, Jeffrey Dean. Large Language
7         7.81     5.68       5.65       5.2M    113M     1.1G          Models in Machine Translation. EMNLP-ACL,
                                                                        pp.858-867, June 2007.
                                                                 [6] Graham Cormode, Marios Hadjieleftheriou. Met-
                                                                     hods for Finding Frequent Items in Data Streams.
                                                                     VLDB, vol.1 Issue 2, August 2008.
                                                                 [7] Taro Watanabe, Hajime Tsukada, Hideki Iso-
                                                                     zaki. A Succinct N-gram Language Model. ACL-
                                                                     IJCNLP, pp.341-344, August 2009.
    3
                                                                 [8] Ahmad Emami, Kishore Papineni, Jeffrey So-
                                                                     rensen. Large-Scale Distributed Language Model.
              1     PC
                                                                     ICASSP, IV-37-IV-40, April 2007.
         PC                                         1GB
                                                                 [9] David J. C. MacKay, Linda C. Bauman Peto.
                                           3
                                                                     A hierarchical Dirichlet language model. Natu-
                                                 1000
                                                                     ral Language Engineering, vol.1 Issue 03, pp.289-
                                      1.1GB
                                                                        308, 1995.
                  5.68bit
                                                                 [10] Kneser R., Ney H.. Improved backing-off for M-
                                                                     gram language modeling. ICASSP, pp.181-184,
                                                                        vol.1, 1995.
                                                                 [11] Jeffrey Dean, Sanjay Ghemawat. MapReduce:
                                                                     Simplified Data Processing on Large Clusters.
5                                                                       OSDI, December, 2004.
                                                                 [12]              ,          , Web        N                   ,
         N-gram                                                                              , 2007.

More Related Content

What's hot

An evaluation of gnss code and phase solutions
An evaluation of gnss code and phase solutionsAn evaluation of gnss code and phase solutions
An evaluation of gnss code and phase solutions
Alexander Decker
 
Study of the variation of power loss with frequency along a rectangular
Study of the variation of power loss with frequency along a rectangularStudy of the variation of power loss with frequency along a rectangular
Study of the variation of power loss with frequency along a rectangularIAEME Publication
 
Munich07 Foils
Munich07 FoilsMunich07 Foils
Munich07 FoilsAntonini
 
Module 13 Gradient And Area Under A Graph
Module 13  Gradient And Area Under A GraphModule 13  Gradient And Area Under A Graph
Module 13 Gradient And Area Under A Graphguestcc333c
 
Marking Scheme Worksheet 2
Marking Scheme Worksheet 2Marking Scheme Worksheet 2
Marking Scheme Worksheet 2Hira Rizvi
 
Efficient Hill Climber for Constrained Pseudo-Boolean Optimization Problems
Efficient Hill Climber for Constrained Pseudo-Boolean Optimization ProblemsEfficient Hill Climber for Constrained Pseudo-Boolean Optimization Problems
Efficient Hill Climber for Constrained Pseudo-Boolean Optimization Problems
jfrchicanog
 
Module 11 Tansformation
Module 11  TansformationModule 11  Tansformation
Module 11 Tansformationguestcc333c
 
Signal Processing Course : Compressed Sensing
Signal Processing Course : Compressed SensingSignal Processing Course : Compressed Sensing
Signal Processing Course : Compressed Sensing
Gabriel Peyré
 
03 image transform
03 image transform03 image transform
03 image transform
Rumah Belajar
 
A Dimension Abstraction Approach to Vectorization in Matlab
A Dimension Abstraction Approach to Vectorization in MatlabA Dimension Abstraction Approach to Vectorization in Matlab
A Dimension Abstraction Approach to Vectorization in Matlab
aiQUANT
 
Surface Area
Surface Area Surface Area
Surface Area cadteach
 
Module 7 The Straight Lines
Module 7 The Straight LinesModule 7 The Straight Lines
Module 7 The Straight Linesguestcc333c
 
M schemes(work, energy and power)
M schemes(work, energy and power)M schemes(work, energy and power)
M schemes(work, energy and power)Hira Rizvi
 
Signal Processing Course : Approximation
Signal Processing Course : ApproximationSignal Processing Course : Approximation
Signal Processing Course : Approximation
Gabriel Peyré
 
Presentation
PresentationPresentation
Presentation
guest635cb8
 
Bouguet's MatLab Camera Calibration Toolbox
Bouguet's MatLab Camera Calibration ToolboxBouguet's MatLab Camera Calibration Toolbox
Bouguet's MatLab Camera Calibration Toolbox
Yuji Oyamada
 
Sparsity and Compressed Sensing
Sparsity and Compressed SensingSparsity and Compressed Sensing
Sparsity and Compressed Sensing
Gabriel Peyré
 

What's hot (20)

Future CMB Experiments
Future CMB ExperimentsFuture CMB Experiments
Future CMB Experiments
 
add mad
add madadd mad
add mad
 
An evaluation of gnss code and phase solutions
An evaluation of gnss code and phase solutionsAn evaluation of gnss code and phase solutions
An evaluation of gnss code and phase solutions
 
Study of the variation of power loss with frequency along a rectangular
Study of the variation of power loss with frequency along a rectangularStudy of the variation of power loss with frequency along a rectangular
Study of the variation of power loss with frequency along a rectangular
 
Munich07 Foils
Munich07 FoilsMunich07 Foils
Munich07 Foils
 
Module 13 Gradient And Area Under A Graph
Module 13  Gradient And Area Under A GraphModule 13  Gradient And Area Under A Graph
Module 13 Gradient And Area Under A Graph
 
Marking Scheme Worksheet 2
Marking Scheme Worksheet 2Marking Scheme Worksheet 2
Marking Scheme Worksheet 2
 
Efficient Hill Climber for Constrained Pseudo-Boolean Optimization Problems
Efficient Hill Climber for Constrained Pseudo-Boolean Optimization ProblemsEfficient Hill Climber for Constrained Pseudo-Boolean Optimization Problems
Efficient Hill Climber for Constrained Pseudo-Boolean Optimization Problems
 
Module 11 Tansformation
Module 11  TansformationModule 11  Tansformation
Module 11 Tansformation
 
Signal Processing Course : Compressed Sensing
Signal Processing Course : Compressed SensingSignal Processing Course : Compressed Sensing
Signal Processing Course : Compressed Sensing
 
03 image transform
03 image transform03 image transform
03 image transform
 
A Dimension Abstraction Approach to Vectorization in Matlab
A Dimension Abstraction Approach to Vectorization in MatlabA Dimension Abstraction Approach to Vectorization in Matlab
A Dimension Abstraction Approach to Vectorization in Matlab
 
Surface Area
Surface Area Surface Area
Surface Area
 
Module 7 The Straight Lines
Module 7 The Straight LinesModule 7 The Straight Lines
Module 7 The Straight Lines
 
M schemes(work, energy and power)
M schemes(work, energy and power)M schemes(work, energy and power)
M schemes(work, energy and power)
 
Signal Processing Course : Approximation
Signal Processing Course : ApproximationSignal Processing Course : Approximation
Signal Processing Course : Approximation
 
Presentation
PresentationPresentation
Presentation
 
Bouguet's MatLab Camera Calibration Toolbox
Bouguet's MatLab Camera Calibration ToolboxBouguet's MatLab Camera Calibration Toolbox
Bouguet's MatLab Camera Calibration Toolbox
 
Sparsity and Compressed Sensing
Sparsity and Compressed SensingSparsity and Compressed Sensing
Sparsity and Compressed Sensing
 
Module 5 Sets
Module 5 SetsModule 5 Sets
Module 5 Sets
 

Similar to 大規模日本語ブログコーパスにおける言語モデルの構築と評価

Form 5 formulae and note
Form 5 formulae and noteForm 5 formulae and note
Form 5 formulae and notesmktsj2
 
Formulario de matematicas
Formulario de matematicasFormulario de matematicas
Formulario de matematicasCarlos
 
5 marks scheme for add maths paper 2 trial spm
5 marks scheme for add maths paper 2 trial spm5 marks scheme for add maths paper 2 trial spm
5 marks scheme for add maths paper 2 trial spmzabidah awang
 
2 senarai rumus add maths k2 trial spm sbp 2010
2 senarai rumus add maths k2 trial spm sbp 20102 senarai rumus add maths k2 trial spm sbp 2010
2 senarai rumus add maths k2 trial spm sbp 2010zabidah awang
 
2 senarai rumus add maths k1 trial spm sbp 2010
2 senarai rumus add maths k1 trial spm sbp 20102 senarai rumus add maths k1 trial spm sbp 2010
2 senarai rumus add maths k1 trial spm sbp 2010zabidah awang
 
5 marks scheme for add maths paper 2 trial spm
5 marks scheme for add maths paper 2 trial spm5 marks scheme for add maths paper 2 trial spm
5 marks scheme for add maths paper 2 trial spmzabidah awang
 
D-Branes and The Disformal Dark Sector - Danielle Wills and Tomi Koivisto
D-Branes and The Disformal Dark Sector - Danielle Wills and Tomi KoivistoD-Branes and The Disformal Dark Sector - Danielle Wills and Tomi Koivisto
D-Branes and The Disformal Dark Sector - Danielle Wills and Tomi KoivistoCosmoAIMS Bassett
 

Similar to 大規模日本語ブログコーパスにおける言語モデルの構築と評価 (9)

Form 5 formulae and note
Form 5 formulae and noteForm 5 formulae and note
Form 5 formulae and note
 
Cheat Sheet
Cheat SheetCheat Sheet
Cheat Sheet
 
Formulario de matematicas
Formulario de matematicasFormulario de matematicas
Formulario de matematicas
 
確率伝播その2
確率伝播その2確率伝播その2
確率伝播その2
 
5 marks scheme for add maths paper 2 trial spm
5 marks scheme for add maths paper 2 trial spm5 marks scheme for add maths paper 2 trial spm
5 marks scheme for add maths paper 2 trial spm
 
2 senarai rumus add maths k2 trial spm sbp 2010
2 senarai rumus add maths k2 trial spm sbp 20102 senarai rumus add maths k2 trial spm sbp 2010
2 senarai rumus add maths k2 trial spm sbp 2010
 
2 senarai rumus add maths k1 trial spm sbp 2010
2 senarai rumus add maths k1 trial spm sbp 20102 senarai rumus add maths k1 trial spm sbp 2010
2 senarai rumus add maths k1 trial spm sbp 2010
 
5 marks scheme for add maths paper 2 trial spm
5 marks scheme for add maths paper 2 trial spm5 marks scheme for add maths paper 2 trial spm
5 marks scheme for add maths paper 2 trial spm
 
D-Branes and The Disformal Dark Sector - Danielle Wills and Tomi Koivisto
D-Branes and The Disformal Dark Sector - Danielle Wills and Tomi KoivistoD-Branes and The Disformal Dark Sector - Danielle Wills and Tomi Koivisto
D-Branes and The Disformal Dark Sector - Danielle Wills and Tomi Koivisto
 

More from Yahoo!デベロッパーネットワーク

ゼロから始める転移学習
ゼロから始める転移学習ゼロから始める転移学習
ゼロから始める転移学習
Yahoo!デベロッパーネットワーク
 
継続的なモデルモニタリングを実現するKubernetes Operator
継続的なモデルモニタリングを実現するKubernetes Operator継続的なモデルモニタリングを実現するKubernetes Operator
継続的なモデルモニタリングを実現するKubernetes Operator
Yahoo!デベロッパーネットワーク
 
ヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるかヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるか
Yahoo!デベロッパーネットワーク
 
オンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes パネルディスカッションオンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes パネルディスカッション
Yahoo!デベロッパーネットワーク
 
LakeTahoe
LakeTahoeLakeTahoe
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
Yahoo!デベロッパーネットワーク
 
Persistent-memory-native Database High-availability Feature
Persistent-memory-native Database High-availability FeaturePersistent-memory-native Database High-availability Feature
Persistent-memory-native Database High-availability Feature
Yahoo!デベロッパーネットワーク
 
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
Yahoo!デベロッパーネットワーク
 
eコマースと実店舗の相互利益を目指したデザイン #yjtc
eコマースと実店舗の相互利益を目指したデザイン #yjtceコマースと実店舗の相互利益を目指したデザイン #yjtc
eコマースと実店舗の相互利益を目指したデザイン #yjtc
Yahoo!デベロッパーネットワーク
 
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtcヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
Yahoo!デベロッパーネットワーク
 
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtcYahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo!デベロッパーネットワーク
 
ビッグデータから人々のムードを捉える #yjtc
ビッグデータから人々のムードを捉える #yjtcビッグデータから人々のムードを捉える #yjtc
ビッグデータから人々のムードを捉える #yjtc
Yahoo!デベロッパーネットワーク
 
サイエンス領域におけるMLOpsの取り組み #yjtc
サイエンス領域におけるMLOpsの取り組み #yjtcサイエンス領域におけるMLOpsの取り組み #yjtc
サイエンス領域におけるMLOpsの取り組み #yjtc
Yahoo!デベロッパーネットワーク
 
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtcヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
Yahoo!デベロッパーネットワーク
 
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtcYahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
Yahoo!デベロッパーネットワーク
 
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
Yahoo!デベロッパーネットワーク
 
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtcPC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
Yahoo!デベロッパーネットワーク
 
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtcモブデザインによる多職種チームのコミュニケーション改善 #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
Yahoo!デベロッパーネットワーク
 
「新しいおうち探し」のためのAIアシスト検索 #yjtc
「新しいおうち探し」のためのAIアシスト検索 #yjtc「新しいおうち探し」のためのAIアシスト検索 #yjtc
「新しいおうち探し」のためのAIアシスト検索 #yjtc
Yahoo!デベロッパーネットワーク
 
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtcユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
Yahoo!デベロッパーネットワーク
 

More from Yahoo!デベロッパーネットワーク (20)

ゼロから始める転移学習
ゼロから始める転移学習ゼロから始める転移学習
ゼロから始める転移学習
 
継続的なモデルモニタリングを実現するKubernetes Operator
継続的なモデルモニタリングを実現するKubernetes Operator継続的なモデルモニタリングを実現するKubernetes Operator
継続的なモデルモニタリングを実現するKubernetes Operator
 
ヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるかヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるか
 
オンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes パネルディスカッションオンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes パネルディスカッション
 
LakeTahoe
LakeTahoeLakeTahoe
LakeTahoe
 
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
 
Persistent-memory-native Database High-availability Feature
Persistent-memory-native Database High-availability FeaturePersistent-memory-native Database High-availability Feature
Persistent-memory-native Database High-availability Feature
 
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
 
eコマースと実店舗の相互利益を目指したデザイン #yjtc
eコマースと実店舗の相互利益を目指したデザイン #yjtceコマースと実店舗の相互利益を目指したデザイン #yjtc
eコマースと実店舗の相互利益を目指したデザイン #yjtc
 
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtcヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
 
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtcYahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
 
ビッグデータから人々のムードを捉える #yjtc
ビッグデータから人々のムードを捉える #yjtcビッグデータから人々のムードを捉える #yjtc
ビッグデータから人々のムードを捉える #yjtc
 
サイエンス領域におけるMLOpsの取り組み #yjtc
サイエンス領域におけるMLOpsの取り組み #yjtcサイエンス領域におけるMLOpsの取り組み #yjtc
サイエンス領域におけるMLOpsの取り組み #yjtc
 
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtcヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
 
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtcYahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
 
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
 
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtcPC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
 
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtcモブデザインによる多職種チームのコミュニケーション改善 #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
 
「新しいおうち探し」のためのAIアシスト検索 #yjtc
「新しいおうち探し」のためのAIアシスト検索 #yjtc「新しいおうち探し」のためのAIアシスト検索 #yjtc
「新しいおうち探し」のためのAIアシスト検索 #yjtc
 
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtcユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
 

Recently uploaded

Embracing GenAI - A Strategic Imperative
Embracing GenAI - A Strategic ImperativeEmbracing GenAI - A Strategic Imperative
Embracing GenAI - A Strategic Imperative
Peter Windle
 
CACJapan - GROUP Presentation 1- Wk 4.pdf
CACJapan - GROUP Presentation 1- Wk 4.pdfCACJapan - GROUP Presentation 1- Wk 4.pdf
CACJapan - GROUP Presentation 1- Wk 4.pdf
camakaiclarkmusic
 
Polish students' mobility in the Czech Republic
Polish students' mobility in the Czech RepublicPolish students' mobility in the Czech Republic
Polish students' mobility in the Czech Republic
Anna Sz.
 
A Strategic Approach: GenAI in Education
A Strategic Approach: GenAI in EducationA Strategic Approach: GenAI in Education
A Strategic Approach: GenAI in Education
Peter Windle
 
The geography of Taylor Swift - some ideas
The geography of Taylor Swift - some ideasThe geography of Taylor Swift - some ideas
The geography of Taylor Swift - some ideas
GeoBlogs
 
Supporting (UKRI) OA monographs at Salford.pptx
Supporting (UKRI) OA monographs at Salford.pptxSupporting (UKRI) OA monographs at Salford.pptx
Supporting (UKRI) OA monographs at Salford.pptx
Jisc
 
Model Attribute Check Company Auto Property
Model Attribute  Check Company Auto PropertyModel Attribute  Check Company Auto Property
Model Attribute Check Company Auto Property
Celine George
 
Francesca Gottschalk - How can education support child empowerment.pptx
Francesca Gottschalk - How can education support child empowerment.pptxFrancesca Gottschalk - How can education support child empowerment.pptx
Francesca Gottschalk - How can education support child empowerment.pptx
EduSkills OECD
 
Palestine last event orientationfvgnh .pptx
Palestine last event orientationfvgnh .pptxPalestine last event orientationfvgnh .pptx
Palestine last event orientationfvgnh .pptx
RaedMohamed3
 
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
siemaillard
 
Guidance_and_Counselling.pdf B.Ed. 4th Semester
Guidance_and_Counselling.pdf B.Ed. 4th SemesterGuidance_and_Counselling.pdf B.Ed. 4th Semester
Guidance_and_Counselling.pdf B.Ed. 4th Semester
Atul Kumar Singh
 
678020731-Sumas-y-Restas-Para-Colorear.pdf
678020731-Sumas-y-Restas-Para-Colorear.pdf678020731-Sumas-y-Restas-Para-Colorear.pdf
678020731-Sumas-y-Restas-Para-Colorear.pdf
CarlosHernanMontoyab2
 
How libraries can support authors with open access requirements for UKRI fund...
How libraries can support authors with open access requirements for UKRI fund...How libraries can support authors with open access requirements for UKRI fund...
How libraries can support authors with open access requirements for UKRI fund...
Jisc
 
How to Make a Field invisible in Odoo 17
How to Make a Field invisible in Odoo 17How to Make a Field invisible in Odoo 17
How to Make a Field invisible in Odoo 17
Celine George
 
Mule 4.6 & Java 17 Upgrade | MuleSoft Mysore Meetup #46
Mule 4.6 & Java 17 Upgrade | MuleSoft Mysore Meetup #46Mule 4.6 & Java 17 Upgrade | MuleSoft Mysore Meetup #46
Mule 4.6 & Java 17 Upgrade | MuleSoft Mysore Meetup #46
MysoreMuleSoftMeetup
 
Synthetic Fiber Construction in lab .pptx
Synthetic Fiber Construction in lab .pptxSynthetic Fiber Construction in lab .pptx
Synthetic Fiber Construction in lab .pptx
Pavel ( NSTU)
 
June 3, 2024 Anti-Semitism Letter Sent to MIT President Kornbluth and MIT Cor...
June 3, 2024 Anti-Semitism Letter Sent to MIT President Kornbluth and MIT Cor...June 3, 2024 Anti-Semitism Letter Sent to MIT President Kornbluth and MIT Cor...
June 3, 2024 Anti-Semitism Letter Sent to MIT President Kornbluth and MIT Cor...
Levi Shapiro
 
Instructions for Submissions thorugh G- Classroom.pptx
Instructions for Submissions thorugh G- Classroom.pptxInstructions for Submissions thorugh G- Classroom.pptx
Instructions for Submissions thorugh G- Classroom.pptx
Jheel Barad
 
CLASS 11 CBSE B.St Project AIDS TO TRADE - INSURANCE
CLASS 11 CBSE B.St Project AIDS TO TRADE - INSURANCECLASS 11 CBSE B.St Project AIDS TO TRADE - INSURANCE
CLASS 11 CBSE B.St Project AIDS TO TRADE - INSURANCE
BhavyaRajput3
 
Unit 8 - Information and Communication Technology (Paper I).pdf
Unit 8 - Information and Communication Technology (Paper I).pdfUnit 8 - Information and Communication Technology (Paper I).pdf
Unit 8 - Information and Communication Technology (Paper I).pdf
Thiyagu K
 

Recently uploaded (20)

Embracing GenAI - A Strategic Imperative
Embracing GenAI - A Strategic ImperativeEmbracing GenAI - A Strategic Imperative
Embracing GenAI - A Strategic Imperative
 
CACJapan - GROUP Presentation 1- Wk 4.pdf
CACJapan - GROUP Presentation 1- Wk 4.pdfCACJapan - GROUP Presentation 1- Wk 4.pdf
CACJapan - GROUP Presentation 1- Wk 4.pdf
 
Polish students' mobility in the Czech Republic
Polish students' mobility in the Czech RepublicPolish students' mobility in the Czech Republic
Polish students' mobility in the Czech Republic
 
A Strategic Approach: GenAI in Education
A Strategic Approach: GenAI in EducationA Strategic Approach: GenAI in Education
A Strategic Approach: GenAI in Education
 
The geography of Taylor Swift - some ideas
The geography of Taylor Swift - some ideasThe geography of Taylor Swift - some ideas
The geography of Taylor Swift - some ideas
 
Supporting (UKRI) OA monographs at Salford.pptx
Supporting (UKRI) OA monographs at Salford.pptxSupporting (UKRI) OA monographs at Salford.pptx
Supporting (UKRI) OA monographs at Salford.pptx
 
Model Attribute Check Company Auto Property
Model Attribute  Check Company Auto PropertyModel Attribute  Check Company Auto Property
Model Attribute Check Company Auto Property
 
Francesca Gottschalk - How can education support child empowerment.pptx
Francesca Gottschalk - How can education support child empowerment.pptxFrancesca Gottschalk - How can education support child empowerment.pptx
Francesca Gottschalk - How can education support child empowerment.pptx
 
Palestine last event orientationfvgnh .pptx
Palestine last event orientationfvgnh .pptxPalestine last event orientationfvgnh .pptx
Palestine last event orientationfvgnh .pptx
 
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
 
Guidance_and_Counselling.pdf B.Ed. 4th Semester
Guidance_and_Counselling.pdf B.Ed. 4th SemesterGuidance_and_Counselling.pdf B.Ed. 4th Semester
Guidance_and_Counselling.pdf B.Ed. 4th Semester
 
678020731-Sumas-y-Restas-Para-Colorear.pdf
678020731-Sumas-y-Restas-Para-Colorear.pdf678020731-Sumas-y-Restas-Para-Colorear.pdf
678020731-Sumas-y-Restas-Para-Colorear.pdf
 
How libraries can support authors with open access requirements for UKRI fund...
How libraries can support authors with open access requirements for UKRI fund...How libraries can support authors with open access requirements for UKRI fund...
How libraries can support authors with open access requirements for UKRI fund...
 
How to Make a Field invisible in Odoo 17
How to Make a Field invisible in Odoo 17How to Make a Field invisible in Odoo 17
How to Make a Field invisible in Odoo 17
 
Mule 4.6 & Java 17 Upgrade | MuleSoft Mysore Meetup #46
Mule 4.6 & Java 17 Upgrade | MuleSoft Mysore Meetup #46Mule 4.6 & Java 17 Upgrade | MuleSoft Mysore Meetup #46
Mule 4.6 & Java 17 Upgrade | MuleSoft Mysore Meetup #46
 
Synthetic Fiber Construction in lab .pptx
Synthetic Fiber Construction in lab .pptxSynthetic Fiber Construction in lab .pptx
Synthetic Fiber Construction in lab .pptx
 
June 3, 2024 Anti-Semitism Letter Sent to MIT President Kornbluth and MIT Cor...
June 3, 2024 Anti-Semitism Letter Sent to MIT President Kornbluth and MIT Cor...June 3, 2024 Anti-Semitism Letter Sent to MIT President Kornbluth and MIT Cor...
June 3, 2024 Anti-Semitism Letter Sent to MIT President Kornbluth and MIT Cor...
 
Instructions for Submissions thorugh G- Classroom.pptx
Instructions for Submissions thorugh G- Classroom.pptxInstructions for Submissions thorugh G- Classroom.pptx
Instructions for Submissions thorugh G- Classroom.pptx
 
CLASS 11 CBSE B.St Project AIDS TO TRADE - INSURANCE
CLASS 11 CBSE B.St Project AIDS TO TRADE - INSURANCECLASS 11 CBSE B.St Project AIDS TO TRADE - INSURANCE
CLASS 11 CBSE B.St Project AIDS TO TRADE - INSURANCE
 
Unit 8 - Information and Communication Technology (Paper I).pdf
Unit 8 - Information and Communication Technology (Paper I).pdfUnit 8 - Information and Communication Technology (Paper I).pdf
Unit 8 - Information and Communication Technology (Paper I).pdf
 

大規模日本語ブログコーパスにおける言語モデルの構築と評価

  • 1. {yookuno, msassano}@yahoo-corp.jp 1 1 90 [1] 2 [2] Web Web 2 2 N-gram N-gram [3] 1 [4] MapReduce [5] [6] LOUDS [7] N-gram [8] 3 3.1 N-gram n w1 = n w1 , ...wn P (w1 )
  • 2. N-gram N −1 c b [1] ∏ n ∏ n n P (w1 ) = P (wi |w1 ) = i−1 P (wi |wi−N +1 ) (1) i−1 D i=1 i=1 Absolute P (wi |wi−N +1 ) i−1 max(0, C(abc) − D) + DN (ab∗)P (c|b) P (c|ab) = i C(ab∗) C(wi−N +1 ) (4) P (wi |wi−N +1 ) = i−1 i−1 (2) C(wi−N +1 ) N (ab∗) ab j j C(wi ) wi i−1 (2) wi−N +1 wi 3.4 Kneser-Ney N Absolute N-gram N-gram N Kneser-Ney [10] 0 max(0, N (∗bc) − D) + DR(∗b∗)P (c|b) P (c|ab) = N (∗b∗) (5) R(∗b∗) = c : N (∗bc) > 0 ∗b∗ 3.2 Dirichlet N-gram N-gram P (wi |wi−N +1 ) i−1 Di- richlet (N- 3.5 1)-gram [9] n w1 C(wi−N +1 ) + αP (wi |wi−N +2 ) i i−1 P (wi |wi−N +1 ) = i−1 1∑ i−1 n C(wi−N +1 ) + α (3) H=− log2 P (wi |w1 ) i−1 (6) n i=1 (3) Dirichlet (N-1)-gram P (wi |wi−N +2 ) i−1 Dirichlet H bit 1-gram P (w) P P = 2H P (w) = C(w) C C 3.3 Absolute 3.6 MapReduce N-gram [4] j wi abc N-gram i a b N-gram C(wi−N +1 )
  • 3. Map(int id, string doc): string[] words = MorphologicalAnalyze(doc) 1: N (bit) for i = 1 to size(words)-N+1 Wikipedia Blog Emit(words[i..i+N-1], 1) N Dirichlet Kneser-Ney Dirichlet Kneser-Ney 1 10.65 10.65 10.77 10.77 Reduce(string[] words, int[] counts): 2 8.71 8.52 9.63 9.44 sum = 0 3 7.72 5.15 9.21 6.87 for each count in counts 4 7.09 5.23 9.35 7.70 sum += count 5 6.64 5.69 9.43 8.73 Emit(words, sum) 6 6.73 6.25 9.48 9.33 7 6.47 6.23 9.49 9.62 1: MapReduce N-gram 4.2 MapReduce[11] 1 Yahoo! Map Reduce [5] 2009 10 2010 10 1 LZO 2TB Hadoop Map Map 1CPU/12GB Memory/1TB*4 HDD 20 1 + 19 Shuffle Yahoo! API Reduce MapReduce Hadoop 4.3 4 LZO N 2 4.1 N [12] 2: : 860GB 2TB Wikipedia 9:50 28:16 1000 mecab 0.98 1-gram 2:14 7:42 1 2-gram 3:34 13:45 α D 1 3-gram 5:02 20:43 10000 10 4-gram 8:58 1 5-gram 11:12 6-gram 13:00 7-gram 14:48 • N Wikipedia 2TB 4-gram • Wikipe- dia Kneser-Ney 3
  • 4. 860GB 1 7-gram N 1000 Dirichlet 100 10000 N N-gram [1] , . . , 1999. N-gram [2] , , , . . , Vol.40, No.7, pp.2946-2953, 1999. 3: (bit) (byte) [3] Stanley Chen and Joshua Goodman. An Empiri- N 10000 1000 100 10000 1000 100 cal Study of Smoothing Techniques for Language Modeling. TR-10-09, Computer Science Group, 1 16.25 17.21 17.80 2.8M 9.1M 40M Harvard University, 1998. 2 7.71 6.48 7.66 21M 127M 683M 3 8.88 6.41 6.51 30M 293M 2.5G [4] Deniz Yuret. Smoothing a Tera-word Language 4 8.93 6.71 6.18 23M 201M 3.6G Model. ACL-08: HLT, pp.141-144, June 2008. 5 8.66 6.20 5.97 15M 232M 3.5G [5] Thorsten Brants, Ashok C. Popat, Peng Xu, 6 8.28 5.98 5.74 8.2M 160M 1.6G Franz J. Och, Jeffrey Dean. Large Language 7 7.81 5.68 5.65 5.2M 113M 1.1G Models in Machine Translation. EMNLP-ACL, pp.858-867, June 2007. [6] Graham Cormode, Marios Hadjieleftheriou. Met- hods for Finding Frequent Items in Data Streams. VLDB, vol.1 Issue 2, August 2008. [7] Taro Watanabe, Hajime Tsukada, Hideki Iso- zaki. A Succinct N-gram Language Model. ACL- IJCNLP, pp.341-344, August 2009. 3 [8] Ahmad Emami, Kishore Papineni, Jeffrey So- rensen. Large-Scale Distributed Language Model. 1 PC ICASSP, IV-37-IV-40, April 2007. PC 1GB [9] David J. C. MacKay, Linda C. Bauman Peto. 3 A hierarchical Dirichlet language model. Natu- 1000 ral Language Engineering, vol.1 Issue 03, pp.289- 1.1GB 308, 1995. 5.68bit [10] Kneser R., Ney H.. Improved backing-off for M- gram language modeling. ICASSP, pp.181-184, vol.1, 1995. [11] Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simplified Data Processing on Large Clusters. 5 OSDI, December, 2004. [12] , , Web N , N-gram , 2007.