Solr/Lucene 向け自然言語処理製品のご紹介



               シニア・ソフトウェア・エンジニア
                    平賀 一昭




 ベイシス・テクノロジー株式会社
 www.basistec...
Basis Technology 概要


   Basis Technology Corporation
     Carl Hoffman, CEO 以下MIT出身者を中心に、
     1995年に設立


   ベイシス・テクノロジー株...
カスタマー




  この他にも、多くの検索エンジン、政府、軍/情報機関などで利用されてい
  ます。特にここ数年は、商用エンジンから、Solr/Lucene への移行とあわ
  せ、弊社自然言語処理プラットフォームの採用が増えています。
Rosette® 言語処理プラットフォーム
010.03.12 H21年度 科研「情報爆発IT基盤」プロジェ
クトシンポジウムを東京大学本郷キャンパス工学部
新2号館1F213大講義室にて開催致します。本シンポ
ジウムは、IPSJ50周年記念全...
Rosette® 言語処理プラットフォーム
010.03.12 H21年度 科研「情報爆発IT基盤」プロジェ
クトシンポジウムを東京大学本郷キャンパス工学部
新2号館1F213大講義室にて開催致します。本シンポ
ジウムは、IPSJ50周年記念全...
Rosette® 言語処理プラットフォーム




                              API



   Rosette®   Rosette®    Rosette®   Rosette®
             ...
Rosette® 言語・文字コード判別システム (RLI)

       「言語」と「文字コード」を判別します
   世界の55言語・39種類の文字コードを判別
    日本語、中国語、朝鮮語、英語、ドイツ語、フランス語、ロシア語 等


 ...
Rosette® 言語・文字コード判別システム (RLI)

対応する言語・文字コード




                                対応言語数: 55
                                ...
Rosette® ユニコード対応ライブラリ (RCLU)

   Unicode と外部文字コードの相互変換を行います
   文字コード変換
    170種類以上の文字コードに対応
       Shift-JIS ⇔ Unicode
   ...
Rosette® 形態素解析システム (RBL) : 日本語版の特徴

        自然文の入力を形態素へ分割します
  分かち書き(テキストを単語に分割)
    独自開発の解析アルゴリズム
    50万語の形態素解析辞書を標準搭載し、...
Rosette® 形態素解析システム (RBL) : 日本語版の特徴 (cont.)

   カタカナ表記ゆれ対応 (約 9,000 語)
    ダンスセラピー        ←   ダンスセラピ/ダンステラピー
    ファミコン     ...
Rosette® 形態素解析システム (RBL) : 主要言語対応状況

          単語分割     ステミング    複合語分解 品詞解析   文尾検出 名詞句抽出   読み
                   (基本化)
日本語...
Rosette® 固有表現抽出システム (REX)

       固有表現(Named Entity)を抽出します

    固有名詞
    抽出すべき語の「文脈パターン」を事前学習
    人名、地名、組織名、施設名、国籍、役職等を識別
...
Rosette® 固有表現抽出システム (REX) : 主要言語対応状況

          人名    組織名    場所    都市名    施設     役職
日本語        ○     ○      ○     ○      ○...
Rosette® 言語処理プラットフォーム : 提供形態

  SDK による提供

  シンプルなAPIのライブラリ
   各国言語共通のAPI
   C++, C, C#, Java アプリケーションから利用可
   Solr/Lucene...
次世代サーチ・テクノロジー・フォーラム 2010



 主催:ベイシス・テクノロジー株式会社
 開催日: 2010年4月22日(木)
 時間: セミナー 9:30-16:30、 展示 12:00-16:30
 会場: 国際文化会館 (東京 六...
Upcoming SlideShare
Loading in …5
×

Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー

3,063
-1

Published on

Lucene/Solr 用形態素解析システムのご紹介
ベイシス・テクノロジー株式会社
シニア・ソフトウエア・エンジニア
平賀一昭

Published in: Technology
0 Comments
4 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
3,063
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
15
Comments
0
Likes
4
Embeds 0
No embeds

No notes for slide

Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー

  1. 1. Solr/Lucene 向け自然言語処理製品のご紹介 シニア・ソフトウェア・エンジニア 平賀 一昭 ベイシス・テクノロジー株式会社 www.basistech.jp
  2. 2. Basis Technology 概要 Basis Technology Corporation Carl Hoffman, CEO 以下MIT出身者を中心に、 1995年に設立 ベイシス・テクノロジー株式会社 2000年に、初の米国外オフィスとして設立
  3. 3. カスタマー この他にも、多くの検索エンジン、政府、軍/情報機関などで利用されてい ます。特にここ数年は、商用エンジンから、Solr/Lucene への移行とあわ せ、弊社自然言語処理プラットフォームの採用が増えています。
  4. 4. Rosette® 言語処理プラットフォーム 010.03.12 H21年度 科研「情報爆発IT基盤」プロジェ クトシンポジウムを東京大学本郷キャンパス工学部 新2号館1F213大講義室にて開催致します。本シンポ ジウムは、IPSJ50周年記念全国大会と連動、「ITコ リドー」3月6日(土)~3月12日(金)として連続開催致 Web などの非構造化データ、ある します。 事前にWebページより参加登録をお願いします(参加 いは、JDBC経由でフィードされる 登録受付中)。 2009.11.24 2009.11.02 科研「情報爆発IT基盤」 データなど 評価助言委員会委員長の米澤明憲先生(東京大学情報 理工学系研究科教授・情報基盤センター長)が平成21 年秋の紫綬褒章を受章されました(11月16日伝達式)。
  5. 5. Rosette® 言語処理プラットフォーム 010.03.12 H21年度 科研「情報爆発IT基盤」プロジェ クトシンポジウムを東京大学本郷キャンパス工学部 新2号館1F213大講義室にて開催致します。本シンポ ジウムは、IPSJ50周年記念全国大会と連動、「ITコ リドー」3月6日(土)~3月12日(金)として連続開催致 します。 事前にWebページより参加登録をお願いします(参加 登録受付中)。 2009.11.24 2009.11.02 科研「情報爆発IT基盤」 評価助言委員会委員長の米澤明憲先生(東京大学情報 構造化データ 理工学系研究科教授・情報基盤センター長)が平成21 年秋の紫綬褒章を受章されました(11月16日伝達式)。
  6. 6. Rosette® 言語処理プラットフォーム API Rosette® Rosette® Rosette® Rosette® ユーザ個々の 言語判別 Unicode対応 形態素解析 固有表現抽出 アプリケーショ ン システム ライブラリ システム システム
  7. 7. Rosette® 言語・文字コード判別システム (RLI) 「言語」と「文字コード」を判別します 世界の55言語・39種類の文字コードを判別 日本語、中国語、朝鮮語、英語、ドイツ語、フランス語、ロシア語 等 平均判別精度 : 99.45% 日本語 JIS : 100% 朝鮮語 EUC-KR : 100% 中国語 GB-2312 : 100% ※約1KBのデータを利用したテスト結果
  8. 8. Rosette® 言語・文字コード判別システム (RLI) 対応する言語・文字コード 対応言語数: 55 対応文字コード数: 39
  9. 9. Rosette® ユニコード対応ライブラリ (RCLU) Unicode と外部文字コードの相互変換を行います 文字コード変換 170種類以上の文字コードに対応 Shift-JIS ⇔ Unicode GB18030 ⇔ Unicode テキスト正規化 大文字 ⇔ 小文字 Unicode TEXT ⇔ unicode text 半角 ⇔ 全角 ABCカンパニー ⇔ ABCカンパニー ひらがな ⇔ カタカナ
  10. 10. Rosette® 形態素解析システム (RBL) : 日本語版の特徴 自然文の入力を形態素へ分割します 分かち書き(テキストを単語に分割) 独自開発の解析アルゴリズム 50万語の形態素解析辞書を標準搭載し、6ヶ月ごとにアップデート 品詞出力、名詞句抽出 ユーザー定義辞書 複数の辞書が使用可能 ストップワード判別 「された」「の」、「は」、「か」などの不要語を認識 カスタマイズ可 「読み」の出力
  11. 11. Rosette® 形態素解析システム (RBL) : 日本語版の特徴 (cont.) カタカナ表記ゆれ対応 (約 9,000 語) ダンスセラピー ← ダンスセラピ/ダンステラピー ファミコン ← ファミリーコンピュータ/ファミリーコンピューター ベネチア ← ベニス/ベネツィア/ヴェネチア/ヴェネツィア 漢字の旧字体サポート (約 89,000 語) 渡辺 ← 渡邊 大学 ← 大學 高島 ← 髙島 類義語対応 (ユーザー辞書により対応可能) Honda ← ホンダ、本田技研工業
  12. 12. Rosette® 形態素解析システム (RBL) : 主要言語対応状況 単語分割 ステミング 複合語分解 品詞解析 文尾検出 名詞句抽出 読み (基本化) 日本語 ○ ○ ○ ○ ○ ○ ○ 朝鮮語 ○ ○ ○ ○ ○ ○ N 中国語 ○ ○ ○ ○ ○ (簡・繁) n/a n/a 英語 ○ ○ n/a ○ ○ ○ n/a アラビア語 ○ ○ n/a ○ ○ ○ ○ ロシア語 ○ ○ n/a ○ ○ N N フランス語 ○ ○ n/a ○ ○ ○ n/a イタリア語 ○ ○ n/a ○ ○ ○ n/a ドイツ語 ○ ○ ○ ○ ○ ○ n/a スペイン語 ○ ○ n/a ○ ○ ○ n/a ポルトガル語、オランダ語、ギリシャ語、ハンガリー語、ポーランド語、チェコ語、近代ペルシア語、ウルドゥ語にも 対応しています。 N - 未対応、n/a - この言語には該当せず
  13. 13. Rosette® 固有表現抽出システム (REX) 固有表現(Named Entity)を抽出します 固有名詞 抽出すべき語の「文脈パターン」を事前学習 人名、地名、組織名、施設名、国籍、役職等を識別 特定パターンの語句 与えられた正規表現と一致するパターンの文字列 日時、電話番号、URL、製品型番など ユーザー定義可能 用語辞書(ガゼティア) ユーザーが指定した語句との一致
  14. 14. Rosette® 固有表現抽出システム (REX) : 主要言語対応状況 人名 組織名 場所 都市名 施設 役職 日本語 ○ ○ ○ ○ ○ ○ 朝鮮語 ○ ○ ○ ○ ○ ○ 中国語 ○ ○ ○ ○ ○ ○ (簡・繁) 英語 ○ ○ ○ ○ ○ ○ アラビア語 ○ ○ ○ ○ ○ ○ ロシア語 ○ ○ ○ ○ ○ ○ フランス語 ○ ○ ○ X X ○ イタリア語 ○ ○ ○ X X ○ ドイツ語 ○ ○ ○ X X ○ スペイン語 ○ ○ ○ X X ○ 上記言語以外に、オランダ語、ポルトガル語、ウルドゥ語、近代ペルシア語をサポートしています。
  15. 15. Rosette® 言語処理プラットフォーム : 提供形態 SDK による提供 シンプルなAPIのライブラリ 各国言語共通のAPI C++, C, C#, Java アプリケーションから利用可 Solr/Lucene向けパッケージには、Analyzer/Factory ソースコードが付属 サポートプラットフォーム Windows, Linux, Solaris, Mac OS X 等 その他主要プラットフォームをサポート ライセンス形態 年間ライセンスなど E-mail による技術サポート
  16. 16. 次世代サーチ・テクノロジー・フォーラム 2010 主催:ベイシス・テクノロジー株式会社 開催日: 2010年4月22日(木) 時間: セミナー 9:30-16:30、 展示 12:00-16:30 会場: 国際文化会館 (東京 六本木) 申込: 3月中旬より以下のURLで受付開始 http://www.basistech.co.jp/forum/2010/ 参加費: 無料 協賛パートナー
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×