• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー
 

Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー

on

  • 3,426 views

Lucene/Solr 用形態素解析システムのご紹介

Lucene/Solr 用形態素解析システムのご紹介
ベイシス・テクノロジー株式会社
シニア・ソフトウエア・エンジニア
平賀一昭

Statistics

Views

Total Views
3,426
Views on SlideShare
3,407
Embed Views
19

Actions

Likes
4
Downloads
13
Comments
0

1 Embed 19

http://www.slideshare.net 19

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー Presentation Transcript

    • Solr/Lucene 向け自然言語処理製品のご紹介 シニア・ソフトウェア・エンジニア 平賀 一昭 ベイシス・テクノロジー株式会社 www.basistech.jp
    • Basis Technology 概要 Basis Technology Corporation Carl Hoffman, CEO 以下MIT出身者を中心に、 1995年に設立 ベイシス・テクノロジー株式会社 2000年に、初の米国外オフィスとして設立
    • カスタマー この他にも、多くの検索エンジン、政府、軍/情報機関などで利用されてい ます。特にここ数年は、商用エンジンから、Solr/Lucene への移行とあわ せ、弊社自然言語処理プラットフォームの採用が増えています。
    • Rosette® 言語処理プラットフォーム 010.03.12 H21年度 科研「情報爆発IT基盤」プロジェ クトシンポジウムを東京大学本郷キャンパス工学部 新2号館1F213大講義室にて開催致します。本シンポ ジウムは、IPSJ50周年記念全国大会と連動、「ITコ リドー」3月6日(土)~3月12日(金)として連続開催致 Web などの非構造化データ、ある します。 事前にWebページより参加登録をお願いします(参加 いは、JDBC経由でフィードされる 登録受付中)。 2009.11.24 2009.11.02 科研「情報爆発IT基盤」 データなど 評価助言委員会委員長の米澤明憲先生(東京大学情報 理工学系研究科教授・情報基盤センター長)が平成21 年秋の紫綬褒章を受章されました(11月16日伝達式)。
    • Rosette® 言語処理プラットフォーム 010.03.12 H21年度 科研「情報爆発IT基盤」プロジェ クトシンポジウムを東京大学本郷キャンパス工学部 新2号館1F213大講義室にて開催致します。本シンポ ジウムは、IPSJ50周年記念全国大会と連動、「ITコ リドー」3月6日(土)~3月12日(金)として連続開催致 します。 事前にWebページより参加登録をお願いします(参加 登録受付中)。 2009.11.24 2009.11.02 科研「情報爆発IT基盤」 評価助言委員会委員長の米澤明憲先生(東京大学情報 構造化データ 理工学系研究科教授・情報基盤センター長)が平成21 年秋の紫綬褒章を受章されました(11月16日伝達式)。
    • Rosette® 言語処理プラットフォーム API Rosette® Rosette® Rosette® Rosette® ユーザ個々の 言語判別 Unicode対応 形態素解析 固有表現抽出 アプリケーショ ン システム ライブラリ システム システム
    • Rosette® 言語・文字コード判別システム (RLI) 「言語」と「文字コード」を判別します 世界の55言語・39種類の文字コードを判別 日本語、中国語、朝鮮語、英語、ドイツ語、フランス語、ロシア語 等 平均判別精度 : 99.45% 日本語 JIS : 100% 朝鮮語 EUC-KR : 100% 中国語 GB-2312 : 100% ※約1KBのデータを利用したテスト結果
    • Rosette® 言語・文字コード判別システム (RLI) 対応する言語・文字コード 対応言語数: 55 対応文字コード数: 39
    • Rosette® ユニコード対応ライブラリ (RCLU) Unicode と外部文字コードの相互変換を行います 文字コード変換 170種類以上の文字コードに対応 Shift-JIS ⇔ Unicode GB18030 ⇔ Unicode テキスト正規化 大文字 ⇔ 小文字 Unicode TEXT ⇔ unicode text 半角 ⇔ 全角 ABCカンパニー ⇔ ABCカンパニー ひらがな ⇔ カタカナ
    • Rosette® 形態素解析システム (RBL) : 日本語版の特徴 自然文の入力を形態素へ分割します 分かち書き(テキストを単語に分割) 独自開発の解析アルゴリズム 50万語の形態素解析辞書を標準搭載し、6ヶ月ごとにアップデート 品詞出力、名詞句抽出 ユーザー定義辞書 複数の辞書が使用可能 ストップワード判別 「された」「の」、「は」、「か」などの不要語を認識 カスタマイズ可 「読み」の出力
    • Rosette® 形態素解析システム (RBL) : 日本語版の特徴 (cont.) カタカナ表記ゆれ対応 (約 9,000 語) ダンスセラピー ← ダンスセラピ/ダンステラピー ファミコン ← ファミリーコンピュータ/ファミリーコンピューター ベネチア ← ベニス/ベネツィア/ヴェネチア/ヴェネツィア 漢字の旧字体サポート (約 89,000 語) 渡辺 ← 渡邊 大学 ← 大學 高島 ← 髙島 類義語対応 (ユーザー辞書により対応可能) Honda ← ホンダ、本田技研工業
    • Rosette® 形態素解析システム (RBL) : 主要言語対応状況 単語分割 ステミング 複合語分解 品詞解析 文尾検出 名詞句抽出 読み (基本化) 日本語 ○ ○ ○ ○ ○ ○ ○ 朝鮮語 ○ ○ ○ ○ ○ ○ N 中国語 ○ ○ ○ ○ ○ (簡・繁) n/a n/a 英語 ○ ○ n/a ○ ○ ○ n/a アラビア語 ○ ○ n/a ○ ○ ○ ○ ロシア語 ○ ○ n/a ○ ○ N N フランス語 ○ ○ n/a ○ ○ ○ n/a イタリア語 ○ ○ n/a ○ ○ ○ n/a ドイツ語 ○ ○ ○ ○ ○ ○ n/a スペイン語 ○ ○ n/a ○ ○ ○ n/a ポルトガル語、オランダ語、ギリシャ語、ハンガリー語、ポーランド語、チェコ語、近代ペルシア語、ウルドゥ語にも 対応しています。 N - 未対応、n/a - この言語には該当せず
    • Rosette® 固有表現抽出システム (REX) 固有表現(Named Entity)を抽出します 固有名詞 抽出すべき語の「文脈パターン」を事前学習 人名、地名、組織名、施設名、国籍、役職等を識別 特定パターンの語句 与えられた正規表現と一致するパターンの文字列 日時、電話番号、URL、製品型番など ユーザー定義可能 用語辞書(ガゼティア) ユーザーが指定した語句との一致
    • Rosette® 固有表現抽出システム (REX) : 主要言語対応状況 人名 組織名 場所 都市名 施設 役職 日本語 ○ ○ ○ ○ ○ ○ 朝鮮語 ○ ○ ○ ○ ○ ○ 中国語 ○ ○ ○ ○ ○ ○ (簡・繁) 英語 ○ ○ ○ ○ ○ ○ アラビア語 ○ ○ ○ ○ ○ ○ ロシア語 ○ ○ ○ ○ ○ ○ フランス語 ○ ○ ○ X X ○ イタリア語 ○ ○ ○ X X ○ ドイツ語 ○ ○ ○ X X ○ スペイン語 ○ ○ ○ X X ○ 上記言語以外に、オランダ語、ポルトガル語、ウルドゥ語、近代ペルシア語をサポートしています。
    • Rosette® 言語処理プラットフォーム : 提供形態 SDK による提供 シンプルなAPIのライブラリ 各国言語共通のAPI C++, C, C#, Java アプリケーションから利用可 Solr/Lucene向けパッケージには、Analyzer/Factory ソースコードが付属 サポートプラットフォーム Windows, Linux, Solaris, Mac OS X 等 その他主要プラットフォームをサポート ライセンス形態 年間ライセンスなど E-mail による技術サポート
    • 次世代サーチ・テクノロジー・フォーラム 2010 主催:ベイシス・テクノロジー株式会社 開催日: 2010年4月22日(木) 時間: セミナー 9:30-16:30、 展示 12:00-16:30 会場: 国際文化会館 (東京 六本木) 申込: 3月中旬より以下のURLで受付開始 http://www.basistech.co.jp/forum/2010/ 参加費: 無料 協賛パートナー