Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Bamboo

1,494 views

Published on

Published in: Business, Technology
  • Be the first to comment

  • Be the first to like this

Bamboo

  1. 1. Bamboo 中文分 词乱谈 Jianing Yang  <detrox (at) gmail.com>
  2. 2. 目 录     <ul><ul><li>概述 </li></ul></ul><ul><ul><li>中文分 词发展及现有方法 </li></ul></ul><ul><ul><li>Bamboo 项目 </li></ul></ul><ul><ul><li>Q & A </li></ul></ul>
  3. 3. 概述 <ul><ul><li>What ?通 过程序对汉语以词为单位进行自动切分  </li></ul></ul><ul><ul><li>Why? 搜索(索引,推荐, ... ),分析(命名 实体, ... ) </li></ul></ul><ul><ul><li>How? </li></ul></ul>
  4. 4. 发展 <ul><ul><li>切分 阶段  </li></ul></ul><ul><ul><ul><li>仅基于字典 (Trie) </li></ul></ul></ul><ul><ul><ul><ul><li>基于字典的最大正向 / 逆向匹配 ( 北航 梁南元 ) </li></ul></ul></ul></ul><ul><ul><ul><ul><li>MMSeg( 平均 长度,方差,自由度 ) </li></ul></ul></ul></ul><ul><ul><ul><li>基于 统计( Markov 假 设, Andrey Markov 1856-1922 ) </li></ul></ul></ul><ul><ul><ul><ul><li>Markov 一元 语法模型 ( 清华 郭进 ) </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Markov  n- 元 语法模型 </li></ul></ul></ul></ul><ul><ul><ul><ul><li>平滑 /Interpolation </li></ul></ul></ul></ul><ul><ul><li>构 词阶段 - 以字构词 (SIGHAN Xue, 2002) </li></ul></ul><ul><ul><ul><li>最大 熵 (Max Entropy) </li></ul></ul></ul><ul><ul><ul><li>条件随机 场 (Conditional Random Field) </li></ul></ul></ul>
  5. 5. 参考文献 <ul><ul><li>分 词 </li></ul></ul><ul><ul><ul><li>书面汉语自动分词系统 - 梁南元 </li></ul></ul></ul><ul><ul><ul><li>基于 N- 最短路径方法的中文 词语粗分模型 - 张华平,刘 群 </li></ul></ul></ul><ul><ul><ul><li>A Tutorial on Hidden Markov Models - Rekesh Dugad </li></ul></ul></ul><ul><ul><ul><li>A Maximum Entropy Approach to Natural Language Processing - Adam L. Berger </li></ul></ul></ul><ul><ul><ul><li>The Improved Iterative Scaling Algorithm: A Gentle Introduction - Adam Berger </li></ul></ul></ul><ul><ul><li>字典 </li></ul></ul><ul><ul><ul><li>An Efficient Digital Search Algorithm by Using a Double-Array Structure, JUN-ICHI AOE </li></ul></ul></ul><ul><ul><ul><li>A Trie Compaction Algorithm for a Large Set of Keys </li></ul></ul></ul><ul><ul><ul><li>Trie Structures 理 论与实践 - 罗翼 </li></ul></ul></ul><ul><ul><li>基 础算法 </li></ul></ul><ul><ul><ul><li>Introduction to Algorithms -  Thomas H. Cormen, Charles E. Leiserson, Ronald L. Rivest and Clifford Stein </li></ul></ul></ul>
  6. 6. Bamboo 项目 <ul><ul><li>历史 tcws - mws(fake n-gram) - cnlexizer - bamboo </li></ul></ul><ul><ul><li>developers - bingzhen, jianingy, wanfeng </li></ul></ul><ul><ul><li>contributors - many volunteers </li></ul></ul>
  7. 7. Bamboo 优势 <ul><ul><li>基于 CRF 精确分 词 </li></ul></ul><ul><ul><ul><li>未知 领域分词测试 </li></ul></ul></ul><ul><ul><ul><ul><li>BBS 96.7% </li></ul></ul></ul></ul><ul><ul><ul><ul><li>菜 谱 93.1% </li></ul></ul></ul></ul><ul><ul><ul><li>已知 领域分词测试 </li></ul></ul></ul><ul><ul><ul><ul><li>人民日 报 : 96.8% </li></ul></ul></ul></ul><ul><ul><ul><li>速度 : 166 kb/s </li></ul></ul></ul><ul><ul><li>基于 Unigram 快速分 词 </li></ul></ul><ul><ul><ul><li>人民日 报分词测试: 93.7%  </li></ul></ul></ul><ul><ul><ul><li>MSRA 分 词测试: 89.1% </li></ul></ul></ul><ul><ul><ul><li>速度: 832 kb/s </li></ul></ul></ul>
  8. 8. Bamboo 优势 (Cont.) <ul><ul><li>人工干 预修正 </li></ul></ul><ul><ul><ul><li>切分 </li></ul></ul></ul><ul><ul><ul><li>合并 </li></ul></ul></ul><ul><ul><li>分 词试验环境  </li></ul></ul><ul><ul><ul><li>链式结构 </li></ul></ul></ul><ul><ul><ul><li>C++ OO 设计 </li></ul></ul></ul><ul><ul><ul><li>Trie 词典支持 </li></ul></ul></ul><ul><ul><li>命名 实体识别 </li></ul></ul><ul><ul><ul><li>简单发现 </li></ul></ul></ul><ul><ul><ul><li>关系 发现 </li></ul></ul></ul>
  9. 9. Bamboo 的分 词过程 <ul><li>  </li></ul>
  10. 10. Various Interfaces of Bamboo <ul><ul><li>Already Supported </li></ul></ul><ul><ul><ul><li>C++ Object Oriented Interface </li></ul></ul></ul><ul><ul><ul><li>C  </li></ul></ul></ul><ul><ul><ul><li>PostgreSQL Procedure </li></ul></ul></ul><ul><ul><ul><li>PostgreSQL TSearch Parser </li></ul></ul></ul><ul><ul><ul><li>PHP Extension </li></ul></ul></ul><ul><ul><ul><li>Perl Extension </li></ul></ul></ul><ul><ul><li>TBA </li></ul></ul><ul><ul><ul><li>Python Extension </li></ul></ul></ul>
  11. 11. Q & A
  12. 12. Thanks

×