0
Bamboo 中文分 词乱谈 Jianing Yang  <detrox (at) gmail.com>
目 录     <ul><ul><li>概述 </li></ul></ul><ul><ul><li>中文分 词发展及现有方法 </li></ul></ul><ul><ul><li>Bamboo 项目 </li></ul></ul><ul><ul...
概述 <ul><ul><li>What ?通 过程序对汉语以词为单位进行自动切分  </li></ul></ul><ul><ul><li>Why? 搜索(索引,推荐, ... ),分析(命名 实体, ... ) </li></ul></ul><...
发展 <ul><ul><li>切分 阶段  </li></ul></ul><ul><ul><ul><li>仅基于字典 (Trie) </li></ul></ul></ul><ul><ul><ul><ul><li>基于字典的最大正向 / 逆向匹配...
参考文献 <ul><ul><li>分 词  </li></ul></ul><ul><ul><ul><li>书面汉语自动分词系统  -  梁南元 </li></ul></ul></ul><ul><ul><ul><li>基于 N- 最短路径方法的中...
Bamboo 项目 <ul><ul><li>历史  tcws - mws(fake n-gram) - cnlexizer - bamboo </li></ul></ul><ul><ul><li>developers - bingzhen, j...
Bamboo  优势 <ul><ul><li>基于 CRF 精确分 词 </li></ul></ul><ul><ul><ul><li>未知 领域分词测试 </li></ul></ul></ul><ul><ul><ul><ul><li>BBS 9...
Bamboo  优势 (Cont.) <ul><ul><li>人工干 预修正 </li></ul></ul><ul><ul><ul><li>切分 </li></ul></ul></ul><ul><ul><ul><li>合并 </li></ul>...
Bamboo 的分 词过程 <ul><li>  </li></ul>
Various Interfaces of Bamboo <ul><ul><li>Already Supported  </li></ul></ul><ul><ul><ul><li>C++ Object Oriented Interface <...
Q & A
Thanks
Upcoming SlideShare
Loading in...5
×

Bamboo

1,301

Published on

Published in: Business, Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,301
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
14
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • Transcript of "Bamboo"

    1. 1. Bamboo 中文分 词乱谈 Jianing Yang  <detrox (at) gmail.com>
    2. 2. 目 录     <ul><ul><li>概述 </li></ul></ul><ul><ul><li>中文分 词发展及现有方法 </li></ul></ul><ul><ul><li>Bamboo 项目 </li></ul></ul><ul><ul><li>Q & A </li></ul></ul>
    3. 3. 概述 <ul><ul><li>What ?通 过程序对汉语以词为单位进行自动切分  </li></ul></ul><ul><ul><li>Why? 搜索(索引,推荐, ... ),分析(命名 实体, ... ) </li></ul></ul><ul><ul><li>How? </li></ul></ul>
    4. 4. 发展 <ul><ul><li>切分 阶段  </li></ul></ul><ul><ul><ul><li>仅基于字典 (Trie) </li></ul></ul></ul><ul><ul><ul><ul><li>基于字典的最大正向 / 逆向匹配 ( 北航 梁南元 ) </li></ul></ul></ul></ul><ul><ul><ul><ul><li>MMSeg( 平均 长度,方差,自由度 ) </li></ul></ul></ul></ul><ul><ul><ul><li>基于 统计( Markov 假 设, Andrey Markov 1856-1922 ) </li></ul></ul></ul><ul><ul><ul><ul><li>Markov 一元 语法模型 ( 清华 郭进 ) </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Markov  n- 元 语法模型 </li></ul></ul></ul></ul><ul><ul><ul><ul><li>平滑 /Interpolation </li></ul></ul></ul></ul><ul><ul><li>构 词阶段 - 以字构词 (SIGHAN Xue, 2002) </li></ul></ul><ul><ul><ul><li>最大 熵 (Max Entropy) </li></ul></ul></ul><ul><ul><ul><li>条件随机 场 (Conditional Random Field) </li></ul></ul></ul>
    5. 5. 参考文献 <ul><ul><li>分 词 </li></ul></ul><ul><ul><ul><li>书面汉语自动分词系统 - 梁南元 </li></ul></ul></ul><ul><ul><ul><li>基于 N- 最短路径方法的中文 词语粗分模型 - 张华平,刘 群 </li></ul></ul></ul><ul><ul><ul><li>A Tutorial on Hidden Markov Models - Rekesh Dugad </li></ul></ul></ul><ul><ul><ul><li>A Maximum Entropy Approach to Natural Language Processing - Adam L. Berger </li></ul></ul></ul><ul><ul><ul><li>The Improved Iterative Scaling Algorithm: A Gentle Introduction - Adam Berger </li></ul></ul></ul><ul><ul><li>字典 </li></ul></ul><ul><ul><ul><li>An Efficient Digital Search Algorithm by Using a Double-Array Structure, JUN-ICHI AOE </li></ul></ul></ul><ul><ul><ul><li>A Trie Compaction Algorithm for a Large Set of Keys </li></ul></ul></ul><ul><ul><ul><li>Trie Structures 理 论与实践 - 罗翼 </li></ul></ul></ul><ul><ul><li>基 础算法 </li></ul></ul><ul><ul><ul><li>Introduction to Algorithms -  Thomas H. Cormen, Charles E. Leiserson, Ronald L. Rivest and Clifford Stein </li></ul></ul></ul>
    6. 6. Bamboo 项目 <ul><ul><li>历史 tcws - mws(fake n-gram) - cnlexizer - bamboo </li></ul></ul><ul><ul><li>developers - bingzhen, jianingy, wanfeng </li></ul></ul><ul><ul><li>contributors - many volunteers </li></ul></ul>
    7. 7. Bamboo 优势 <ul><ul><li>基于 CRF 精确分 词 </li></ul></ul><ul><ul><ul><li>未知 领域分词测试 </li></ul></ul></ul><ul><ul><ul><ul><li>BBS 96.7% </li></ul></ul></ul></ul><ul><ul><ul><ul><li>菜 谱 93.1% </li></ul></ul></ul></ul><ul><ul><ul><li>已知 领域分词测试 </li></ul></ul></ul><ul><ul><ul><ul><li>人民日 报 : 96.8% </li></ul></ul></ul></ul><ul><ul><ul><li>速度 : 166 kb/s </li></ul></ul></ul><ul><ul><li>基于 Unigram 快速分 词 </li></ul></ul><ul><ul><ul><li>人民日 报分词测试: 93.7%  </li></ul></ul></ul><ul><ul><ul><li>MSRA 分 词测试: 89.1% </li></ul></ul></ul><ul><ul><ul><li>速度: 832 kb/s </li></ul></ul></ul>
    8. 8. Bamboo 优势 (Cont.) <ul><ul><li>人工干 预修正 </li></ul></ul><ul><ul><ul><li>切分 </li></ul></ul></ul><ul><ul><ul><li>合并 </li></ul></ul></ul><ul><ul><li>分 词试验环境  </li></ul></ul><ul><ul><ul><li>链式结构 </li></ul></ul></ul><ul><ul><ul><li>C++ OO 设计 </li></ul></ul></ul><ul><ul><ul><li>Trie 词典支持 </li></ul></ul></ul><ul><ul><li>命名 实体识别 </li></ul></ul><ul><ul><ul><li>简单发现 </li></ul></ul></ul><ul><ul><ul><li>关系 发现 </li></ul></ul></ul>
    9. 9. Bamboo 的分 词过程 <ul><li>  </li></ul>
    10. 10. Various Interfaces of Bamboo <ul><ul><li>Already Supported </li></ul></ul><ul><ul><ul><li>C++ Object Oriented Interface </li></ul></ul></ul><ul><ul><ul><li>C  </li></ul></ul></ul><ul><ul><ul><li>PostgreSQL Procedure </li></ul></ul></ul><ul><ul><ul><li>PostgreSQL TSearch Parser </li></ul></ul></ul><ul><ul><ul><li>PHP Extension </li></ul></ul></ul><ul><ul><ul><li>Perl Extension </li></ul></ul></ul><ul><ul><li>TBA </li></ul></ul><ul><ul><ul><li>Python Extension </li></ul></ul></ul>
    11. 11. Q & A
    12. 12. Thanks
    1. A particular slide catching your eye?

      Clipping is a handy way to collect important slides you want to go back to later.

    ×