• Like
  • Save
Bamboo
Upcoming SlideShare
Loading in...5
×
 

Bamboo

on

  • 1,916 views

 

Statistics

Views

Total Views
1,916
Views on SlideShare
1,912
Embed Views
4

Actions

Likes
0
Downloads
12
Comments
0

1 Embed 4

http://www.slideshare.net 4

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Bamboo Bamboo Presentation Transcript

  • Bamboo 中文分 词乱谈 Jianing Yang  <detrox (at) gmail.com>
  • 目 录    
      • 概述
      • 中文分 词发展及现有方法
      • Bamboo 项目
      • Q & A
  • 概述
      • What ?通 过程序对汉语以词为单位进行自动切分 
      • Why? 搜索(索引,推荐, ... ),分析(命名 实体, ... )
      • How?
  • 发展
      • 切分 阶段 
        • 仅基于字典 (Trie)
          • 基于字典的最大正向 / 逆向匹配 ( 北航 梁南元 )
          • MMSeg( 平均 长度,方差,自由度 )
        • 基于 统计( Markov 假 设, Andrey Markov 1856-1922 )
          • Markov 一元 语法模型 ( 清华 郭进 )
          • Markov  n- 元 语法模型
          • 平滑 /Interpolation
      • 构 词阶段 - 以字构词 (SIGHAN Xue, 2002)
        • 最大 熵 (Max Entropy)
        • 条件随机 场 (Conditional Random Field)
  • 参考文献
      • 分 词
        • 书面汉语自动分词系统 - 梁南元
        • 基于 N- 最短路径方法的中文 词语粗分模型 - 张华平,刘 群
        • A Tutorial on Hidden Markov Models - Rekesh Dugad
        • A Maximum Entropy Approach to Natural Language Processing - Adam L. Berger
        • The Improved Iterative Scaling Algorithm: A Gentle Introduction - Adam Berger
      • 字典
        • An Efficient Digital Search Algorithm by Using a Double-Array Structure, JUN-ICHI AOE
        • A Trie Compaction Algorithm for a Large Set of Keys
        • Trie Structures 理 论与实践 - 罗翼
      • 基 础算法
        • Introduction to Algorithms -  Thomas H. Cormen, Charles E. Leiserson, Ronald L. Rivest and Clifford Stein
  • Bamboo 项目
      • 历史 tcws - mws(fake n-gram) - cnlexizer - bamboo
      • developers - bingzhen, jianingy, wanfeng
      • contributors - many volunteers
  • Bamboo 优势
      • 基于 CRF 精确分 词
        • 未知 领域分词测试
          • BBS 96.7%
          • 菜 谱 93.1%
        • 已知 领域分词测试
          • 人民日 报 : 96.8%
        • 速度 : 166 kb/s
      • 基于 Unigram 快速分 词
        • 人民日 报分词测试: 93.7% 
        • MSRA 分 词测试: 89.1%
        • 速度: 832 kb/s
  • Bamboo 优势 (Cont.)
      • 人工干 预修正
        • 切分
        • 合并
      • 分 词试验环境 
        • 链式结构
        • C++ OO 设计
        • Trie 词典支持
      • 命名 实体识别
        • 简单发现
        • 关系 发现
  • Bamboo 的分 词过程
    •  
  • Various Interfaces of Bamboo
      • Already Supported
        • C++ Object Oriented Interface
        • PostgreSQL Procedure
        • PostgreSQL TSearch Parser
        • PHP Extension
        • Perl Extension
      • TBA
        • Python Extension
  • Q & A
  • Thanks