Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
CAS Open API Chloris Kuo Y! Search Asia 2009/10/17
CAS? C ontent  A nalysis  S ervice
成語新解 <ul><li>斷章取義 : </li></ul><ul><li>對一篇文   進行   詞,然後   出符合本文主要意   的關鍵字 </li></ul>斷 章 取 義
CAS Open API <ul><li>Functionality </li></ul><ul><ul><li>Word Segmentation (WS) </li></ul></ul><ul><ul><ul><li>POS tagging...
Word Segmentation - Concept <ul><li>Word </li></ul><ul><ul><li>A minimal-form meaning pair </li></ul></ul><ul><li>Word Seg...
Challenges <ul><li>Ambiguity </li></ul><ul><ul><li>下雨天留客天天留我不留 </li></ul></ul><ul><ul><li>不要把大便當飯吃 </li></ul></ul><ul><li>...
Methodology <ul><li>Lexical rule-based </li></ul><ul><ul><li>Maximum Matching </li></ul></ul><ul><li>Grammar-based </li></...
Keyword Extraction <ul><li>Extract keywords representing the concept of a given context. </li></ul><ul><li>Dictionary-base...
tf-idf <ul><li>A measurement widely used in text mining and information retrieval </li></ul><ul><li>tf (term frequency) </...
tf-idf  (cont.)
tf-idf  (cont.) <ul><li>飛呀!飛呀!小飛俠! 在那天空邊緣拚命的飛翔 看看他多麼勇敢多麼堅強 為了正義他要消滅敵人 為了公理他要奮鬥到底 飛呀!飛呀!飛呀!小飛俠! 衝呀!衝呀!衝呀!小飛俠! 我愛科學小飛俠 我愛科學小...
tf-idf  (cont.) <ul><li>飛 ∕ 呀 ∕ 飛 ∕ 呀 ∕ 小飛俠 在 ∕ 那 ∕ 天空 ∕ 邊緣 ∕ 拚命 ∕ 的 ∕ 飛翔 看看 ∕ 他 ∕ 多麼 ∕ 勇敢 ∕ 多麼 ∕ 堅強 為了 ∕ 正義 ∕ 他 ∕ 要 ∕ 消滅 ...
Applications: Dynamic Content Match
Applications: Yahoo! Knowledge Plus
Applications: Yahoo! Sports
Applications: Related Search for Yahoo! News
Applications: Atlaspost
Resources <ul><li>CAS API Doc </li></ul><ul><ul><li>http://tw.developer.yahoo.com/cas/ </li></ul></ul><ul><li>Sample Code ...
Upcoming SlideShare
Loading in …5
×

Cas Open Api 2009 Hack Day

1,173 views

Published on

Chloris 主講的 斷章取義, 目前活用在 yahoo 的ad , 跟知識家 等等

  • Be the first to comment

  • Be the first to like this

Cas Open Api 2009 Hack Day

  1. 1. CAS Open API Chloris Kuo Y! Search Asia 2009/10/17
  2. 2. CAS? C ontent A nalysis S ervice
  3. 3. 成語新解 <ul><li>斷章取義 : </li></ul><ul><li>對一篇文 進行 詞,然後 出符合本文主要意 的關鍵字 </li></ul>斷 章 取 義
  4. 4. CAS Open API <ul><li>Functionality </li></ul><ul><ul><li>Word Segmentation (WS) </li></ul></ul><ul><ul><ul><li>POS tagging </li></ul></ul></ul><ul><ul><ul><li>Language detection </li></ul></ul></ul><ul><ul><li>Keyword Extraction (KE) </li></ul></ul>
  5. 5. Word Segmentation - Concept <ul><li>Word </li></ul><ul><ul><li>A minimal-form meaning pair </li></ul></ul><ul><li>Word Segmentation </li></ul><ul><ul><li>王建民首場熱身賽預定下星期二在客場出戰太空人隊 </li></ul></ul><ul><li>Part-of-Speech (POS) </li></ul><ul><ul><li>Noun, Verb, Adjective, etc. </li></ul></ul>王建民 ∕ 首場 ∕ 熱身賽 ∕ 預定 ∕ 下 ∕ 星期二 ∕ 在 ∕ 客場 ∕ 出戰 ∕ 太空人隊
  6. 6. Challenges <ul><li>Ambiguity </li></ul><ul><ul><li>下雨天留客天天留我不留 </li></ul></ul><ul><ul><li>不要把大便當飯吃 </li></ul></ul><ul><li>Unknown Word </li></ul><ul><ul><li>named entity (ex. 丁丁 ) </li></ul></ul><ul><ul><li>acronym (ex. 貓纜 ) </li></ul></ul><ul><ul><li>derivation (ex. 數位化 ) </li></ul></ul><ul><ul><li>compound (ex. 台北火車站 ) </li></ul></ul>
  7. 7. Methodology <ul><li>Lexical rule-based </li></ul><ul><ul><li>Maximum Matching </li></ul></ul><ul><li>Grammar-based </li></ul><ul><li>Learning-based </li></ul><ul><ul><li>HMM </li></ul></ul>
  8. 8. Keyword Extraction <ul><li>Extract keywords representing the concept of a given context. </li></ul><ul><li>Dictionary-based and statistical method </li></ul>
  9. 9. tf-idf <ul><li>A measurement widely used in text mining and information retrieval </li></ul><ul><li>tf (term frequency) </li></ul><ul><ul><li>The frequency of a specific term appears in a given context </li></ul></ul><ul><li>idf (inverse document frequency) </li></ul><ul><ul><li>The general importance of a specific term </li></ul></ul>
  10. 10. tf-idf (cont.)
  11. 11. tf-idf (cont.) <ul><li>飛呀!飛呀!小飛俠! 在那天空邊緣拚命的飛翔 看看他多麼勇敢多麼堅強 為了正義他要消滅敵人 為了公理他要奮鬥到底 飛呀!飛呀!飛呀!小飛俠! 衝呀!衝呀!衝呀!小飛俠! 我愛科學小飛俠 我愛科學小飛俠 多勇敢呀!小飛俠! </li></ul>
  12. 12. tf-idf (cont.) <ul><li>飛 ∕ 呀 ∕ 飛 ∕ 呀 ∕ 小飛俠 在 ∕ 那 ∕ 天空 ∕ 邊緣 ∕ 拚命 ∕ 的 ∕ 飛翔 看看 ∕ 他 ∕ 多麼 ∕ 勇敢 ∕ 多麼 ∕ 堅強 為了 ∕ 正義 ∕ 他 ∕ 要 ∕ 消滅 ∕ 敵人 為了 ∕ 公理 ∕ 他 ∕ 要 ∕ 奮鬥 ∕ 到底 飛 ∕ 呀 ∕ 飛 ∕ 呀 ∕ 飛 ∕ 呀 ∕ 小飛俠 衝 ∕ 呀 ∕ 衝 ∕ 呀 ∕ 衝 ∕ 呀 ∕ 小飛俠 我 ∕ 愛 ∕ 科學 ∕ 小飛俠 我 ∕ 愛 ∕ 科學 ∕ 小飛俠 多 ∕ 勇敢 ∕ 呀 ∕ 小飛俠 </li></ul>tf idf tf*idf (10 -6 ) 呀 9 1/8394663 1.07 公理 1 1/110369 9.06 小飛俠 6 1/151774 39.53
  13. 13. Applications: Dynamic Content Match
  14. 14. Applications: Yahoo! Knowledge Plus
  15. 15. Applications: Yahoo! Sports
  16. 16. Applications: Related Search for Yahoo! News
  17. 17. Applications: Atlaspost
  18. 18. Resources <ul><li>CAS API Doc </li></ul><ul><ul><li>http://tw.developer.yahoo.com/cas/ </li></ul></ul><ul><li>Sample Code </li></ul><ul><ul><li>PHP </li></ul></ul><ul><ul><ul><li>http://program.faryne.tw/2009/02/yahoo-apiphp.html </li></ul></ul></ul><ul><ul><li>Ruby </li></ul></ul><ul><ul><ul><li>http://blog.xdite.net/?p=971 </li></ul></ul></ul><ul><ul><li>Java </li></ul></ul><ul><ul><ul><li>http://blog.cheyingwu.tw/index.php/2009/02/27/ckip-client-03/ </li></ul></ul></ul>

×