Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

of

Wikidata 新手編輯工具箱 Slide 1 Wikidata 新手編輯工具箱 Slide 2 Wikidata 新手編輯工具箱 Slide 3 Wikidata 新手編輯工具箱 Slide 4 Wikidata 新手編輯工具箱 Slide 5 Wikidata 新手編輯工具箱 Slide 6 Wikidata 新手編輯工具箱 Slide 7 Wikidata 新手編輯工具箱 Slide 8 Wikidata 新手編輯工具箱 Slide 9 Wikidata 新手編輯工具箱 Slide 10 Wikidata 新手編輯工具箱 Slide 11 Wikidata 新手編輯工具箱 Slide 12 Wikidata 新手編輯工具箱 Slide 13 Wikidata 新手編輯工具箱 Slide 14 Wikidata 新手編輯工具箱 Slide 15 Wikidata 新手編輯工具箱 Slide 16 Wikidata 新手編輯工具箱 Slide 17 Wikidata 新手編輯工具箱 Slide 18 Wikidata 新手編輯工具箱 Slide 19 Wikidata 新手編輯工具箱 Slide 20 Wikidata 新手編輯工具箱 Slide 21 Wikidata 新手編輯工具箱 Slide 22 Wikidata 新手編輯工具箱 Slide 23 Wikidata 新手編輯工具箱 Slide 24 Wikidata 新手編輯工具箱 Slide 25 Wikidata 新手編輯工具箱 Slide 26 Wikidata 新手編輯工具箱 Slide 27 Wikidata 新手編輯工具箱 Slide 28 Wikidata 新手編輯工具箱 Slide 29 Wikidata 新手編輯工具箱 Slide 30 Wikidata 新手編輯工具箱 Slide 31 Wikidata 新手編輯工具箱 Slide 32 Wikidata 新手編輯工具箱 Slide 33 Wikidata 新手編輯工具箱 Slide 34 Wikidata 新手編輯工具箱 Slide 35 Wikidata 新手編輯工具箱 Slide 36 Wikidata 新手編輯工具箱 Slide 37 Wikidata 新手編輯工具箱 Slide 38
Upcoming SlideShare
What to Upload to SlideShare
Next
Download to read offline and view in fullscreen.

0 Likes

Share

Download to read offline

Wikidata 新手編輯工具箱

Download to read offline

Wikidata 新手編輯工具箱

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all
  • Be the first to like this

Wikidata 新手編輯工具箱

  1. 1. Wikidata新手編輯工具箱 COSCUP2019 [[User:Planetoid]] 簡報Markdown版連結:http://bit.ly/2YIKuji
  2. 2. 大綱 為什麼要編輯 工具箱QuickStatements介紹 新增與編輯 資料處理 Wikidata資料類型 CSV匯入範例 匯入格式 資料探索:常見屬性、上位分類 新手技術問題排除
  3. 3. 為什麼要編輯 3
  4. 4. 1.搜尋引擎輸入:林志玲 4
  5. 5. 2.搜尋引擎輸入:distancebetweenTaipeiandKaohsiung 5
  6. 6. 3.搜尋引擎輸入:... 6
  7. 7. 應用之一:問答系統 傳統資訊檢索會使用到的資料外(如字典) 使用本體論等語義資料 利用網頁來增加資料的豐富性。(source:維基百科) 7
  8. 8. 本體論 「對特定領域之中某套概念及其相互之間關係的形式化表達 (formalrepresentation)」 source:本體(資訊科學)‑Wikipedia 8
  9. 9. 工具箱QuickStatements介紹 使用試算表軟體增加或刪除Wikidata資料,並且可以批次處理 陳述 TAB按鍵間隔欄位值(試算表選擇區域後複製貼上) 逗號間隔欄位值(文字編輯或試算表軟體另存CSV檔案) 9
  10. 10. 新增與編輯property WikidataQueryService查詢台灣古蹟(Q63183471)條目 SELECT ?item ?itemLabel ?itemDescription  WHERE   {    ?item wdt:P31 wd:Q63183471.    SERVICE wikibase:label {       bd:serviceParam wikibase:language "zh,en".     }  }  10
  11. 11. 補上缺少中文描述的條目 講個秘訣:語言顯示順序 language "zh,en" 當查詢結果顯示英文 ( en )描述,代表缺少中文( zh )描述 11
  12. 12. 語言代碼 範例 感謝示範:唐納·川普‑Wikidata 12
  13. 13. 語言代碼清單 語言代碼 名稱 en 英文 hak 客家話 zh 中文 zh‑tw 中文(台灣) zh‑hant 中文(繁體) zh‑classicallzh 文言 zh‑yue 粵語 參考出處:Help:Wikimedialanguagecodes/lists/all‑Wikidata 13
  14. 14. 資料處理 * 目的:找到描述欄位只有英文、沒有中文,再補上中文描述  * 使用:正規表示式 (使用單一字串描述、或尋找一系列符合某個句法規則的    字串。)  14
  15. 15. 正規表示式規則說明 [ ] 指定的範圍,例如 [a‑z] 尋找符合a‑z範圍間的字串 + 代表出現一次或多次,例如 a+ 尋找a出現一次或多次的字 串 現有資料有大小寫英文、空白、逗號。改寫規則 [a‑zA‑Zs,]+ 圖出處:https://regexper.com教學:動動手來學RegularExpression 正規表達式 15
  16. 16. 進行資料處理 資料處理:使用LibreOfficeCalc試算表軟體的REGEX函數,支 援的ListofRegularExpressions =REGEX(C2, "[a‑zA‑Zs,]+") 如果C2儲存格包含英文、空 格、逗號,則回傳符合字串,若無則回傳 #N/A =REGEX(C2, "[[^u0000‑u0080]+]+") 如果C2儲存格包含 中文,則回傳符合字串,若無則回傳 #N/A 不能用 =REGEX(C2, "[[:alnum:]s,]+") 如果C2儲存格包 含文數字,則回傳符合字串,若無則回傳 #N/A 如果要用GoogleSheet可以使用REGEXMATCH函數 =REGEXMATCH(C2, "([^x00‑x80]+)") 如果C2儲存格包含 中文,則回傳 TRUE ,若無則回傳 FALSE 參考維基百科補上敘述e.g.紅毛城‑维基百科,自由的百科全 书 16
  17. 17. Wikidata資料類型 陳述 ( statement )需要包含 entity , property & value entity property value 金城武(Q310252) 職業(P106) 演員(Q33999)... entity 可以是item(項目),aproperty,alexeme(詞位),aform (詞形),orasense(含意)。為避免混淆金城武、土城金城武、淡 水金城武。Wikidata不使用名稱,而是Q開頭的識別碼,例如 金城武(Q310252)對應到「台裔日本演員」 property(屬性)可解釋為資料的類別,例如金的職業是演員、歌 手等,其中的職業是一種property:職業(P106) value 可以是 entity ,astring,atime,alocationcoordinate,ora quantity例如演員(Q33999)是另一項entity/item 17
  18. 18. CSV匯入範例 可參考QuickStatements文件提供的範例 qid,Dzh  Q713077,位於台灣新北市淡水區的古蹟  Q5875008,位於今台灣新北市淡水區,為建造於1886年的火炮砲台,佔地約8公頃 Q10898933,為清朝淡水關稅務司的官邸,別稱小白宮,建於1870年,位於新北市淡水 Q10911383,台灣臺北市直轄市定古蹟  18
  19. 19. 匯入格式 P1234 設定該條目的 property 語法: entity TAB property TAB value 範例: Q10911383 TAB P1435 TAB Q63183513 代表將原臺灣軍司 令部(Q10911383)的 property 遺產定位(P1435)設定是 直轄市定古蹟(Q63183513) 19
  20. 20. 設定 標籤 、 描述 、 亦稱為 、 資料來源 、 sitelinks Len 設定指定語言代碼的 Label ( 標籤 ) 語法: entity TAB property TAB value 範例: Q10911383 TAB Lzh‑tw TAB "原臺灣軍司令部" 代表將「原 臺灣軍司令部(Q10911383)」的 中文(台灣) ( zh‑tw )語言 代碼的 標籤 設定是「原臺灣軍司令部」 20
  21. 21. Dfr 設定指定語言代碼的 Description ( 描述 ) 語法: entity TAB property TAB value 範例: Q713077 TAB Dzh‑tw TAB "位於台灣新北市淡水區的古蹟" 代 表將「紅毛城(Q713077)」的 中文(台灣) ( zh‑tw )語言代 碼的 描述 設定是「位於台灣新北市淡水區的古蹟」 21
  22. 22. Ade 設定指定語言代碼的 Alias ( 亦稱為 ) 語法: entity TAB property TAB value 範例: Q10911383 TAB Azh‑tw TAB "原台灣軍司令部" 代表將「原 臺灣軍司令部(Q10911383)」的 中文(台灣) ( zh‑tw )語言 代碼的 亦稱為 設定是「原台灣軍司令部」 22
  23. 23. Senwiki 設定站內連結 語法: entity TAB property TAB value 範例: Q10911383 TAB Szhwiki TAB "原臺灣軍司令部" 將原臺灣 軍司令部(Q10911383)連結到中文維基頁面「原臺灣軍司令 部」 siteid 語言 enwiki 英文Wikipedia zhwiki 中文维基百科 zh‑yuewiki 粵文維基百科 zh_min_nanwiki 閩南語Wikipedia,chū‑iûêpek‑kho‑choân‑su classicalwiki 文言維基大典 hakwiki 客家話維基百科-自由个百科全書 23
  24. 24. S1234 設定目前輸入陳述的資料來源是 P1234 ,但是不需要加上 P 語法: entity TAB property1 TAB value1 TAB property2 TAB value2 範例: Q10911383 TAB P625 TAB "25°2'14"N, 121°30'38"E" TAB S143 TAB Q30239 將「原臺灣軍司令部(Q10911383)」的地 理座標(P625)的資料來源設定是匯入自(P143)中文維基 百科(Q30239) 24
  25. 25. 陳述 加上 限定詞 ( qualifier ) 語法:每個 陳述 的 entity TAB property TAB value 後面可以加 上無限次的 property 與 value 雙人組合 使用時機: 事件起始與結束時間,例巴黎聖母院大火始於(P580) 2019/4/15、終於(P582)2019/4/16 出生日期(P569)與死亡日期(P570) 加上 value 的資料來源等 文件說明:Help:Qualifiers‑Wikidata 25
  26. 26. 開放街圖OSM屬性 OSM關係識別碼(P402):「地方或物件在開放街圖上的關係ID 編號」例如: 中華民國(Q865)的OSM關係識別碼:449220、 臺北市(Q1867)的OSM關係識別碼:1293250 26
  27. 27. 實際操作 連往QuickStatements 登入wikimedia專案帳號 點選 New Batch 按鈕 輸入一行或多行指令 點選 Import V1 commands 或 Import CSV commands 負責任地預覽匯入結果 確認執行結果,出錯時恢復上一步驟 27
  28. 28. 資料探索 資料探索1:該用什麼property 列出古蹟(Q1081138)使用的property(link) 相關資料:Wikidata:Listofproperties/art‑Wikidata、藝術相關維基數 據屬性(Q27918607) SELECT ?property ?propertyLabel (COUNT(?property) AS ?count) WHERE {   ?item wdt:P31 wd:Q1081138 .    ?item ?property ?value .    SERVICE wikibase:label {       bd:serviceParam wikibase:language "zh"     }  }    GROUP BY ?property ?propertyLabel  ORDER BY DESC(?count)  28
  29. 29. cont.排序property出現次數 29
  30. 30. 資料處理 如果原網址 http://www.wikidata.org/entity/P10 修改成 https://www.wikidata.org/wiki/Property:P10 否則會無法抓到 標題,出現 #N/A 錯誤 為避免重複,只篩選網址是 http://www.wikidata.org/prop/P 開頭 使用GooglesheetIMPORTXML函數 =IMPORTXML(C2, "//title") 自動抓取 C2 儲存格內網址的標題 預設會抓到英文標題,顯示中文標題的方式是網址後加上 ? uselang=zh‑tw example 30
  31. 31. 待續 古蹟(Q1081138)&古蹟(Q63183471)「根據中華民國法 律《文化資產保存法》指定的古蹟」常用 property 差異 區分不同政治實體的常用 property 差異,例如中華民國河流 WikidataQueryv.s.中華人民共和國河流WikidataQuery 31
  32. 32. 資料探索2:上級分類 Musicgenres https://w.wiki/6zj #graph rendering could be slow due to large number of results    #defaultView:Graph  SELECT ?item ?itemLabel     ?_image     ?_subclass_of ?_subclass_ofLabel  WHERE {    ?item wdt:P31 wd:Q188451;          wdt:P279 ?_subclass_of.    SERVICE wikibase:label {       bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en".    }    OPTIONAL { ?item wdt:P18 ?_image. }  }  32
  33. 33. 列出上級分類 33
  34. 34. 新手技術問題排除 QuickStatements匯入遇到Novalidcommandfound 34
  35. 35. 解決方式:(1)如果是選擇「ImportV1commands」文字欄位值前後需 要加上雙引號,要額外注意entity與property不需要加上雙引號 格式: entity TAB property TAB "value" 錯誤寫法 Q16929085  Dzh  位於台灣新北市市定古蹟  需要修改成 Q16929085  Dzh  "位於台灣新北市市定古蹟"  LibreOfficeCalc或Excel可以使用函數,在儲存格前後加上雙引號 ="""" & C1 & """" 是的!重複四次雙引號!  或  =CHAR(34) & C1 & CHAR(34)  35
  36. 36. (2)如果是選擇「ImportCSVcommands」檢查匯入內容的格式 QuickStatements文件提供的範例 qid,Len,Den,Aen,P31,‑P31,P21,P735,qal1545,S248,s214,S143,Senwiki Q42,Douglas Adams,author,Douglas Noël Adams,Q5,Q36180,Q6581097,Q 36
  37. 37. 其他工具 Googlesheet外掛工具WikipediaandWikidataTools example 37
  38. 38. 參考資料 SPARQL‑维基百科,自由的百科全书 Help:QuickStatements‑Wikidata QuickStatementsCSVfilesyntax 中文條目的propertiesWikidata:Databasereports/Listof properties/all/zh‑Wikidata Wikidata:WikiProjectHistoricalPlace‑Wikidata 維基數據沙盒‑Wikidata提供測試功能,請溫柔地對待它 38

Wikidata 新手編輯工具箱

Views

Total views

232

On Slideshare

0

From embeds

0

Number of embeds

12

Actions

Downloads

2

Shares

0

Comments

0

Likes

0

×