Successfully reported this slideshow.
Your SlideShare is downloading. ×

Wikidata 新手編輯工具箱

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
RDA & Future of MARC
RDA & Future of MARC
Loading in …3
×

Check these out next

1 of 38 Ad
Advertisement

More Related Content

Advertisement

Wikidata 新手編輯工具箱

  1. 1. Wikidata新手編輯工具箱 COSCUP2019 [[User:Planetoid]] 簡報Markdown版連結:http://bit.ly/2YIKuji
  2. 2. 大綱 為什麼要編輯 工具箱QuickStatements介紹 新增與編輯 資料處理 Wikidata資料類型 CSV匯入範例 匯入格式 資料探索:常見屬性、上位分類 新手技術問題排除
  3. 3. 為什麼要編輯 3
  4. 4. 1.搜尋引擎輸入:林志玲 4
  5. 5. 2.搜尋引擎輸入:distancebetweenTaipeiandKaohsiung 5
  6. 6. 3.搜尋引擎輸入:... 6
  7. 7. 應用之一:問答系統 傳統資訊檢索會使用到的資料外(如字典) 使用本體論等語義資料 利用網頁來增加資料的豐富性。(source:維基百科) 7
  8. 8. 本體論 「對特定領域之中某套概念及其相互之間關係的形式化表達 (formalrepresentation)」 source:本體(資訊科學)‑Wikipedia 8
  9. 9. 工具箱QuickStatements介紹 使用試算表軟體增加或刪除Wikidata資料,並且可以批次處理 陳述 TAB按鍵間隔欄位值(試算表選擇區域後複製貼上) 逗號間隔欄位值(文字編輯或試算表軟體另存CSV檔案) 9
  10. 10. 新增與編輯property WikidataQueryService查詢台灣古蹟(Q63183471)條目 SELECT ?item ?itemLabel ?itemDescription  WHERE   {    ?item wdt:P31 wd:Q63183471.    SERVICE wikibase:label {       bd:serviceParam wikibase:language "zh,en".     }  }  10
  11. 11. 補上缺少中文描述的條目 講個秘訣:語言顯示順序 language "zh,en" 當查詢結果顯示英文 ( en )描述,代表缺少中文( zh )描述 11
  12. 12. 語言代碼 範例 感謝示範:唐納·川普‑Wikidata 12
  13. 13. 語言代碼清單 語言代碼 名稱 en 英文 hak 客家話 zh 中文 zh‑tw 中文(台灣) zh‑hant 中文(繁體) zh‑classicallzh 文言 zh‑yue 粵語 參考出處:Help:Wikimedialanguagecodes/lists/all‑Wikidata 13
  14. 14. 資料處理 * 目的:找到描述欄位只有英文、沒有中文,再補上中文描述  * 使用:正規表示式 (使用單一字串描述、或尋找一系列符合某個句法規則的    字串。)  14
  15. 15. 正規表示式規則說明 [ ] 指定的範圍,例如 [a‑z] 尋找符合a‑z範圍間的字串 + 代表出現一次或多次,例如 a+ 尋找a出現一次或多次的字 串 現有資料有大小寫英文、空白、逗號。改寫規則 [a‑zA‑Zs,]+ 圖出處:https://regexper.com教學:動動手來學RegularExpression 正規表達式 15
  16. 16. 進行資料處理 資料處理:使用LibreOfficeCalc試算表軟體的REGEX函數,支 援的ListofRegularExpressions =REGEX(C2, "[a‑zA‑Zs,]+") 如果C2儲存格包含英文、空 格、逗號,則回傳符合字串,若無則回傳 #N/A =REGEX(C2, "[[^u0000‑u0080]+]+") 如果C2儲存格包含 中文,則回傳符合字串,若無則回傳 #N/A 不能用 =REGEX(C2, "[[:alnum:]s,]+") 如果C2儲存格包 含文數字,則回傳符合字串,若無則回傳 #N/A 如果要用GoogleSheet可以使用REGEXMATCH函數 =REGEXMATCH(C2, "([^x00‑x80]+)") 如果C2儲存格包含 中文,則回傳 TRUE ,若無則回傳 FALSE 參考維基百科補上敘述e.g.紅毛城‑维基百科,自由的百科全 书 16
  17. 17. Wikidata資料類型 陳述 ( statement )需要包含 entity , property & value entity property value 金城武(Q310252) 職業(P106) 演員(Q33999)... entity 可以是item(項目),aproperty,alexeme(詞位),aform (詞形),orasense(含意)。為避免混淆金城武、土城金城武、淡 水金城武。Wikidata不使用名稱,而是Q開頭的識別碼,例如 金城武(Q310252)對應到「台裔日本演員」 property(屬性)可解釋為資料的類別,例如金的職業是演員、歌 手等,其中的職業是一種property:職業(P106) value 可以是 entity ,astring,atime,alocationcoordinate,ora quantity例如演員(Q33999)是另一項entity/item 17
  18. 18. CSV匯入範例 可參考QuickStatements文件提供的範例 qid,Dzh  Q713077,位於台灣新北市淡水區的古蹟  Q5875008,位於今台灣新北市淡水區,為建造於1886年的火炮砲台,佔地約8公頃 Q10898933,為清朝淡水關稅務司的官邸,別稱小白宮,建於1870年,位於新北市淡水 Q10911383,台灣臺北市直轄市定古蹟  18
  19. 19. 匯入格式 P1234 設定該條目的 property 語法: entity TAB property TAB value 範例: Q10911383 TAB P1435 TAB Q63183513 代表將原臺灣軍司 令部(Q10911383)的 property 遺產定位(P1435)設定是 直轄市定古蹟(Q63183513) 19
  20. 20. 設定 標籤 、 描述 、 亦稱為 、 資料來源 、 sitelinks Len 設定指定語言代碼的 Label ( 標籤 ) 語法: entity TAB property TAB value 範例: Q10911383 TAB Lzh‑tw TAB "原臺灣軍司令部" 代表將「原 臺灣軍司令部(Q10911383)」的 中文(台灣) ( zh‑tw )語言 代碼的 標籤 設定是「原臺灣軍司令部」 20
  21. 21. Dfr 設定指定語言代碼的 Description ( 描述 ) 語法: entity TAB property TAB value 範例: Q713077 TAB Dzh‑tw TAB "位於台灣新北市淡水區的古蹟" 代 表將「紅毛城(Q713077)」的 中文(台灣) ( zh‑tw )語言代 碼的 描述 設定是「位於台灣新北市淡水區的古蹟」 21
  22. 22. Ade 設定指定語言代碼的 Alias ( 亦稱為 ) 語法: entity TAB property TAB value 範例: Q10911383 TAB Azh‑tw TAB "原台灣軍司令部" 代表將「原 臺灣軍司令部(Q10911383)」的 中文(台灣) ( zh‑tw )語言 代碼的 亦稱為 設定是「原台灣軍司令部」 22
  23. 23. Senwiki 設定站內連結 語法: entity TAB property TAB value 範例: Q10911383 TAB Szhwiki TAB "原臺灣軍司令部" 將原臺灣 軍司令部(Q10911383)連結到中文維基頁面「原臺灣軍司令 部」 siteid 語言 enwiki 英文Wikipedia zhwiki 中文维基百科 zh‑yuewiki 粵文維基百科 zh_min_nanwiki 閩南語Wikipedia,chū‑iûêpek‑kho‑choân‑su classicalwiki 文言維基大典 hakwiki 客家話維基百科-自由个百科全書 23
  24. 24. S1234 設定目前輸入陳述的資料來源是 P1234 ,但是不需要加上 P 語法: entity TAB property1 TAB value1 TAB property2 TAB value2 範例: Q10911383 TAB P625 TAB "25°2'14"N, 121°30'38"E" TAB S143 TAB Q30239 將「原臺灣軍司令部(Q10911383)」的地 理座標(P625)的資料來源設定是匯入自(P143)中文維基 百科(Q30239) 24
  25. 25. 陳述 加上 限定詞 ( qualifier ) 語法:每個 陳述 的 entity TAB property TAB value 後面可以加 上無限次的 property 與 value 雙人組合 使用時機: 事件起始與結束時間,例巴黎聖母院大火始於(P580) 2019/4/15、終於(P582)2019/4/16 出生日期(P569)與死亡日期(P570) 加上 value 的資料來源等 文件說明:Help:Qualifiers‑Wikidata 25
  26. 26. 開放街圖OSM屬性 OSM關係識別碼(P402):「地方或物件在開放街圖上的關係ID 編號」例如: 中華民國(Q865)的OSM關係識別碼:449220、 臺北市(Q1867)的OSM關係識別碼:1293250 26
  27. 27. 實際操作 連往QuickStatements 登入wikimedia專案帳號 點選 New Batch 按鈕 輸入一行或多行指令 點選 Import V1 commands 或 Import CSV commands 負責任地預覽匯入結果 確認執行結果,出錯時恢復上一步驟 27
  28. 28. 資料探索 資料探索1:該用什麼property 列出古蹟(Q1081138)使用的property(link) 相關資料:Wikidata:Listofproperties/art‑Wikidata、藝術相關維基數 據屬性(Q27918607) SELECT ?property ?propertyLabel (COUNT(?property) AS ?count) WHERE {   ?item wdt:P31 wd:Q1081138 .    ?item ?property ?value .    SERVICE wikibase:label {       bd:serviceParam wikibase:language "zh"     }  }    GROUP BY ?property ?propertyLabel  ORDER BY DESC(?count)  28
  29. 29. cont.排序property出現次數 29
  30. 30. 資料處理 如果原網址 http://www.wikidata.org/entity/P10 修改成 https://www.wikidata.org/wiki/Property:P10 否則會無法抓到 標題,出現 #N/A 錯誤 為避免重複,只篩選網址是 http://www.wikidata.org/prop/P 開頭 使用GooglesheetIMPORTXML函數 =IMPORTXML(C2, "//title") 自動抓取 C2 儲存格內網址的標題 預設會抓到英文標題,顯示中文標題的方式是網址後加上 ? uselang=zh‑tw example 30
  31. 31. 待續 古蹟(Q1081138)&古蹟(Q63183471)「根據中華民國法 律《文化資產保存法》指定的古蹟」常用 property 差異 區分不同政治實體的常用 property 差異,例如中華民國河流 WikidataQueryv.s.中華人民共和國河流WikidataQuery 31
  32. 32. 資料探索2:上級分類 Musicgenres https://w.wiki/6zj #graph rendering could be slow due to large number of results    #defaultView:Graph  SELECT ?item ?itemLabel     ?_image     ?_subclass_of ?_subclass_ofLabel  WHERE {    ?item wdt:P31 wd:Q188451;          wdt:P279 ?_subclass_of.    SERVICE wikibase:label {       bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en".    }    OPTIONAL { ?item wdt:P18 ?_image. }  }  32
  33. 33. 列出上級分類 33
  34. 34. 新手技術問題排除 QuickStatements匯入遇到Novalidcommandfound 34
  35. 35. 解決方式:(1)如果是選擇「ImportV1commands」文字欄位值前後需 要加上雙引號,要額外注意entity與property不需要加上雙引號 格式: entity TAB property TAB "value" 錯誤寫法 Q16929085  Dzh  位於台灣新北市市定古蹟  需要修改成 Q16929085  Dzh  "位於台灣新北市市定古蹟"  LibreOfficeCalc或Excel可以使用函數,在儲存格前後加上雙引號 ="""" & C1 & """" 是的!重複四次雙引號!  或  =CHAR(34) & C1 & CHAR(34)  35
  36. 36. (2)如果是選擇「ImportCSVcommands」檢查匯入內容的格式 QuickStatements文件提供的範例 qid,Len,Den,Aen,P31,‑P31,P21,P735,qal1545,S248,s214,S143,Senwiki Q42,Douglas Adams,author,Douglas Noël Adams,Q5,Q36180,Q6581097,Q 36
  37. 37. 其他工具 Googlesheet外掛工具WikipediaandWikidataTools example 37
  38. 38. 參考資料 SPARQL‑维基百科,自由的百科全书 Help:QuickStatements‑Wikidata QuickStatementsCSVfilesyntax 中文條目的propertiesWikidata:Databasereports/Listof properties/all/zh‑Wikidata Wikidata:WikiProjectHistoricalPlace‑Wikidata 維基數據沙盒‑Wikidata提供測試功能,請溫柔地對待它 38

×