Förderung der Weiterverwendung von offenen Regierungsdaten durch die Open Dat...
D2.1.2 training module 2.1 the linked open government data lifecycle v1.00
1. DATA
SUPPORT
OPEN
Moduł szkoleniowy 2.1
Cykl życia
połączonych
otwartych danych
rządowych i
metadanych
Firmy PwC wspierają organizacje i klientów indywidualnych w tworzeniu poszukiwanej przez nich wartości. Nasza sieć obejmuje blisko 180.000 pracowników świadczących
najwyższej jakości usługi z zakresu ubezpieczenia, doradztwa podatkowego i konsultingu w 158 krajach. Zachęcamy do bliższego zapoznania się z informacjami o naszej
firmie na stronie www.pwc.com.
Nazwa "PwC" odnosi się do firm wchodzących w skład sieci PwC, z których każda stanowi odrębny podmiot prawny. Więcej informacji znajduje się na stronie
www.pwc.com/structure
4. DATASUPPORTOPEN
Cele szkolenia
Po zakończeniu modułu szkoleniowego powinieneś wiedzieć:
• jaki jest cykl życia połączonych otwartych danych rządowych
(LOGD);
• jaka jest różnica pomiędzy podażą a popytem danych;
• jakie są poszczególne etapy cyklu życia LOGD;
• jakie są najlepsze praktyki związane z każdym etapem cyklu życia.
Slajd 4
5. DATASUPPORTOPEN
Treść
Niniejszy moduł zawiera...
• przegląd istniejących cykli życia Linked Open Government Data (LOGD);
• hybrydowy cykl życia LOGD i metadanych obejmujący zarówno stronę
podaży, jak i popytu;
• przegląd istniejących technologii dla LOGD i metadanych – w tym
Open Data Interoperability Platform (ODIP).
Slajd 5
6. DATASUPPORTOPEN
Różne cykle życia LOGD
Stan aktualny
Slajd 6
Hyland i in.
Hausenblas i in.
Villazon-
Terrazas i in.
Datalift
Vision
Cykl życia
LOD2
Linked Open
Data
Zobacz także:
http://www.w3.org/2011/gld/
wiki/GLD_Life_cycle
7. DATASUPPORTOPEN
Różne cykle życia LOGD
Spostrzeżenia
• Nie istnieje standardowy cykl życia LOGD.
• Większość podejść zgadza się na w kwestii podstawowego zestawu
etapów, np. określenie modelu, opublikowanie.
• Obecne cykle życia skupiają się głównie na podaży danych otwartych:
Identyfikacja i wybór LOGD.
Modelowanie i czyszczenie LOGD.
Publikowanie i łączenie danych.
• Ale co po stronie popytu?
Wyszukiwanie i pobieranie LOGD.
Integrowanie i wykorzystanie danych otwartych.
Przekazanie informacji zwrotnej na temat LOGD.
Slajd 7
8. DATASUPPORTOPEN
Czym są metadane?
„Metadane to ustrukturyzowane informacje opisujące, wyjaśniające
lub lokalizujące zasoby informacji lub w inny sposób ułatwiające ich
wyszukanie, wykorzystanie lub zarządzanie nimi. Metadane są często
nazywane danymi o danych lub informacjami o informacjach.“
-- National Information Standards Organization
http://www.niso.org/publications/press/UnderstandingMetadata.pdf
Slajd 8
Opis zbioru danych (DCAT) Zbiór danych
9. DATASUPPORTOPEN
Najlepsze praktyki dotyczące
publikowania danych i
metadanych
1. Modelowanie danych;
2. Nazywanie przy użyciu URI;
3. Wykorzystanie istniejących
słowników, gdy jest to możliwe;
4. Publikowanie opisów odczytywanych
przez człowieka i komputery –
metadanych;
5. Konwertowanie danych do RDF;
6. Określanie odpowiedniej licencji;
7. Podawanie zbioru danych
połączonych i jego metadanych tak,
aby były ogólnie dostępne!
W3C Linked
Data Cookbook
Slajd 9
Zobacz także:
http://www.w3.org/TR/gov-data/)
http://www.w3.org/2011/gld/wiki/Linked_
Data_Cookbook
10. DATASUPPORTOPEN
Cykl życia LOGD i metadanych
skupiający się na podaży i popycie
Slajd 10
Podaż Popyt
Wybór
Modelo-
wanie
Publikacja
Wyszuka-
nie Integracja
Wykorzys-
tanie
Zarządzanie danymi
Informacja zwrotna
Publikujący
dane
Użytkownicy
danych
12. DATASUPPORTOPEN
Wybór danych o dużej wartości
Z perspektywy zarówno osoby publikującej, jak i wykorzystującej
dane można wyróżnić kilka aspektów wyboru połączonych otwartych
danych rządowych:
• Przejrzystość: Czy publikacja zbioru danych zwiększa przejrzystość i
otwartość rządu w stosunku do obywateli?
• Wymogi prawne: Czy ustawodawstwo przewiduje obowiązek otwartej
publikacji danych?
• Związek z zadaniami publicznymi: Czy dane związane są bezpośrednio
z podstawowymi zadaniami rządu, czy stanowią rezultat działań pobocznych?
• Bieżący status otwartej publikacji: Czy dane zostały już publicznie
udostępnione, czy nadal oczekują na udostępnienie?
• Rodzaj wartości: Czy dane mają wartość społeczną czy handlową?
• Odbiorcy: Czy docelowym odbiorcą danych jest społeczeństwo czy
administracja publiczna?
Slajd 12
13. DATASUPPORTOPEN
Wybór w oparciu o przejrzystość
W niektórych przypadkach publikacja zbioru danych może zwiększyć
przejrzystość i otwartość rządu w stosunku do obywateli, np.:
• Dane parlamentów, takie jak wyniki wyborów.
• Sposób wydatkowania budżetów rządowych.
• Koszty wynagrodzeń administracji publicznej.
Wszystkie powyższe przykłady przyczyniają się do przejrzystości pracy
administracji publicznej.
Slajd 13
14. DATASUPPORTOPEN
Wybór w oparciu wymogi prawne
Niektóre dane mogą być objęte prawem lub przepisami, które
nakładają obowiązek ich otwartej publikacji, np.:
• Teksty ustawy, dyrektyw, rozporządzeń itp.
• Propozycje i posiedzenia parlamentu i komitetów.
• Wyniki wyborów.
• Budżety i wydatki publiczne.
• Zaproszenia do składania ofert i udzielanie zamówień.
Inne dane mogą być produktem ubocznym działań rządu i
przydatne byłoby, gdyby obywatele i przedsiębiorstwa mieli dostęp
np. do:
• Stanu infrastruktury i przestrzeni publicznej (drogi, drzewa).
• Rozkładu jazdy komunikacji miejskiej i harmonogramów wywozu śmieci.
Slajd 14
15. DATASUPPORTOPEN
Wybór w oparciu o związek z zadaniami
publicznymi
Niektóre dane mogą być bezpośrednim wynikiem
podstawowego zadania publicznego rządu, na przykład funkcji
wymienionych w COFOG, np.:
• Organów wykonawczych, ustawodawczych, spraw finansowych/podatkowych
itp.
• Porządku i bezpieczeństwa publicznego.
• Ochrony środowiska.
• Zdrowia.
• Kultury.
• Edukacji.
Inne dane produkowane przez rząd są nieistotne (mogą być – i
często są – dostarczane przez sektor prywatny), np.:
• Mapowanie do celów nawigacji (por. Google Street View)
• Prognozy pogody (por. Weather Channel)
Slajd 15
16. DATASUPPORTOPEN
Wybór w oparciu status publikacji
Niektóre dane są już opublikowane w sposób otwarty i
elektroniczny, np. (w niektórych państwach):
• Informacje katastralne.
• Mapy topograficzne.
• Informacje o ruchu drogowym.
• Prognozy pogody.
Inne dane mogą być wciąż ukryte przed ogółem społeczeństwa (może
dlatego, że trudno je opublikować lub zawierają dane osobowe, dane
szczególnie chronione lub częściowo podlegają licencji osoby trzeciej).
Slajd 16
17. DATASUPPORTOPEN
Wybór w oparciu rodzaj wartości
Niektóre dane mogą mieć przede wszystkim wartość społeczną,
np.:
• Przepisy prawne i dane parlamentarne (np. zapisy głosów oddanych przez
członków).
• Informacje przedwyborcze (np. programy partii politycznych).
• e-Demokracja i e-Uczestnictwo (np. konsultacje społeczne).
Inne dane mogą mieć większą wartość handlową (model
biznesowy), np.:
• Mapy drogowe, informacje o ruchu drogowym w czasie rzeczywistym.
• Informacje o pogodzie w czasie rzeczywistym.
• Informacje o firmie.
Slajd 17
18. DATASUPPORTOPEN
Wybór w oparciu rodzaj odbiorców
Niektóre dane są kierowane do społeczeństwa (obywatele i
przedsiębiorstwa), np.:
• Informacje prawne.
• e-Demokracja, e-Uczestnictwo i konsultacje społeczne.
• Zamówienia.
Inne dane skupiają się na wykorzystaniu wewnętrznym lub
integracji w zapleczu administracyjmym, np.:
• Różne źródła, które są wykorzystywane do celów egzekwowania prawa.
• Wskaźniki funkcjonowania usług.
• Opisy stanowisk pracy urzędników.
Slajd 18
19. DATASUPPORTOPEN
Wybór w oparciu ilość odbiorców
Niektóre dane są skierowane do dużych grup odbiorców i
rynków masowych, np.:
• Informacje o ruchu drogowym.
• Transport publiczny.
• Dane wyborcze.
Inne dane są istotne dla małych grup ludzi i rynków niszowych,
np.:
• Informacje o udogodnieniach i wsparciu finansowym dla osób o szczególnych
potrzebach.
• Statystyki gospodarcze.
• Orzeczenia sądowe.
Slajd 19
20. DATASUPPORTOPEN
Duża wartość z punktu widzenia użytkowników
Z punktu widzenia użytkownika wartość zbioru danych zależy przede
wszystkim od potencjału jego wykorzystania i ponownego
wykorzystania, które w praktyce może doprowadzić do powstania
(nowych) modeli biznesowych.
Potencjał wykorzystania i ponownego wykorzystania zbioru danych określa:
• Wielkość i dynamika grupy docelowej zbioru danych; oraz
• Liczba nowych i istniejących systemów i usług, które wykorzystują zbiór
danych.
Otwarcie zbiorów danych o dużym potencjale wykorzystania i
ponownego wykorzystania prowadzi do tworzenia nowych
produktów i/lub usług, które mają bezpośredni lub pośredni
wpływ ekonomiczny lub społeczny i/lub pozytywne
ekonomiczne efekty zewnętrzne.
Slajd 20
21. DATASUPPORTOPEN
Wybór w oparciu o potrzeby odbiorców
Jakich danych potrzebują/chcą użytkownicy?
Według hiszpańskiego badania, następujące rodzaje informacji są
wykorzystywane przez przedsiębiorstwa najczęściej:
Slajd 21
51,1%
46,8%
29,7% 27,7%
12,8% 12,8% 12,8%
10,0%
Zobacz także:
http://datos.gob.es/datos/sites/default/files/files/E
studio_infomediario/121001%20RED%20007%20
Final%20Report_2012%20Edition_vF_en.pdf
22. DATASUPPORTOPEN
Dziedziny zbiorów danych na europejskich
portalach danych
Slajd 22
Źródło: [http://data.gov.uk/data]
Źródło: [http://publicdata.eu/]
Źródło: [http://open-data.europa.eu/en/data/dataset] Metadane
23. DATASUPPORTOPEN
Które zbiory danych są najczęściej przeglądane na
Data.gov.uk
Slajd 23
http://data.gov.uk/data/site-usage/publisher?month= http://data.gov.uk/data/site-usage/dataset
Na jednostkę publikującą Na zbiór danych
24. DATASUPPORTOPEN
Modelowanie danych i metadanych polega na...
• Udostępnianiu danych w sposób ustrukturyzowany, zrozumiały
i przeznaczony do odczytu komputerowego.
• Wykorzystaniu dostępnych słowników i danych referencyjnych.
• Osiągnięciu odpowiedniego poziomu jakości poprzez czyszczenie
danych.
• Umieszczeniu informacji dotyczących licencji, aby użytkownicy
znali warunki wykorzystywania danych.
• Szczegółowym opisie danych (metadane).
• Wykorzystaniu technologii semantycznego internetu (RDF,
HTTP URI itd.) do opisu danych.
Slajd 24
25. DATASUPPORTOPEN
Modelowanie danych – wykorzystanie, jeśli to
możliwe, w razie potrzeby tworzenie
• Wykorzystanie istniejących słowników w jak największym
stopniu.
Jeśli okaże się, że nie istnieje dające się wykorzystać, wiarygodne
źródło dla danej dziedziny, stwórz własne przy użyciu:
◦ Rozszerzenia RDF (RDFS): Podstawowe słownictwo RDF do
opisu klas i właściwości klas.
◦ Web Ontology Language (OWL): język reprezentowania wiedzy
do opisu ontologii.
Slajd 25
Zobacz także:
http://www.slideshare.net/OpenDataSupport/model-your-data-metadata
http//www.w3.org/TR/owl-features/
http://www.w3.org/TR/rdf-schema/
26. DATASUPPORTOPEN
Wykorzystanie powszechnych słowników do
modelowania i opisywania danych... (w RDF)
Uniwersalne słowniki: DCMI, RDFS
Nazwy rzeczy: rdfs:label, foaf:name, skos:prefLabel
Nazwy ludzi: FOAF, vCard, Core Person Vocabulary
Opisy zarejestrowanych organizacji: Registered Organisation
Vocabulary
Opisy adresów: vCard, Core Location Vocabulary
Opisy usług publicznych: Core Public Service Vocabulary
...i metadanych...
Opisy zbiorów danych (metadane): DCAT, DCAT Application
Profile, VoID
Opisy projektów: DOAP, ADMS.SW
Opisy zasobów interoperacyjności: ADMS
Slajd 26
27. DATASUPPORTOPEN
Znajdowanie dostępnych słowników
Joinup
• Platforma internetowa do
wyszukiwania i
udostępniania zasobów
interoperacyjności
opisanych w ADMS.
Opracowana w ramach
programu ISA Komisji
Europejskiej.
Slajd 27
http://joinup.ec.europa.eu/
Ogranicz wyniki wyszukiwania
dzięki fasetowym filtrom
wyszukiwania.
2
Wpisz szukane słowo kluczowe,
aby znaleźć zasoby
interoperacyjności dostępne na
różnych stronach internetowych.
1
Wyniki wyszukiwania
zawierają odpowiedni
opis zasobów oraz adres,
z którego można je
pobrać.
3
28. DATASUPPORTOPEN
Znajdowanie dostępnych słowników
Linked Open Vocabularies
Slajd 28
http://lov.okfn.org/
• Zapewnia proste metody
dostępu do ekosystemu
słowników.
• Sprawia, że ich wzajemne
połączenie jest wyraźne.
• Zapewnia metrykę sposobu
ich wykorzystywania w
chmurze LOGD.
• Opracowany przez Open
Knowledge Foundation.
29. DATASUPPORTOPEN
W celu zapewnienia odpowiedniego poziomu jakości i minimum
błędów publikowanych danych i metadanych.
Czyszczenie polega na:
• Korygowaniu błędów.
• Przetwarzaniu/ujednolicaniu formatów.
• Korygowaniu niespójności danych i metadanych.
• Usuwaniu powtarzających się/zbędnych informacji.
• Uzupełnianiu brakujących informacji.
• Aktualizowaniu informacji.
Czyszczenie danych i metadanych
Slajd 29
Zobacz także:
http://www.slideshare.net/OpenDataSupport/introduction-to-rdf-sparql
Czyszczenie danych za pomocą Open Refine (Google Refine) -
https://code.google.com/p/google-refine/
30. DATASUPPORTOPEN
Company_name Registration date Country E-mail # Establishments
Nikè 1991-04-28 Belgium niké 7
BARCO 15 September 1986 BE Barco@email.be 2
Nikè België
Coca-Cola United States coca@cola.com 3
Czyszczenie danych – przykład
Slajd 30
Problem
formatu
Brak informacji
Powtarzanie
się błąd
Zbędne
informacje
Niespójne
informacje
Company_name Registration date Country E-mail
Nikè 1991-04-28 BE niké@sport.org
BARCO 1986-09-05 BE Barco@email.be
Coca-Cola 1964-03-26 US coca@cola.com
Po
oczyszczeniu
31. DATASUPPORTOPEN
Modelowanie metadanych
Profil aplikacji DCAT dla
portali danych w Europie
(DCAT-AP) jest specyfikacją
opartą na Data Catalogue
Vocabulary (DCAT) do
opisywania zbiorów danych
sektora publicznego w Europie.
DCAT-AP poprawia wyszukiwanie
zbiorów danych sektora
publicznego ponad granicami i
sektorami.
Slajd 31
Zobacz także:
https://joinup.ec.europa.eu/asset/dcat_application_profile
/description
32. DATASUPPORTOPEN
Używanie standardu Uniform Resource Identifier
(URI) do oznaczania nazw danych
Slajd 32
i.e. independentof the data originator
e.g. http://www.example.com/id/alice_brown
e.g. http://education.data.gov.uk/ministryofeducation/id/school/123456
e.g. http://education.data.gov.uk/doc/school?id=123456
e.g. http://education.data.gov.uk/doc/school/v01/123456
e.g. http://education.data.gov.uk/id/school1/123457
e.g. http://education.data.gov.uk/id/school1/123456
e.g. http://data.example.org/doc/foo/bar.rdf
e.g. http://data.example.org/doc/foo/bar.html
e.g. http://education.data.gov.uk/id/school/123456
e.g. http://{domain}/{type}/{concept}/{reference}
Follow the pattern
Re-useexisting identifiers
Link multiple representations
Implement 303 redirects for real-world objects
Usea dedicated service
Avoid stating ownership
Avoid version numbers
Avoid using auto-increment
Avoid query strings
rules
for persistent
http://education.data.gov.uk/doc/schools/123456.csv
Avoid file extensions
Zobacz także:
http://www.slideshare.net/OpenDataSupport/design-and-manage-persitent-uris
https://joinup.ec.europa.eu/community/semic/document/10-rules-persistent-uris
Standard URI określa podstawy danych połączonych.
33. DATASUPPORTOPEN
Udzielenie licencji na dane i metadane polega na...
• Informowaniu potencjalnych użytkowników o sposobie (ponownego)
wykorzystania i/lub dostosowania danych i metadanych.
• Niepołączenie danych i metadanych z informacjami dotyczącymi
licencji jest znaczącą barierą w wykorzystaniu, tym samym
obniżającą wartość, jaką stworzy otwarcie danych.
• Dane otwarte powinny być, z definicji, publikowane na warunkach
licencji otwartej.
• Metadane powinny być publikowane w ramach licencji wskazującej,
że publiczne rozpowszechnianie przyczyni się do wykorzystania i
ułatwienia odnalezienia danych.
Slajd 33
Zobacz także:
http://www.slideshare.net/OpenDataSupport/licence-your-data-metadata
34. DATASUPPORTOPEN
Otwarte licencje
• Licencje Creative Commons (CC) (http://creativecommons.org/licenses/)
- Attribution (BY): Konieczne umieszczenie informacji o twórcy dzieła.
- Non Commercial (NC): Dzieło może być wykorzystywane tylko w celach
niekomercyjnych.
- No Derivatives (ND): Dzieło nie może być przerabiane lub łączone z innymi dziełami.
- Share Alike (SA): Dzieło może być przerabiane, pod warunkiem że zostanie
udostępnione w ramach tej samej licencji.
- CC Zero (CC0): Dzieło jest domeną publiczną.
• Licencje Open Data Commons (http://opendatacommons.org/licenses/)
- Open Data Commons Attribution Licence (ODC-By): odpowiadająca CC BY.
- Open Data Commons Open Database Licence (ODC-ODbL): odpowiadająca CC BY SA
- Public Domain Dedication Licence (PDDL): odpowiadająca CC Zero.
• The Open Government Licence (http://www.nationalarchives.gov.uk/doc/open-government-
licence/)
Slajd 34
Zobacz także:
http://discovery.ac.uk/files/pdf/Licensing_Open
_Data_A_Practical_Guide.pdf
35. DATASUPPORTOPEN
Publikowanie danych połączonych polega na...
Zniesieniu barier w celu zwiększenia wartości.
• Upublicznieniu i ułatwieniu dostępu do danych i metadanych w sieci
Web.
• Połączeniu danych i metadanych z innymi danymi (lub metadanymi),
aby:
Nadać im treść i znaczenie.
Umieścić je w kontekście.
Wzbogacić je.
Umożliwić dalsze wyszukiwanie.
Slajd 35
36. DATASUPPORTOPEN
Podanie punktu końcowego SPARQL
Punkt końcowy SPARQL to usługa, która pozwala innym na tworzenie
zapytań związanych z danymi połączonymi (i/lub metadanymi).
Slajd 36
http://data.opendatasupport.eu
37. DATASUPPORTOPEN
Publikowanie metadanych
Publikowanie metadanych na centralnym brokerze danych w celu
większej widoczności i zwiększenia wykorzystania zbiorów danych.
Slajd 37
Zobacz także:
http://www.slideshare.net/OpenDataSupport/pr
omoting-the-re-use-of-open-data-through-odip
Open Data Interoperability Platform
(ODIP):
• Platforma ODIP jest centralnym
brokerem danych opracowanym przez
Komisję Europejską w celu
umożliwienia transgranicznego
wyszukiwania zbiorów danych w
Europie.
• Osobom i portalom publikującym dane
na ODIP centralnego publikowania
opisu metadanych zbiorów danych.
38. DATASUPPORTOPEN
Zarządzanie danymi i metadanymi polega na...
• Zarządzaniu cyklem życia danych – tworzeniu, aktualizowaniu i
likwidowaniu zbiorów danych.
• Zarządzaniu cyklem życia metadanych.
• Wprowadzaniu procesów w celu zapewnienia odpowiedniego
poziomu jakości danych i metadanych.
• Określaniu praw własności do (zbiorów) danych i metadanych.
Slajd 38
Zobacz także:
http://www.slideshare.net/OpenDataSupport/int
roduction-to-metadata-management
39. DATASUPPORTOPEN
Otrzymywanie informacji zwrotnej od
użytkowników danych
Poproś (potencjalnych)
użytkowników danych o
informację zwrotną:
• Jakich danych potrzebują.
• Jak wykorzystali dane.
• Jak oceniają jakość danych.
• Upewnij się, że otrzymujesz
prośby i sugestie
użytkowników – wykorzystaj
wiedzę społecznościową do
podniesienia jakości danych!
Slajd 39
data.overheid.nl
data.gov.uk
41. DATASUPPORTOPEN
Strona popytowa cyklu życia LOGD
Użytkownicy danych są w stanie:
• znaleźć odpowiednie zbiory danych;
• wykorzystać zbiory danych do analiz, tworzenia aplikacji i usług;
• dowiedzieć się, czym zajmuje się ich rząd (przejrzystość);
• oszczędzić koszty.
Slajd 41
Deweloperzy /
firmy integrują
dane do aplikacji
(usług)
Administracje
publiczne
udostępniają
dane w
Internecie
Obywatele / firmy
korzystają z
aplikacji (usług)
Deweloperzy /
firmy szukają
danych
Publikowanie danych
Wykorzystanie danych
42. DATASUPPORTOPEN
Gdzie szukać zbiorów danych?
Zbiory danych są udostępniane
na różnych platformach
rozmieszczonych w całej Europie.
„Broker danych zbiera metadane
z różnych platform danych
otwartych i publikuj je z pomocą
wspólnego modelu
metadanych. W ten sposób
można wyszukiwać zbiory
danych w sposób jednolity z
pojedynczego punktu dostępu.“
• Lokalne portale danych otwartych, np.
- opendatamanchester.org.uk
- Data.gent.be
• Regionalne portale danych otwartych, np.
- opendata.regionpaca.fr
- Publiczne dane otwarte rządu Katalonii
• Krajowe portale danych otwartych, np.
- Opendata.at
- opendata.lu
• Europejskie portale danych otwartych, np.
- open-data.europa.eu
• Brokerzy otwartych danych, np.
- Publicdata.eu
- ODIP
Slajd 42
43. DATASUPPORTOPEN
Wykorzystanie punktu końcowego SPARQL lub
wyszukiwarki fasetowej, aby znaleźć zbiór danych
Użytkownik może wpisać zapytanie SPARQL w punkcie końcowym
SPARQL, aby znaleźć zbiór danych lub „przefiltrować“ zgromadzone zbiory
danych za pomocą wyszukiwarki fasetowej.
Slajd 43
Punkt końcowy SPARQL
Wyszukiwarka fasetowa
http://data.gov.uk/sparql
http://data.gov.uk/data/search
44. DATASUPPORTOPEN
Integrowanie zbiorów danych oraz tworzenie
aplikacji i usług
Niektóre narzędzia służące do integrowania zbiorów danych:
• Karma (http://www.isi.edu/integration/karma/)
• Talend (http://www.talend.com/products/data-integration)
Slajd 44
Zobacz także:
http://www.slideshare.net/OpenDataSupport/int
roduction-to-linked-data-23402165
46. DATASUPPORTOPEN
Wykorzystanie Open Refine do modelowania i
publikowania danych otwartych
Początek
1. Zainstaluj Open Refine ze strony: https://github.com/OpenRefine
2. Zainstaluj rozszerzenie RDF: http://refine.deri.ie/
A następnie...
Opisz swoje dane w arkuszu kalkulacyjnym.
Utwórz projekt i załaduj go w Open Refine.
Mapuj swoje dane do odpowiednich klas i właściwości RDF.
Eksportuj dane w RDF.
Slajd 46
1
2
3
4
47. DATASUPPORTOPEN
Opisz swoje dane w arkuszu kalkulacyjnym
Slajd 47
Company_name Registration date Country E-mail
Nikè 1991-04-28 BE niké@sport.org
BARCO 1986-09-05 BE Barco@email.be
Coca-Cola 1964-03-26 US coca@cola.com
1
48. DATASUPPORTOPEN
Utwórz projekt i załaduj go w Google Refine
Slajd 48
2
Załaduj arkusz
kalkulacyjny
Wybierz
odpowiednie
zakładki
Stwórz projekt
49. DATASUPPORTOPEN
Mapuj swoje dane do odpowiednich klas i
właściwości RDF (modeluj swoje dane)
Slajd 49
3
Zdefiniuj szkielet, aby
przekształcić dane z
arkusza kalkulacyjnego na
RDF
52. DATASUPPORTOPEN
Publikowanie danych z pomocą zestawu narzędzi
LOD2
„Zestaw narzędzi LOD2 jest
zintegrowanym system
dystrybucji zbieżnych
narzędzi, które wspierają cykl
życia danych powiązanych
(otwartych) od wydobycia,
napisania/utworzenia, przez
wzbogacenie, powiązanie,
złączenie, po wizualizację i
utrzymanie. Zestaw zawiera
narzędzia dla partnerów
LOD2 i osób trzecich.“
Slajd 52
Źródło: [http://stack.lod2.eu/]
53. DATASUPPORTOPEN
Silk – narzędzie do łączenia danych
„Silk jest narzędziem do odkrywania relacji między elementami
danych w ramach różnych źródeł danych połączonych.
Osoby publikujące dane mogą wykorzystywać Silk do tworzenia
odnośników RDF ze źródeł swoich danych do innych źródeł danych w
sieci Web.“
Aby pobrać i uzyskać więcej informacji:
http://wifo5-03.informatik.uni-mannheim.de/bizer/silk
Slajd 53
54. DATASUPPORTOPEN
Wnioski
• Cykl życia LOGD i metadanych powinien uwzględniać zarówno stronę podaży,
jak i popytu.
• Wybór danych i metadanych, które zostaną otwarte oznacza uwzględnienie
różnych wymiarów.
• Modelowanie polega na strukturyzowaniu danych i metadanych oraz
uzyskaniu odpowiedniego poziomu jakości.
• Publikowanie polega na upublicznieniu danych i metadanych oraz ułatwianiu
do nich dostępu i wyszukiwania ich w sieci Web.
• Zarządzanie danymi i metadanymi powinno zapewnić, że istnieją procesy i
zasady regulujące cykl życia danych i metadanych.
• Osoba publikująca dane powinna zapewnić środki mające na celu
otrzymywanie informacji zwrotnych od użytkowników danych – wyczuwanie
popytu i wykorzystanie wiedzy społecznościowej do podniesienia jakości
danych.
• Dostępnych jest kilka narzędzi do modelowania i publikowania LOGD –
niewiele o jakości poziomu produkcyjnego.
Slajd 54
55. DATASUPPORTOPEN
Pytania dla grup
Slajd 55
Czy na poziomie korporacyjnym istnieje jakakolwiek
metodologia zarządzania danymi i/lub metadanymi?
Czy w Twoim kraju istnieje podaż i popyt na (połączone)
otwarte dane rządowe? Jeśli tak, to kto zapewnia co komu?
Jakie są Twoim zdaniem główne przeszkody w zapewnieniu
(połączonych) otwartych danych rządowych w Twoim kraju?
http://www.visualpharm.com
http://www.visualpharm.com
http://www.visualpharm.com
Rozwiąż także test online!
57. DATASUPPORTOPEN
Odnośniki
Slajd 5:
• GLD Life cycle. W3C. http://www.w3.org/2011/gld/wiki/GLD_Life_cycle
Slajd 8:
• Linked Data Cookbook. W3C.
http://www.w3.org/2011/gld/wiki/Linked_Data_Cookbook
Slajd 14:
• United Nations Statistics Division. COFOG (Classification of the Functions of
Government). http://unstats.un.org/unsd/cr/registry/regcst.asp?Cl=4
Slajd 21:
• Characterization Study of the Infomediary Sector - 2012 Edition. Datos.gob.es.
http://datos.gob.es/datos/sites/default/files/files/Estudio_infomediario/121001
%20RED%20007%20Final%20Report_2012%20Edition_vF_en.pdf
Slajd 21:
• http://data.gov.uk/data
• http://publicdata.eu/
• http://open-data.europa.eu/en/data/dataset
Slajd 21:
• http://data.gov.uk/data/site-usage/publisher?month=
• http://data.gov.uk/data/site-usage/dataset
Slajdy 24-25:
• Cookbook for translating Data Models to RDF Schemas. IAS Programme.
https://joinup.ec.europa.eu/community/semic/document/cookbook-translating-
data-models-rdf-schemas
Slajd 26:
• ADMS Brochure. ISA Programme.
https://joinup.ec.europa.eu/elibrary/document/adms-brochure
Slajd 27:
• http://lov.okfn.org/
Slajd 29:
• DCAT application profile for data portals in Europe. ISA Programme.
https://joinup.ec.europa.eu/asset/dcat_application_profile/description
Slajd 31:
• 10 Rules for Persistent URIs. ISA Programme.
https://joinup.ec.europa.eu/community/semic/document/10-rules-persistent-
uris
Slajdy 32-33:
• Licensing Open Data: A Practical Guide. Naomi Korn and Professor Charles
Oppenheim.
http://discovery.ac.uk/files/pdf/Licensing_Open_Data_A_Practical_Guide.pdf
Slajd 51:
• Announcement of intermediate LOD2 Stack release, marzec 2012. Martin
Kaltenboeck. http://lod2.eu/BlogPost/1034-announcement-of-intermediate-
lod2-stack-release-march-2012.html
Slajd 52:
• Silk - A Link Discovery Framework for the Web of Data. University of Mannheim.
http://wifo5-03.informatik.uni-mannheim.de/bizer/silk/
Slajd 57
58. DATASUPPORTOPEN
Literatura uzupełniająca (1/2)
Linked Data Cookbook. W3C.
http://www.w3.org/2011/gld/wiki/Linked_Data_Cookbook
Cookbook for translating Data Models to RDF Schemas. ISA
Programme.
https://joinup.ec.europa.eu/community/semic/document/cookbook-
translating-data-models-rdf-schemas
Publishing Open Government Data. Daniel Bennett & Adam Harvey.
http://www.w3.org/TR/gov-data/
N. Korn & C. Oppenheim, Licensing Open Data: A Practical Guide.
http://discovery.ac.uk/files/pdf/Licensing_Open_Data_A_Practical_
Guide.pdf
Slajd 58
59. DATASUPPORTOPEN
Literatura uzupełniająca (2/2)
Linked Open Data: The Essentials. Florian Bauer, Martin Kaltenböck.
http://www.semantic-web.at/LOD-TheEssentials.pdf
Linked Data: Evolving the Web into a Global Data Space. Tom Heath
and Christian Bizer.
http://linkeddatabook.com/editions/1.0/
Linked Open Government Data. Li Ding Qualcomm, Vassilios
Peristeras and Michael Hausenblas.
http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6237454
EUCLID – Course 1: Introduction and Application Scenarios
http://www.euclid-project.eu/modules/course1
Slajd 59
60. DATASUPPORTOPEN
Podobne projekty i inicjatywy (1)
LOD2 Technology Stack, http://stack.lod2.eu/
Open Data Publishing Pipeline DERI,
http://sw.deri.ie/content/odpp
W3C Linked Data Cookbook,
http://www.w3.org/2011/gld/wiki/Linked_Data_Cookbook
Cookbook for translating Data Models to RDF Schemas,
https://joinup.ec.europa.eu/community/semic/document/cookb
ook-translating-data-models-rdf-schemas
Slajd 60
61. DATASUPPORTOPEN
Podobne projekty i inicjatywy (2)
Projekt EUCLID FP7, http://projecteuclid.org/
Projekt LOD Around The Clock FP7, http://latc-project.eu/
Generic Statistical Business Process Model,
http://www1.unece.org/stat/platform/display/GSBPM/Generic+St
atistical+Business+Process+Model+Paper
Slajd 61
62. DATASUPPORTOPEN
Dołącz do nas...
Znajdź nas
Kontakt
Dołącz do nas
Śledź nas
Open Data Support
http://www.slideshare.net/OpenDataSupport
http://www.opendatasupport.eu
Open Data Support
http://goo.gl/y9ZZI
@OpenDataSupport contact@opendatasupport.eu
Slajd 62