Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Szukając pani S***k*n*us, czyli jak łączyć kompetencje informatyczne i researcherskie (i sięgać, gdzie Google nie sięga)

395 views

Published on

Prezentacja z wystąpienia Filipa Gralińskiego i Karola Świetlika w trakcie ogólnopolskiej konferencji dla brokerów informacji i branż pokrewnych: IV Warsztat Pracy Infobrokera - 4.0 WPI

Prelegenci: Filip Graliński i Karol Świetlik, PPJ Polska Pracownia Językoznawcza
Wydarzenie: IV Warsztat Pracy Infobrokera - WPI 4.0
Miejsce: Wydział Zarządzania i Komunikacji Społecznej UJ, Kraków
Data: 28-29.05.2019

Więcej informacji o konferencji znajdziesz na www.spi.org.pl

Published in: Business
  • Be the first to comment

  • Be the first to like this

Szukając pani S***k*n*us, czyli jak łączyć kompetencje informatyczne i researcherskie (i sięgać, gdzie Google nie sięga)

  1. 1. Szukając pani S***k*n*us, czyli jak łączyć kompetencje informatyczne i researcherskie (i sięgać, gdzie Google nie sięga) IV Warsztat Pracy Infobrokera Filip Graliński & Karol Świetlik Kraków, 28 maja 2019 Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  2. 2. Tryby pozyskiwania informacji 2 skrajne (w naszym doświadczeniu) wymiary pozyskiwania informacji na zlecenie: podejście „przemysłowe”: masowe wydobywanie informacji z wykorzystaniem metod tzw. sztucznej inteligencji podejście „rzemieślnicze”: praca w trybie detektywistycznym, ale również z wykorzystaniem nowoczesnych narzędzi Między tymi biegunami cała sfera przejściowa. Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  3. 3. Research „hurtowy” wielkie wolumeny danych współzależność skali i szybkości powtarzalność procesu, proceduralność gwarancja sukcesu (progi ufności) informacja „płytka” (tylko w przetwarzanym dokumencie) Applica.ai czołowym dostawcą usług przykład: klauzule NDA, pisma sądowe czy komornicze — klasyfikacja, ekstrakcja określonych informacji Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  4. 4. Research „drobny” z ekstremalną niewiadomą In Search of the Most Beautiful Pictures Ever Seen intuicja + determinacja znaleźć lub stworzyć narzędzie najlepiej dopasowane do problemu, tu: strona biblioteki z Manchesteru, oferująca najdogodniejszy mechanizm przeszukiwania Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  5. 5. Szukając pani S***k*n*us Zagadka z bloga: http://www.strangehistory.net/2015/04/ 30/searching-for-the-mysterious-mrs-sknus Zadanie: znaleźć londyńską prostytutkę z końca XIX w. po wygwiazdkowanym nazwisku. wylistowanie możliwych nazwisk (raczej niemieckich), ale Google na to nie pozwala zatem: 1 „grepowanie” niemieckiego Internetu za pomocą wyrażenia regularnego /S...k.n.us/, obciążające czasowo komputer, ale jednorazowe: xzcat de.deduped.xz | egrep -o ’S...k.n.us’ | sort | uniq -c | sort -k 1rn 2 kwerenda w wyszukiwarkach (nazwiska + prostitute i synonimy, a także słowa i frazy powiązane, np. disorderly house = dom publiczny; niezbędna wiedza lingwistyczna!), znalezione w HathiTrust! Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  6. 6. Szukając pani S***k*n*us cd. Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  7. 7. Spektrum środków pozyskiwania informacji metody sztucznej inteligencji (masowa ekstrakcja informacji) Research Tool as a Service? narzędzia wewnętrzne rozwijane przez firmy researcherskie wyspecjalizowane narzędzia (np. skrypty) tworzone ad hoc istniejące wyszukiwarki (przydatna wiedza informatyczna, np. języki zapytań, wyrażenia regularne, metody omijania ograniczeń, „hakowania”) i bazy danych działania „analogowe” Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  8. 8. System Odkrywka Odkrywka – prototypowy system wyszukiwawczy autorstwa Filipa Gralińskiego, pokłosie badań i eksperymentów pracowników Instytutu Językoznawstwa oraz Pracowni Systemów Informacyjnych Wydziału Matematyki i Informatyki UAM w Poznaniu. kolekcje upublicznione przez biblioteki cyfrowe oraz inne otwarte źródła internetowe 3,4 mln publikacji, 22 mln stron, 15,1 mld wyrazów, 96,3 mld znaków (marzec 2019 r.) zasoby polskojęzyczne (choć nie tylko) od XVIII w. po dzień dzisiejszy, w znacznej części niedostępne za pośrednictwem Google’a wyszukiwanie pełnotekstowe, rysowanie wykresów częstości, tworzenie dossier na zadany temat narzędzie do researchu, szyte na miarę Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  9. 9. Odkrywka – tworzenie dossier nie tylko dla uczonych (zwł. historyków czy lingwistów), również dla dziennikarzy, pisarzy, genealogów, prawników, funkcjonariuszy służb itd. sztuką jest zdobyć informacje, ale też należycie je zweryfikować, udokumentować i przystępnie zaprezentować przykłady: historia słynnej kamienicy przy Noakowskiego 16 w Warszawie wydarzenia z życia ks. Stanisława Streicha w kontekście procesu beatyfikacyjnego Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  10. 10. PPJ idea Centaura (zaawansowana technologia plus człowiek), która choć upadła w „zamkniętym” świecie szachów, w „otwartym” świecie researchingu wydaje się nam optymalna PPJ – unikatowe zaplecze dla infobrokerów: zespół informatyków i humanistów, dysponujących doświadczeniem naukowym i biznesowym, przede wszystkim zaś lubiących ambitne wyzwania w dziedzinie wyszukiwania informacji www.ppj.pl, kontakt@ppj.pl Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .
  11. 11. Dziękujemy za uwagę! Filip Graliński & Karol Świetlik Szukając pani S***k*n*us, czyli jak łączyć kompetencje. . .

×