Prawdziwe oblicze tekstu, czyli jak rozmawiamy w sieci [WDI 2019]

•

0 likes•43 views

Sotrender

Prawdziwe oblicze tekstu, czyli jak rozmawiamy w sieci Prezentacja z Warszawskich Dni Informatyki 2019

Data & Analytics

Prawdziwe oblicze tekstu, czyli jak
rozmawiamy w sieci
Rafał Wojdan,
Jakub Nowacki
Warszawskie Dni Informatyki 2019

whoami
2
Rafał Wojdan
Senior Machine Learning Engineer @ Sotrender
Trainer @ Sages r.wojdan@sages.com.pl
dr inż. Jakub Nowacki
Lead Machine Learning Engineer @ Sotrender
Trainer @ Sages

Co to sentyment?
Six basic emotions by
Ekman

Poziomy sentymentu (opcjonalnie)
● Document-level
● Sentence-level
● Phrase-level
● Feature-level
https://nlp.stanford.edu/sentiment/treebank.html?w=humor%2Cn%27t

Stare i nowe podejście do NLP
https://www.upwork.com/hiring/for-clients/artificial-intelligence-and-natural-language-processing-in-big-data/

Analiza sentymentu
http://karpathy.github.io/2015/05/21/rnn-effectiveness/
Analiza sentymentu
(klasyﬁkacja)

Embeddings
Glove
FastText ELMo Bert
Character
level Context
Attention
Transformer
(Bi-directional)

Long short-term memory (LSTM)
http://colah.github.io/posts/2015-08-Understanding-LSTMs/

Przygotowanie danych w mediach
społecznościowych
CANT WAIT for the new season of #TwinPeaks YAAAAY ＼(^o^)／!!!
@davidlynch
CANT WAIT for the new season of _hashtag_TwinPeaks_ YAY _smiley_excited_!
_mention_davidlynch_ _emoji_happy_
HASHTAG ELONGATED WORD SMILEY ELONGATED WORD
MENTION EMOJI

Przygotowanie danych w mediach
społecznościowych
Jutro mija miesiąc od premiery albumu
_hashtag_instrukcjaobsługiświrów_ więc chyba już
możemy zdradzić częściowo zawartość edycji
specjalnej _emoji_smiling_face_with_sunglasses_
projekt _mention_forinstudiocom_

Flair - State of the Art NLP Library
● Łatwość użycia state-of-the-art word embeddings takie jak GloVe, BERT, ELMo
● Tworzenie embedding’ów dokumentów jako kombinacja różnych embedding’ów słów
● Zawiera Flair Embedding
● Wspiera wiele języków
● Modelowanie takich zagadnień jak:
○ Named entity recognition (NER)
○ Part-of-speech tagging (PoS)
○ Klasyfikacja (Multi-class i Multi-label)
○ Language model
● Hyperparameters optimization
● PyTorch
https://github.com/zalandoresearch/flair

Flair - przykład klasyﬁkacji
https://towardsdatascience.com/text-classification-with-state-of-the-art-nlp-library-flair-b541d7add21f
### Data load
corpus = NLPTaskDataFetcher.load_classification_corpus(Path('./'), test_file='test.csv', dev_file='dev.csv',
train_file='train.csv')
### Mixing word embeddings into document embeddings via LSTM
word_embeddings = [WordEmbeddings('glove'), FlairEmbeddings('news-forward-fast'),
FlairEmbeddings('news-backward-fast')]
document_embeddings = DocumentLSTMEmbeddings(word_embeddings, hidden_size=512)
### Training
classifier = TextClassifier(document_embeddings, label_dictionary=corpus.make_label_dictionary(),
multi_label=False)
trainer = ModelTrainer(classifier, corpus)
trainer.train('./', max_epochs=10)
### Predict
classifier = TextClassifier.load_from_file('./best-model.pt')
sentence = Sentence('Hi. Yes mum, I will...')
classifier.predict(sentence)
print(sentence.labels)
Result: ‘[ham (1.0)]’

[Wyniki]
http://nlpprogress.com/english/sentiment_analysis.html
Task Score Our
SemEval-2017 Task 4 Subtask A (Pos, Neg,
Neu) F1-score 0.685 F1-score 0.647
SemEval 2018 Task 1E-c (Emotions) Macro-F1 56.1 -
SST-2 binary sentiment Accuracy: 95.6% -
Model Score
LSTM + Flair on Polish Common Crawl Accuracy: 91.47%
LSTM + Multi-Language Flair (English, German,
French, Italian, Dutch, Polish) Accuracy: 87.79%
LSTM + Multi-Language BERT Accuracy: 82.5%
Przykłady State-of-the art dla klasyﬁkacji sentymenty
Wyniki eksperymentów na naszych danych w j. polskim

Co to znaczy dobrze?
http://blog.archisnapper.com/done-is-better-than-perfect-also-for-architects/

O zagadnieniu: Czy następuje taki moment w życiu programisty, kiedy może on stwierdzić, że jego warsztat jest już doskonały? Nie, jeżeli pracuje w technologiach internetowych. Ta dziedzina informatyki rozwija się w niesamowicie szybkim tempie, a stworzone wczoraj rozwiązania warto stosować już dziś! Cel i korzyści spotkania: Podczas spotkania słuchacze poznają aktualnie wykorzystywane technologie oraz kluczowe umiejętności w produkcji aplikacji internetowych, jak również metody programowania ekstremalnego i techniki zwinnego wytwarzania oprogramowania. Osobom, które dopiero zaczynają swoją przygodę z web development, zostanie przedstawiona propozycja działań, których sumienne podjęcie się gwarantuje odniesienie sukcesu zawodowego.

Technologie przetwarzania danych by ZAiIO

Arkadiusz Nowakowski

System SOOP

ForUnit Nowysz i Wspólnicy Sp.J

e_Talent rozwiązuje konkretne problemy, na które bardzo często natykają się osoby zarządzające procesami oceny okresowej, rozwojem, planowaniem zadań i celów: Redukuje koszty: przechowywania, kopiowania, sortowania dokumentów dotyczących oceny, Rozwiązuje problem kontroli nad przebiegiem procesu oceny - system automatycznie sprawdza stan zaawansowania przebiegu oceny i wysyła powiadomienia przypominające do pracownika, który jej nie ukończył. Klient nie musi prowadzić żadnej dodatkowej kontroli przebiegu oceny, co oszczędza czas i usprawnia cały proces, Skraca ilość czasu przeznaczanego na proces oceny pozwalając przejść z systemu oceny papierowej, wymagających pracochłonnych analiz na nowoczesne rozwiązania on-line. System umożliwia tworzenie zestawień dot. pracowników o charakterze statystycznym oraz generuje obszerne raporty zbiorcze na podstawie, których można prześledzić oraz porównać wyniki oceny, Zapobiega sytuacji w której system oceny nie nadąża za zmianami zachodzącymi w firmie. Klient może w dowolnym momencie, w szybkim czasie i bez konieczności zakupu nowego systemu, zdecydować o zmianie w zakresie metody dokonywania oceny np. przejść z oceny 180 na 360 stopni, zmienić kryteria, wygląd arkusza, wprowadzić zmiany w zakresie obowiązków, wymaganych kompetencji, kwalifikacji ocenianych stanowisk, struktury organizacyjnej, przeprojektować arkusze, Pozwala uniknąć sytuacji w której oceniany pracownik szybko zapomina o ustaleniach dokonanych podczas oceny. Każdy oceniany otrzymuje raport indywidualny, dające ocenianemu pełen obraz wymagań oraz oczekiwań w zakresie ocenianych kryteriów, Zapobiega rozproszeniu informacji - wszystkie dane przechowywane są w jednym miejscu tak więc mamy do nich szybki dostęp w dowolnym momencie, i z dowolnego miejsca, Obiektywizuje ocenę, angażuje pracowników w jej przebieg, wiąże ocenę z rozwojem i motywacją dzięki czemu nie jest ona postrzegana jako niezrozumiała i niepotrzebna procedura.

Open Power Template

PHPCon Poland

Autor: Tomasz "Zyx" Jędrzejewski Prelekcja składać się będzie z dwóch części. Pierwsza poświęcona będzie problematyce systemów szablonów jako bibliotek budzących wiele kontrowersji. Odpowiemy sobie na pytania, czym te biblioteki naprawdę są, jaki mają potencjał oraz jakie mity o nich pokutują na ich temat nawet wśród dobrych programistów. W drugiej części skupimy się w całości na systemie szablonów Open Power Template, pokazując jego główne założenia, filozofię, najciekawsze rozwiązania oraz przyszłość tego ambitnego projektu. Prelekcja będzie ilustrowana praktycznymi przykładami oraz spostrzeżeniami zgromadzonymi w trakcie wielu lat badania i projektowania tego typu systemów.

Więcej testów/mniej kodu - Michał Gaworski, kraQA 13

kraqa

Framework w architekturze SOA

3camp

Testowanie na 101 sposobów

Katarzyna Javaheri-Szpak

Java. Aplikacje bazodanowe. Najlepsze rozwiązania

Wydawnictwo Helion

Aplikacje biznesowe dotyczą danych -- niezależnie od tego, czy są to dane o produkcie, szczegóły dotyczące kart kredytowych użytkowników czy preferowanego koloru kupowanych samochodów. Wraz ze wzrostem znaczenia informacji wzrosła także złożoność dostępu do nich. Programiści Javy mogą wybierać teraz spośród różnego rodzaju interfejsów API i technologii -- EJB, JDO, JDBC, SQL, RDBMS, OODBMS i innych. Do tej pory byli oni zdani na siebie przy podejmowaniu decyzji o tym, który model najlepiej pasuje do ich aplikacji i jak w najlepszy sposób korzystać z wybranego API. Książka "Java. Aplikacje bazodanowe. Najlepsze rozwiązania" przychodzi z pomocą programistom. Teraz nie muszą już oni przeszukiwać kilku książek na temat różnych API, aby zdecydować o odpowiedniej metodzie. Ten obszerny przewodnik omawia podstawy wszystkich wiodących interfejsów API (Enterprise JavaBeans, Java Data Objects, JDBC, a także innych, mniej znanych opcji), objaśnia metodologię i komponenty projektowe wykorzystujące wspomniane interfejsy oraz prezentuje rozwiązania najbardziej dostosowane do różnych typów aplikacji. Książka omawia także zagadnienia dotyczące projektowania baz danych, począwszy od architektury tabel, skończywszy na normalizacji. Autor przedstawia najlepsze rozwiązania rozmaitych problemów. Nauczysz się w jaki sposób przeprowadzać różne rodzaje normalizacji, a także dowiesz się, kiedy warto przeprowadzić denormalizację. Uzyskasz także szczegółowe instrukcje dotyczące optymalizacji zapytań SQL w celu najlepszego wykorzystania struktury bazy danych. Zaprezentowano także praktyczne zastosowania omawianych technik dostarczając informacje, które Czytelnik może zastosować natychmiast we własnych projektach aplikacji biznesowych.

W trakcie prezentacji Magdalena i Jakub opowiedzą o tym, czym jest i jak pracuje społeczność WordPressa. Zastanowimy się wspólnie, jak można włączyć się w jej działania i ulepszać nasz ukochany system albo jak kto woli, zdobyć więcej odznak do profilu na wordpress.org :-) Będzie kilka słów o zgłaszaniu poprawek do jądra systemu, pracach nad interfejsem, poprawianiu dostępności i użyteczności, pracy tłumaczy i pomocy, a także o recenzowaniu motywów i tworzeniu dokumentacji. Oczywiście, nie obędzie się bez podsumowania tegorocznego Contributor Day, czyli pierwszego dnia naszej konferencji. *** Magdalena Paciorek i Jakub Milczarek podczas WordCamp Lublin 2017: https://2017.lublin.wordcamp.org/session/nie-pytaj-co-wordpress-moze-zrobic-dla-ciebie-zapytaj-co-ty-mozesz-zrobic-dla-wordpressa/

[TestWarez 2017] Skomplikowane testowanie, skomplikowane terminy. Testowanie ...

Stowarzyszenie Jakości Systemów Informatycznych (SJSI)

Każdy z nas słyszał termin „testowanie techniczne”. Wielu z nas mówi o sobie z dumą „tester techniczny”. Rynek potrzebuje „testerów technicznych”. Czy jednak wszyscy zgadzamy się w rozumieniu tych terminów? Kto i na jakiej podstawie powinien decydować co jest, a co nie testowaniem technicznym? Prezentacja na pograniczu filozofii i technikaliów próbuje usystematyzować terminologię i zamieszać w głowach słuchaczy.

Jak zacząć, aby nie żałować - czyli 50 twarzy PHP

Piotr Horzycki

Zasady technicznej organizacji projektów programistycznych

sztywny

Prorgamowanie aspektowe

Michał Mac

Wprowadzenie do PHPUnit

Michał Kowalik

Testowanie bezpieczenstwa aplikacji mobilnych

SecuRing

Prezentacja z konferencji Mobilization 2014. Abstrakt: Na rzeczywistych przykładach pokażę jak wygląda proces oceny bezpieczeństwa aplikacji mobilnych. Zobaczymy m.in. jak wykrywać słabości związane z przechowywaniem danych na urządzeniu, nieprawidłowości w transmisji, oraz najgroźniejsze - błędy w API po stronie serwera (np. błędy logiczne, kontroli dostępu, REST). Jednocześnie okaże się jakie techniki utrudniają ataki, jaki jest faktyczny wpływ na ryzyko poszczególnych podatności, oraz jakie zabezpieczenia warto zastosować w różnych aplikacjach.

Prezentacja z Big Data Tech 2016: Machine Learning vs Big Data

Bartlomiej Twardowski

Machine learning vs big data od pomysłu do produkcji - Bartłomiej Twardowsk...

Evention

Using Red Gate SQL Doc for database documentation

Mariusz Koprowski

Edukacja testerska na Quality in IT

Radoslaw Smilgin

ANSIBLE W PRAKTYCE

Bartosz Tkaczewski

Sporządzanie oraz umiejętne wykorzystanie przepisów i schematów. Ansible w pr...

The Software House

Presentation from Uszanowanko Programowanko meetup - http://www.uszanowanko.pl/z-biblioteki-cechu-ubijacza-potworow Bartosz Tkaczewski - Sporządzanie oraz umiejętne wykorzystanie przepisów i schematów Praktyczne wykorzystanie narzędzia Ansible do przyjemnego tworzenia własnego środowiska developerskiego - czyli jak uprościć sobie życie i pozbyć się mitycznego - „dziwne a u mnie działało".

Paleta możliwości web developera

Tomasz Borowski

Czy następuje taki moment w życiu programisty, kiedy może on stwierdzić, że jego warsztat jest już doskonały? Nie, jeżeli pracuje w technologiach internetowych. Ta dziedzina informatyki rozwija się w niesamowicie szybkim tempie, a stworzone wczoraj rozwiązania warto stosować już dziś! Podczas prelekcji słuchacze poznają aktualne możliwości, jakie dają web developerowi różne biblioteki, narzędzia developerskie oraz usługi.

Tworzenie czatbotów w PHP z wykorzystaniem NLP

Laravel Poland MeetUp

Programista Webowy .Net Katowice

Joanna Ochocińska

PLNOG19 - Andrzej Prałat & Wojciech Rybicki - Jak usprawnić działanie WAF wyk...

PROIDEA

Tradycyjny WAF (Web Application Firewall) jest zwykle oparty na regułach stworzonych przez inżynierów bezpieczeństwa na podstawie analizy opublikowanych najnowszych rodzajów podatności oraz przykładów ataków. Reguły te, często bazujące na wyrażeniach regularnych polegają m.in. na znalezieniu określonych ciągów znaków występujących w zapytaniu (sygnatur ataków). Doświadczenie pokazuje jednak, że atakujący stale dostosowują swoje metody, modyfikując zapytania tak, aby nie zostały one dopasowane do istniejących już sygnatur. W rezultacie, potrzebna jest ciągła praca ekspertów od cyberbezpieczeństwa, którzy analizują działanie WAF i aktualizują sygnatury tak, by był on w stanie wykrywać nowe zagrożenia. W prezentacji przedstawione zostanie rozwiązanie mające na celu optymalizację tego procesu poprzez wykorzystanie technik uczenia maszynowego. Posiadając przykłady poprawnych i błędnych zapytań można stworzyć model predykcyjny, który automatycznie będzie klasyfikował nowe żądania jako podejrzane lub prawidłowe, pozwalając na wykrycie nieznanych wcześniej naruszeń. W ten sposób, praca inżynierów bezpieczeństwa nad aktualizacją i ulepszeniem WAF, może zostać w znacznym stopniu zautomatyzowana, a analiza tysięcy zapytań zastąpiona przeglądem niewielkiego podzbioru żądań zaklasyfikowanych jako podejrzane. http://plnog.pl https://www.facebook.com/PLNOG/ https://twitter.com/PLNOG

Praktyki techniczne

Michał Parkoła

Topic modeling - nie tylko LDA w Gensim

Sotrender

Jaki algorytm jest najczęściej wykorzystywany do Topic Modelingu? LDA! A jaka jest najpopularniejsza implementacja LDA? Oczywiście ta zawarta w pakiecie Gensim. LDA zaimplementowane w pakiecie Gensim jest niezaprzeczalnie dobrym wyborem startowym. Niestety nie umożliwia szybkiego testowania i poprawiania modelu wykorzystując duże zbiory danych, nie będzie też dobrym wyborem przy pracy z krótkimi tekstami z social media. W swojej prezentacji przedstawię topic modeling z nowej strony, skupiając się na metodzie GSDMM, stworzonej specjalnie pod analizę krótkich tekstów. Przedstawię również alternatywną implementację w języku Python algorytmów topic modelingu, w tym również LDA, umożliwiającą uzyskanie zadowalających wyników nawet przy bardzo krótkich deadline’ach. Prezentacja z Warszawskich Dni Informatyki 2021

Budowa modeli uczenia maszynowego zgodnie z regulacjami o ochronie danych za ...

Sotrender

Budowa modeli uczenia maszynowego zgodnie z regulacjami o ochronie danych za pomocą metody Federated Learning Tradycyjne w pełni nadzorowane metody budowy modeli uczenia maszynowego (ML) zakładają pełny dostęp do danych i etykiet. Jednakże, taki dostęp może zostać ograniczony poprzez regulacje prawne o ochronie danych. Ostatnie postępy w obszarze privacy-preserving ML proponują Federated Learning (FL) jako metodę przezwyciężania takich problemów. FL pozwala trenować modele ML bez bezpośredniego dostępu do prywatnych danych. W prezentacji omówimy podstawy podejścia FL i pokażemy jak może zostać wykorzystane do budowy modeli ML zachowując prywatność danych. Zademonstrujemy nasz sposób budowy modeli klasyfikacyjnych i regresyjnych do problemów z dziedziny mediów społecznościowych, uwzględniając tradycyjne algorytmy ML oraz głębokie sieci neuronowe. Prezentacja z Warszawskich Dni Informatyki 2021

Similar to Prawdziwe oblicze tekstu, czyli jak rozmawiamy w sieci [WDI 2019]

Kiedy łatać błędy, a kiedy dokładać "ficzery"? Jak układać kolejkę zadań w te...

Paq Studio

Metaprogramowanie w JS

Dawid Rusnak

Nie pytaj, co WordPress może zrobić dla Ciebie, zapytaj, co Ty możesz zrobić ...

WordCamp Polska

[TestWarez 2017] Skomplikowane testowanie, skomplikowane terminy. Testowanie ...

Stowarzyszenie Jakości Systemów Informatycznych (SJSI)

Jak zacząć, aby nie żałować - czyli 50 twarzy PHP

Piotr Horzycki

Zasady technicznej organizacji projektów programistycznych

sztywny

Prorgamowanie aspektowe

Michał Mac

Wprowadzenie do PHPUnit

Michał Kowalik

Testowanie bezpieczenstwa aplikacji mobilnych

SecuRing

Prezentacja z Big Data Tech 2016: Machine Learning vs Big Data

Bartlomiej Twardowski

Machine learning vs big data od pomysłu do produkcji - Bartłomiej Twardowsk...

Evention

Using Red Gate SQL Doc for database documentation

Mariusz Koprowski

Edukacja testerska na Quality in IT

Radoslaw Smilgin

ANSIBLE W PRAKTYCE

Bartosz Tkaczewski

Sporządzanie oraz umiejętne wykorzystanie przepisów i schematów. Ansible w pr...

The Software House

Paleta możliwości web developera

Tomasz Borowski

Tworzenie czatbotów w PHP z wykorzystaniem NLP

Laravel Poland MeetUp

Programista Webowy .Net Katowice

Joanna Ochocińska

PLNOG19 - Andrzej Prałat & Wojciech Rybicki - Jak usprawnić działanie WAF wyk...

PROIDEA

Praktyki techniczne

Michał Parkoła

Similar to Prawdziwe oblicze tekstu, czyli jak rozmawiamy w sieci [WDI 2019] (20)

Kiedy łatać błędy, a kiedy dokładać "ficzery"? Jak układać kolejkę zadań w te...

Metaprogramowanie w JS

Nie pytaj, co WordPress może zrobić dla Ciebie, zapytaj, co Ty możesz zrobić ...

[TestWarez 2017] Skomplikowane testowanie, skomplikowane terminy. Testowanie ...

Jak zacząć, aby nie żałować - czyli 50 twarzy PHP

Zasady technicznej organizacji projektów programistycznych

Prorgamowanie aspektowe

Wprowadzenie do PHPUnit

Testowanie bezpieczenstwa aplikacji mobilnych

Prezentacja z Big Data Tech 2016: Machine Learning vs Big Data

Machine learning vs big data od pomysłu do produkcji - Bartłomiej Twardowsk...

Using Red Gate SQL Doc for database documentation

Edukacja testerska na Quality in IT

ANSIBLE W PRAKTYCE

Sporządzanie oraz umiejętne wykorzystanie przepisów i schematów. Ansible w pr...

Paleta możliwości web developera

Tworzenie czatbotów w PHP z wykorzystaniem NLP

Programista Webowy .Net Katowice

PLNOG19 - Andrzej Prałat & Wojciech Rybicki - Jak usprawnić działanie WAF wyk...

Praktyki techniczne

More from Sotrender

Topic modeling - nie tylko LDA w Gensim

Sotrender

Budowa modeli uczenia maszynowego zgodnie z regulacjami o ochronie danych za ...

Sotrender

Facebook Audience Insights – czyli czym interesują się polscy użytkownicy Fac...

Sotrender

Facebook Audience Insights – czyli czym interesują się polscy użytkownicy Facebooka Estymowana liczba polskich użytkowników Facebooka to około 20 mln osób - jest to duża grupa społeczna, która jest zróżnicowana demograficznie, przestrzennie czy pod względem sieci zainteresowań. Dzięki tym danym można sprawdzić czym interesuje się lub jakimi zachowaniami cechuje się przeciętny użytkownik Facebooka w danej lokalizacji bądź grupie. Dane te są niezwykle cenne nie tylko dla marketerów czy polityków w celu odpowiedniego targetowania reklam, ale także dla szerokiej grupy badaczy, socjologów czy właśnie politologów, których celem badawczym jest sprawdzenie czym interesuje się dana grupa społeczno-demograficzna. Na uwagę zasługuje również to, iż prowadząc odpowiedni monitoring można obserwować zmiany w zainteresowaniach oraz zachowaniu użytkowników Facebooka - bowiem estymowana grupa odbiorców jest na bieżąco aktualizowana i zmienia się w czasie. Natomiast dzięki wykorzystaniu metod badań sieci społecznych (SNA) i sprawdzeniu liczby, siły i centralności powiązań między poszczególnymi kategoriami zainteresowań możliwe jest sprawdzenie czy pomiędzy poszczególnymi zainteresowaniami występują zależności. Jest co cenna wiedza chociażby dla marketerów ze względu na możliwość dotarcia z jeszcze bardziej spersonalizowanymi treściami do bardziej odpowiedniej grupy odbiorców. W wystąpieniu zostanie przeprowadzone studium przypadku którego celem będzie sprawdzenie występujących zależności pomiędzy poszczególnymi kategoriami zainteresowań na Facebooku. Badanie zostanie przeprowadzone na podstawie danych pobranych z narzędzia Facebook Audience Insights oraz przy użyciu języka R. W trakcie wystąpienia zostaną również zaprezentowane pakiety za pomocą których możliwe jest przeprowadzenie badania SNA w R. Prezentacja z Warszawskich Dni Informatyki 2021

Human-in-the-loop (HILT) machine learning i augmentacja danych, czyli jak zbu...

Sotrender

Rozpoznawanie treści obrazów na kreacjach reklam na Facebooku z wykorzystanie...

Sotrender

Modele do rozpoznawania obrazów i wykrywania tekstów i obiektów na zdjęciach rozwijają się już od dłuższego czasu. Jednak z różnych przyczyn ich dostępność oraz możliwości skorzystania mogą być ograniczone. Mogą to być koszty użycia (na przykład ze względu na dostęp do mocy obliczeniowej), brak danych treningowych czy też brak umiejętności technicznych badacza. Do przeprowadzenia badania może też nie być wystarczająco dużo czasu, aby budować i trenować modele. Aby minimalizować czas oraz koszt prowadzenia badania możliwe jest korzystanie z istniejących już narzędzi, np. Google Vision API. Za jego pomocą możliwe jest szybkie oraz wygodne rozpoznawanie obrazów, wykrywanie znajdujących się na nim obiektów, krajobrazów, ludzi oraz zwierząt a także tekstów umieszczonych na zdjęciach. Dzięki korzystaniu z takich rozwiązań nie jest wymagane posiadanie modeli treningowych ani dostępu do mocy obliczeniowej. Google Vision API oferuje zaawansowane, wstępnie przeszkolone modele uczenia maszynowego za pośrednictwem interfejsów API RST i RPC. Dzięki temu analityk może odpytać API o interesujące go rzeczy i następnie przejść do prowadzenia badania. Z możliwości Google Vision API można skorzystać także przy wykorzystaniu języka R dzięki pakietowi google Cloud Vision R. W wystąpieniu zostaną zaprezentowane metody wykorzystania opisanych powyżej narzędzi. Zostanie przeprowadzone studium przypadku – przeprowadzenie rozpoznawania tekstów, osób oraz zawartości obrazów na zdjęciach wykorzystywanych w reklamach politycznych na Facebooku w trakcie trwania kampanii prezydenckiej. Dzięki możliwościom rozpoznawania tekstu możliwe jest przeanalizowanie treści umieszczonych na zdjęciach w postach sponsorowanych oraz przeanalizowanie najpopularniejszych haseł wykorzystywanych przez poszczególnych kandydatów, a dzięki wykrywaniu znajdujących się na grafice obiektów – możliwe jest sprawdzenie w jakim kontekście te hasła występują. W wyniku otwarcia przez Facebook Biblioteki Reklam badacze, dziennikarze oraz opinia publiczna otrzymali dostęp do nowego narzędzia, które zwiększa przejrzystość targetowanych treści politycznych. Jednak aby kontrolować i weryfikować reklamy polityczne, badacze muszą korzystać z odpowiednich narzędzi. Nie posiadając wytrenowanych wcześniej modeli badacz może sięgnąć właśnie po gotowe rozwiązanie, jakim jest Google Vision API.

Predykcja efektywności działań marketingowych w serwisie Facebook

Sotrender

O tym, że serwis Facebook dla wielu osób stanowi źródło rozrywki i komunikacji wie już każdy. Jednak nie każdy wie, że ze względu na swoją popularność jest on coraz częściej wykorzystywany przez firmy do prowadzenia działań marketingowych. Jednym z kluczowych aspektów staje się optymalizowanie publikowanych reklam w taki sposób, aby spełniały one stawiane przed nimi cele. Pierwszym krokiem w tym kierunku jest predykcja efektywności/popularności reklam. W prezentacji tej opowiedzieliśmy, jak zagadnienie badania efektywności działań marketingowych zostało zaadresowane w Sotrender. Przedstawiliśmy strukturę Facebook Marketing API oraz opisaliśmy nasze rozwiązanie do pozyskiwania danych. Omówiliśmy, dlaczego zdefiniowanie zmiennej celu jest problematyczne oraz pokazaliśmy, jak stworzyć model, który działa w oparciu o dane tekstowe, obrazowe oraz parametry konfiguracyjne reklamy. Prezentacja z Data Science Summit 2020

Trenowanie i wdrażanie modeli uczenia maszynowego z wykorzystaniem Google Clo...

Sotrender

Okej, mam już mój świetny model w Notebooku, co dalej? Większość kursów i źródeł dotyczących uczenia maszynowego dobrze przygotowuje nas do implementacji algorytmów uczenia maszynowego i budowy mniej lub bardziej skomplikowanych modeli. Jednak w większości przypadków model jest jedynie małym fragmentem większego systemu, a jego wdrożenie i utrzymywanie okazuje się w praktyce procesem czasochłonnym i generującym rozmaite błędy. Problem potęguje się kiedy mamy do sproduktyzowania nie jeden, a więcej modeli. Choć z roku na rok powstaje coraz więcej narzędzi i platform do usprawnienia tego procesu, jest to zagadnienie któremu wciąż poświęca się stosunkowo mało uwagi. W mojej prezentacji przedstawię jakich podejść, dobrych praktyk oraz narzędzi i usług Google Cloud Platform używamy w Sotrender do efektywnego trenowania i produktyzacji naszych modeli ML, służących do analizy danych z mediów społecznościowych. Omówię na które aspekty DevOps zwracamy uwagę w kontekście wytwarzania produktów opartych o modele ML (MLOps) i jak z wykorzystaniem Google Cloud Platform można je w łatwy sposób wdrożyć w swoim startupie lub firmie. Prezentacja Macieja Pieńkosza z Sotrendera poczas Data Science Summit 2020

Wykrywanie mowy nienawiści w języku polskim

Sotrender

W prezentacji został poruszony problem wykrywania mowy nienawiści w danych tekstowych, pochodzących głównie z mediów społecznościowych. Mowa nienawiści jest problemem coraz częściej spotykanym w różnych sposobach komunikacji, zwłaszcza tych elektronicznych. Istnieje wiele źródeł tego zjawiska, takie jak brak zahamowań podczas komunikacji online lub złudne poczucie bezpieczeństwa i anonimowości, często określane jako “online disinhibition effect”. Wraz ze wzrostem liczby szkodliwych wiadomości, rośnie też liczba automatycznych systemów, które są w stanie je wykrywać. Niewątpliwie, w dzisiejszych czasach najlepsze wyniki w modelowaniu języka osiągają modele oparte na uczeniu głębokim, które posiadają coraz większe zrozumienie języka. Pomimo szybkiego tempa rozwoju dziedziny NLP, powszechne zastosowanie tych modeli jest często mocno ograniczone. Wynika to z tego, że modele są często przeznaczone do jednego wybranego języka. Prezentacja Mikołaja Małkińskiego z Sotrendera na konferencji AI & NLP Day 2020

Federated Learning: Budowanie modeli uczenia maszynowego bez wglądu w rozpros...

Sotrender

Federated Learning: Budowanie modeli uczenia maszynowego bez wglądu w rozproszone dane Powszechnie stosowanym podejściem do budowy modeli uczenia maszynowego jest scentralizowane uczenie (centralised learning). Zbieramy wszystkie dostępne dane na maszynę centralną, przygotowuje zbiór treningowy, walidacyjny oraz testowy i uczymy nasz nowy model. Jednakże, w niektórych przypadkach dane dostępne na urządzeniach lokalnych nie mogę zostać przesłane i zgromadzone centralnie. Głównym powodem jest poufność tych danych czy ograniczenia związane z ich wielkością i możliwością przesłana. Rozwiązaniem, które pozwala na uczenie modeli globalnych na wszystkich danych rozproszonych po wielu urządzeniach brzegowych (edge device) lub serwerach bez bezpośredniego wglądu do tych danych jest Federated Learning. W trakcie prezentacji zostaną omówione wszystkie główne zagadnienia związane z tym podejściem oraz wskazane dlaczego to podejście może być wykorzystane również w przypadku firm, które nie korzystają z danych zbieranych przez urządzenia typu edge device. Prezentacja Rafała Wojdana z Sotrendera na AI & NLP Day 2020

Ślady cyfrowe - sposoby na analizowanie aktywności internautów i działań rekl...

Sotrender

Jak analizować ślady cyfrowe? Przedstawiamy różne aspekty zbierania i wykorzystywania danych o zachowaniach i preferencjach użytkowników przez platformy społecznościowe, w tym rozwiązania takie jak: - Biblioteka reklam Facebooka (Facebook Ads Library), - Statystyki grup odbiorców (Facebook Audience Insights), - Google Moja Firma (Google My Business), - oraz przykłady z badań Sotrendera z użyciem modeli machine learningowych stworzonych w celu rozpoznawania emocji, sentymentu i hate speechu. Część wniosków pochodzi z projektu ,,Kto Cię namierzył”, prowadzonego wspólnie z Fundacją Panoptykon i Fundacją ePaństwo. Wspominamy o sposobach targetowania reklam oraz o budżetach reklamowych znanych polityków: Janusz Korwin-Mikke,  Donald Trump czy Mike Bloomberg.

Bajki robotów? Machine Learning in Digital Marketing | Konferencja In Digital...

Sotrender

Czy sztuczna inteligencja (AI), a zwłaszcza machine learning zmieniają oblicze branży interaktywnej? Jak korzystają z tego platformy takie jak Facebook czy Google, a jak - ich klienci? Które zadania wykonywane przez marketerów, agencje i domy mediowe już teraz można automatyzować? W jaki sposób algorytmy wpływają nawet na obszary wymagające kreatywności, jak tworzenie treści? Oraz jak marketerzy mogą obronić się przed zagładą i nadciągającą robotyczną apokalipsą? Sprawdźcie, jakie zastosowania Machine Learningu są dla Was dostępne już teraz, jak wykorzystać je do zwiększenia ROI swoich kampanii oraz jak nie dać się nabrać na chwytliwe obietnice.

Sztuczna inteligencja w marketingu | Infoshare 2019

Sotrender

Pragmatic Machine Learning in Business

Sotrender

Wykorzystanie Big Data i cyfrowego śladu w naukach psychologicznych i społecz...

Sotrender

Czym są dane cyfrowe i jak są zbierane? To nie tylko dane dotyczące zachowań w internecie, ale też internetowe ślady zachowań ze świata rzeczywistego. Jak badać problemy psychologii społecznej w sposób niereaktywny? Jak wyglądało to kiedyś? Jak wykorzystywać dane pochodzące z Facebooka? Jakie ograniczenia związane są z wykorzystaniem Big Data? Tego wszystkiego dowiecie się z naszej prezentacji!

Jak wykorzystać social media w badaniach i jak przełożyć to na decyzje związa...

Sotrender

Obsługa klienta w social media

Sotrender

Jakimi wartościami kieruje się Twoja grupa docelowa? [Listonic Case Study]

Sotrender

Z pewnością większość osób związanych z szeroko pojętym marketingiem wie już jak ważne jest ciągłe poznawanie swojej grupy docelowej. W Sotrenderze również dostrzegamy rosnący trend, jeśli chodzi o dążenia firm, do poszerzania swojej wiedzy na temat zarówno obecnych jak i potencjalnych klientów. Odpowiedzią na te zapotrzebowania są m.in. badania Audience Scan. Dziś przedstawiamy najciekawsze wnioski z Audience Scanu, który przeprowadziliśmy dla firmy Listonic.

Każde pokolenie ma swój czas? Różnice generacyjne a dane z mediów społecznośc...

Sotrender

Poszerzanie pola walki - czyli z kim tak naprawdę konkurujecie?

Sotrender

Mallkołaj rozdaje prezenty - Case Study z akcji Mall.pl i Los Videos

Sotrender

More from Sotrender (20)

Topic modeling - nie tylko LDA w Gensim

Budowa modeli uczenia maszynowego zgodnie z regulacjami o ochronie danych za ...

Facebook Audience Insights – czyli czym interesują się polscy użytkownicy Fac...

Human-in-the-loop (HILT) machine learning i augmentacja danych, czyli jak zbu...

Rozpoznawanie treści obrazów na kreacjach reklam na Facebooku z wykorzystanie...

Predykcja efektywności działań marketingowych w serwisie Facebook

Trenowanie i wdrażanie modeli uczenia maszynowego z wykorzystaniem Google Clo...

Wykrywanie mowy nienawiści w języku polskim

Federated Learning: Budowanie modeli uczenia maszynowego bez wglądu w rozpros...

Ślady cyfrowe - sposoby na analizowanie aktywności internautów i działań rekl...

Bajki robotów? Machine Learning in Digital Marketing | Konferencja In Digital...

Sztuczna inteligencja w marketingu | Infoshare 2019

Pragmatic Machine Learning in Business

Wykorzystanie Big Data i cyfrowego śladu w naukach psychologicznych i społecz...

Jak wykorzystać social media w badaniach i jak przełożyć to na decyzje związa...

Obsługa klienta w social media

Jakimi wartościami kieruje się Twoja grupa docelowa? [Listonic Case Study]

Każde pokolenie ma swój czas? Różnice generacyjne a dane z mediów społecznośc...

Poszerzanie pola walki - czyli z kim tak naprawdę konkurujecie?

Mallkołaj rozdaje prezenty - Case Study z akcji Mall.pl i Los Videos

Prawdziwe oblicze tekstu, czyli jak rozmawiamy w sieci [WDI 2019]

1. Prawdziwe oblicze tekstu, czyli jak rozmawiamy w sieci Rafał Wojdan, Jakub Nowacki Warszawskie Dni Informatyki 2019

2. whoami 2 Rafał Wojdan Senior Machine Learning Engineer @ Sotrender Trainer @ Sages r.wojdan@sages.com.pl dr inż. Jakub Nowacki Lead Machine Learning Engineer @ Sotrender Trainer @ Sages

3. Czym się zajmujemy? 3

4. Grant NCBiR 4

5. Tekst w sieci

6. Co to sentyment? Six basic emotions by Ekman

7. Poziomy sentymentu (opcjonalnie) ● Document-level ● Sentence-level ● Phrase-level ● Feature-level https://nlp.stanford.edu/sentiment/treebank.html?w=humor%2Cn%27t

8. Stare i nowe podejście do NLP https://www.upwork.com/hiring/for-clients/artificial-intelligence-and-natural-language-processing-in-big-data/

9. Analiza sentymentu http://karpathy.github.io/2015/05/21/rnn-effectiveness/ Analiza sentymentu (klasyﬁkacja)

10. Embeddings

11. Embeddings Glove FastText ELMo Bert Character level Context Attention Transformer (Bi-directional)

12. Long short-term memory (LSTM) http://colah.github.io/posts/2015-08-Understanding-LSTMs/

13. Przygotowanie danych w mediach społecznościowych CANT WAIT for the new season of #TwinPeaks YAAAAY ＼(^o^)／!!! @davidlynch CANT WAIT for the new season of _hashtag_TwinPeaks_ YAY _smiley_excited_! _mention_davidlynch_ _emoji_happy_ HASHTAG ELONGATED WORD SMILEY ELONGATED WORD MENTION EMOJI

14. Przygotowanie danych w mediach społecznościowych Jutro mija miesiąc od premiery albumu _hashtag_instrukcjaobsługiświrów_ więc chyba już możemy zdradzić częściowo zawartość edycji specjalnej _emoji_smiling_face_with_sunglasses_ projekt _mention_forinstudiocom_

15. Flair - State of the Art NLP Library ● Łatwość użycia state-of-the-art word embeddings takie jak GloVe, BERT, ELMo ● Tworzenie embedding’ów dokumentów jako kombinacja różnych embedding’ów słów ● Zawiera Flair Embedding ● Wspiera wiele języków ● Modelowanie takich zagadnień jak: ○ Named entity recognition (NER) ○ Part-of-speech tagging (PoS) ○ Klasyfikacja (Multi-class i Multi-label) ○ Language model ● Hyperparameters optimization ● PyTorch https://github.com/zalandoresearch/flair

16. Flair - przykład klasyﬁkacji https://towardsdatascience.com/text-classification-with-state-of-the-art-nlp-library-flair-b541d7add21f ### Data load corpus = NLPTaskDataFetcher.load_classification_corpus(Path('./'), test_file='test.csv', dev_file='dev.csv', train_file='train.csv') ### Mixing word embeddings into document embeddings via LSTM word_embeddings = [WordEmbeddings('glove'), FlairEmbeddings('news-forward-fast'), FlairEmbeddings('news-backward-fast')] document_embeddings = DocumentLSTMEmbeddings(word_embeddings, hidden_size=512) ### Training classifier = TextClassifier(document_embeddings, label_dictionary=corpus.make_label_dictionary(), multi_label=False) trainer = ModelTrainer(classifier, corpus) trainer.train('./', max_epochs=10) ### Predict classifier = TextClassifier.load_from_file('./best-model.pt') sentence = Sentence('Hi. Yes mum, I will...') classifier.predict(sentence) print(sentence.labels) Result: ‘[ham (1.0)]’

17. Flair - przykład klasyﬁkacji https://towardsdatascience.com/text-classification-with-state-of-the-art-nlp-library-flair-b541d7add21f ### Data load corpus = NLPTaskDataFetcher.load_classification_corpus(Path('./'), test_file='test.csv', dev_file='dev.csv', train_file='train.csv') ### Mixing word embeddings into document embeddings via LSTM word_embeddings = [WordEmbeddings('glove'), FlairEmbeddings('news-forward-fast'), FlairEmbeddings('news-backward-fast')] document_embeddings = DocumentLSTMEmbeddings(word_embeddings, hidden_size=512) ### Training classifier = TextClassifier(document_embeddings, label_dictionary=corpus.make_label_dictionary(), multi_label=False) trainer = ModelTrainer(classifier, corpus) trainer.train('./', max_epochs=10) ### Predict classifier = TextClassifier.load_from_file('./best-model.pt') sentence = Sentence('Hi. Yes mum, I will...') classifier.predict(sentence) print(sentence.labels) Result: ‘[ham (1.0)]’

18. [Wyniki] http://nlpprogress.com/english/sentiment_analysis.html Task Score Our SemEval-2017 Task 4 Subtask A (Pos, Neg, Neu) F1-score 0.685 F1-score 0.647 SemEval 2018 Task 1E-c (Emotions) Macro-F1 56.1 - SST-2 binary sentiment Accuracy: 95.6% - Model Score LSTM + Flair on Polish Common Crawl Accuracy: 91.47% LSTM + Multi-Language Flair (English, German, French, Italian, Dutch, Polish) Accuracy: 87.79% LSTM + Multi-Language BERT Accuracy: 82.5% Przykłady State-of-the art dla klasyﬁkacji sentymenty Wyniki eksperymentów na naszych danych w j. polskim

19. Co to znaczy dobrze? http://blog.archisnapper.com/done-is-better-than-perfect-also-for-architects/

20. Dziękujemy za uwagę! Pytania?

Prawdziwe oblicze tekstu, czyli jak rozmawiamy w sieci [WDI 2019]

Recommended

Recommended

More Related Content

Similar to Prawdziwe oblicze tekstu, czyli jak rozmawiamy w sieci [WDI 2019]

Similar to Prawdziwe oblicze tekstu, czyli jak rozmawiamy w sieci [WDI 2019] (20)

More from Sotrender

More from Sotrender (20)

Prawdziwe oblicze tekstu, czyli jak rozmawiamy w sieci [WDI 2019]