Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Word embeddings:
reprezentacje właściwościowe słów
Szymon Rutkowski (Uniwersytet Warszawski)
szymon@szymonrutkowski.pl
Intuicja
chłopiec ≈ niedorosły człowiek płci męskiej
dziewczynka ≈ niedorosły człowiek płci żeńskiej
mężczyzna ≈ dorosły c...
Plan prezentacji
● Omówienie Bengio et al., 2003, gdzie
połączono reprezentacje semantyczne z
sieciami neuronowymi.
● Przy...
„Neuronowy probabilistyczny model
języka”
Przekleństwo złożoności (curse of
dimensionality)
● Jak modelować wzajemną dystrybucję wielu
niezależnych zmiennych?
● Prz...
Metoda n-gramów
● Warunkowe prawdopodobieństwo wystąpienia w
tekście jakiegoś słowa na t-tej pozycji, biorąc pod
uwagę wsz...
Podobne-niepodobne zdania
● The cat is walking in the bedroom.
● A dog was running in a room.
● A cat is creeping into the...
Trzypunktowy program
1. Powiążmy z każdym wyrazem w słowniku
wektor właściwości w przestrzeni Rm (tzn.
złożony z m cech rz...
Podobieństwa „funkcji” słów
● The cat is walking in the bedroom.
● A dog was running in a room.
● A cat is creeping into t...
Funkcja obliczana przez sieć
1. Przyporządkowanie C od każdego elementu i
w V (zbiorze wyrazów tworzących słownik) do
wekt...
Schemat sieci neuronowej
Uczenie sieci
● Maksymalizujemy zlogarytmowane prawdopodobieństwo korpusu
treningowego:
● θ – wagi i progi połączeń sieci ...
Zastosowania
Relacje międzywyrazowe
● Nauczono sieć podobnego modelu
semantycznego.
● Model koduje relacje gramatyczne, takie jak
stopi...
Relacje międzywyrazowe
● Odpowiedzią jest funkcja oparta na równaniu wektorów xd
= xb
− xa
+ xc
● Autorzy osiągnęli trafno...
Relacje międzywyrazowe
● W Mikolov et al. 2013b osiągnięto trafność ok. 50%, przy
korpusie 783-milionowym i 600-wymiarowyc...
Zdania: badanie sentymentu
● Parser stanfordzki tworzy drzewa składniowe dla zdań z korpusu
recenzji Rotten Tomatoes.
● W ...
Zdania: badanie sentymentu
Powierzchownie podobne zdania, z poprawnie zaklasyfikowanym
odmiennym sentymentem.
W kierunku tłumaczenia
maszynowego
● Posługujemy się korpusem odpowiadających sobie
dokumentów (Parlament Europejski, wyst...
W kierunku tłumaczenia
maszynowego
Wnioski dla badań języka
Wnioski dla badań języka
● Na pewno nie ma prostej odpowiedniości z
procesami w umyśle.
● Ale modele oparte na wektorach
w...
Bibliografia
● Y. Bengio, R. Ducharme, P. Vincent, and C. Janvin. 2003. A neural
probabilistic language model. Journal of ...
Upcoming SlideShare
Loading in …5
×

Word embeddings: reprezentacje właściwościowe słów

427 views

Published on

Kolejny materiał do referatu. Tym razem był on poświęcony jednej z wiodących metod automatycznego przetwarzania języka.

Published in: Engineering
  • Be the first to comment

  • Be the first to like this

Word embeddings: reprezentacje właściwościowe słów

  1. 1. Word embeddings: reprezentacje właściwościowe słów Szymon Rutkowski (Uniwersytet Warszawski) szymon@szymonrutkowski.pl
  2. 2. Intuicja chłopiec ≈ niedorosły człowiek płci męskiej dziewczynka ≈ niedorosły człowiek płci żeńskiej mężczyzna ≈ dorosły człowiek płci męskiej kotka ≈ kot płci żeńskiej ● Znaczenia słów nie są jednorodne, tylko złożone z mniejszych jednostek. ● Można spróbować przyporządkować słowom ograniczoną liczbę skalarnych właściwości semantycznych i gramatycznych.
  3. 3. Plan prezentacji ● Omówienie Bengio et al., 2003, gdzie połączono reprezentacje semantyczne z sieciami neuronowymi. ● Przykładowe zastosowania tej techniki. ● Obserwacje lingwistyczne.
  4. 4. „Neuronowy probabilistyczny model języka”
  5. 5. Przekleństwo złożoności (curse of dimensionality) ● Jak modelować wzajemną dystrybucję wielu niezależnych zmiennych? ● Przykład: modelowanie ciągu 10 słów przy słowniku o 100 tys. pozycji daje potencjalnie 100 00010 – 1 = 1050 – 1 zmiennych. ● Pojawia się problem reprezentowania takiej liczby parametrów np. w sieci neuronowej, a tym bardziej uczenia ich się.
  6. 6. Metoda n-gramów ● Warunkowe prawdopodobieństwo wystąpienia w tekście jakiegoś słowa na t-tej pozycji, biorąc pod uwagę wszystkie poprzednie słowa można przybliżyć przez prawdopodobieństwo biorące pod uwagę tylko n poprzednich słów. ● W praktyce zakłada się, że często występujące w korpusie bigramy (trigramy itd.) mają największe prawdopodobieństwo wystąpienia w przyszłości. ● Ale jesteśmy więźniami bezpośredniego kontekstu. Jest bardzo możliwe, że poprawna kombinacja nie wystąpiła nigdy w korpusie.
  7. 7. Podobne-niepodobne zdania ● The cat is walking in the bedroom. ● A dog was running in a room. ● A cat is creeping into the closet. ● …
  8. 8. Trzypunktowy program 1. Powiążmy z każdym wyrazem w słowniku wektor właściwości w przestrzeni Rm (tzn. złożony z m cech rzeczywistych – m to liczba zakładanych właściwości słów). 2. Niech funkcja wyrażająca prawdopodobieństwo ciągu słów przyjmuje ich wektory właściwościowe. 3. Uczmy jednocześnie wektorów właściwościowych oraz parametrów tejże funkcji.
  9. 9. Podobieństwa „funkcji” słów ● The cat is walking in the bedroom. ● A dog was running in a room. ● A cat is creeping into the closet. ● … Słowa o podobnych funkcjach semantycznych i gramatycznych otrzymają podobne wektory właściwościowe.
  10. 10. Funkcja obliczana przez sieć 1. Przyporządkowanie C od każdego elementu i w V (zbiorze wyrazów tworzących słownik) do wektora C(i) ∈ Rm, gdzie m to liczba wymiarów wektora (= liczba zakładanych właściwości słów). 2. Funkcja g przypisuje ciągowi wektorów (C(wt-n+1), …, C(wt-1)) dystrybucję prawdopodobieństwa wśród słów w V dla następnego słowa wt.
  11. 11. Schemat sieci neuronowej
  12. 12. Uczenie sieci ● Maksymalizujemy zlogarytmowane prawdopodobieństwo korpusu treningowego: ● θ – wagi i progi połączeń sieci neuronów oraz przyporządkowanie C ● Stochastic gradient ascent: po każdej iteracji ● ε – szybkość uczenia ● Autorzy uzyskali wynik o 33% lepszy od metod n-gramowych.
  13. 13. Zastosowania
  14. 14. Relacje międzywyrazowe ● Nauczono sieć podobnego modelu semantycznego. ● Model koduje relacje gramatyczne, takie jak stopień przymiotnika, czas czasownika itd., a także semantyczne: męska/żeńska wersja słowa, całość/część. ● Sprawdzamy hipotezy w formacie „a ma się do b, jak c do d” (szukamy d). (Mikolov et al., 2013a)
  15. 15. Relacje międzywyrazowe ● Odpowiedzią jest funkcja oparta na równaniu wektorów xd = xb − xa + xc ● Autorzy osiągnęli trafność przewidywań na poziomie 39,6%.
  16. 16. Relacje międzywyrazowe ● W Mikolov et al. 2013b osiągnięto trafność ok. 50%, przy korpusie 783-milionowym i 600-wymiarowych wektorach (w 2013a: 320 mln i 1600 wymiarów). ● Wprowadzono także nową architekturę sieci „skip-gramów”.
  17. 17. Zdania: badanie sentymentu ● Parser stanfordzki tworzy drzewa składniowe dla zdań z korpusu recenzji Rotten Tomatoes. ● W rekursywnych modelach neuronowych każdy węzeł w drzewie (czyli faktycznie n-gram o rosnącej długości) jest oceniany na podstawie wektorów jego dzieci. ● Wektory właściwościowe n-gramów są takie same, jak wektory pojedynczych słów. (Sacher et al., 2011?)
  18. 18. Zdania: badanie sentymentu Powierzchownie podobne zdania, z poprawnie zaklasyfikowanym odmiennym sentymentem.
  19. 19. W kierunku tłumaczenia maszynowego ● Posługujemy się korpusem odpowiadających sobie dokumentów (Parlament Europejski, wystąpienia TED). ● Dla każdego dokumentów składamy kompozycyjnie jego reprezentację semantyczną, od słów, przez zdania itd. ● Uczenie odbywa się przez porównywanie reprezentacji dwóch analogicznych dokumentów i backpropagating do poszczególnych słów w obu językach. (Hermann et al., 2014)
  20. 20. W kierunku tłumaczenia maszynowego
  21. 21. Wnioski dla badań języka
  22. 22. Wnioski dla badań języka ● Na pewno nie ma prostej odpowiedniości z procesami w umyśle. ● Ale modele oparte na wektorach właściwościowych pokazują możliwość semantyki opartej na czystych stosunkach między jednostkami języka. ● Możliwość przedstawiania słów w wielowymiarowej przestrzeni.
  23. 23. Bibliografia ● Y. Bengio, R. Ducharme, P. Vincent, and C. Janvin. 2003. A neural probabilistic language model. Journal of Machine Learning Research, 3:1137–1155, March. ● colah.github.io/posts/2014-07-NLP-RNNs-Representations/ ● K.M. Hermann, Ph. Blunsom. 2014. Multilingual Distributed Representations without Word Alignment. In Proceedings of ICLR. ● T. Mikolov, W. Yih, G. Zweig. 2013a. Linguistic regularities in continuous spaceword representations. In Proceedeings of HLT-NAACL. ● T. Mikolov, K. Chen, G.S. Corrado, J. Dean. 2013b. Efficient Estimation of Word Representations in Vector Space. Proceedings of ICLR. ● R. Socher, A. Perelygin, J.Y. Wu, J. Chuang, C.D. Manning, A.Y. Ng, C. Potts. 2013. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank. In Proceedings of EMNLP.

×