Sieci neuronowe

•

1 like•401 views

tesladev

Sieci neuronowe

Engineering

Co to jest sztuczna sieć neuronowa?
Algorytm klasyfikacji, szczególnie do problemów nieliniowo separowalnych np.:
? ??
!
Oczywiście, dwa piksele to trochę mało ”ficzerów”.

Jak wygląda?
Wektor cech (wejściowy)
(np. kolor piksela 1 i 2 - 2
cechy, 2 neurony w tej
warstwie)
Klasa, do której
“wpadł” dany wektor
cech (np. samochód,
nie samochód )
Warstwy ukryte to
wektory cech utworzone
na podstawie poprzednich
warstw (tutaj wektora
wejścowego)

Gdzie tu duże zbiory danych?
● Wielkość wektora cech (np. 171,476 wyrazów w Angielskim, miliony pikseli w
obrazach wysokich rozdzelczości, filmy)
● Liczebność zbioru treningowego (np. 81,941,760 filmów na YT, 5,010,071
artykułów na Wikipedii)

Jak działa?
Backprop - liczy błąd każdego
neuron (konkretnie gradient funkcji
blędu)
Forwardprop – ustawia wartości
funkcji aktywacji neuronów (liczy
“wartość cech” warstw ukrytych)

Jakie mamy problemy obliczeniowe?
W momencie kiedy backpropagation wyliczy gardienty, potrzebujemy metody
optymalizacji, która wykorzysta wyliczony gradient w celu minimalizacji błędu
klasyfikacji. Typowo używane metody:
● BFGS
● Gradient descent

Gradient descent
Każdy krok to:
W wersji klasycznej gradient
funkcji kosztu* (błędu) wygląda
tak:
*jest to gradient dla kosztu w postaci entropii krzyżowej
Tak w wersji „stochastic”:

Czyli co krok liczymy koszt względem jednego
wektora treningowego, a nie całego zbioru.Czyli co krok iterujemy po
całym zbiorze treningowym.

Co jeśli nie wystarczy jeden komputer?
Trzeba rozproszyć algorytmy. Jak?

Large Scale Distributed Deep Networks
Artykuł Large Scale Distributed Deep Networks 2012 opsuje dwa rozproszone
algorytmy optymalizacji będące modyfikacją wcześniej wymienionych:
● Downpour SGD
● Sandblaster L-BFGS
http://research.google.com/archive/large_deep_networks_nips2012.html

Architektura Downpour SGD
• SGD działa asynchronicznie na
wszystkich parametrach
przechowywanych na serwerze
• Zbiór treningowy podzielony
jest na trzy części
• Każda replika modelu liczy
gradient tylko dla swojego
zestawu parametrów na
serwerze
• SGD nadaje replikom „wspólny
cel”
• Podwójne zrównoleglenie
• Mocno „online’owy” charakter
uczenia

Kod klienta (repliki modelu)
Bufor na policzone gradienty
Parametr do regulacji częstości pobierania
parametrów modelu z serwera
Parametr do regulacji częstości wysyłania
parametrów modelu do serwera
SGD „na własną rękę” w
iteracjach bez fetcha z serwera

Materiały
https://static.googleusercontent.com/media/research.google.com/en//archive/large_deep_networks_nips2012.pdf
http://alexminnaar.com/implementing-the-distbelief-deep-neural-network-training-framework-with-akka.html
http://deeplearning4j.org/
http://deepdist.com/
http://www.tensorflow.org/
https://gist.github.com/slnowak/7ba5f6603666961929f7
https://gist.github.com/slnowak/225b512b3adb6ef3669b

Featured

AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork

Skeleton Culture CodeSkeleton Technologies

PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley

Content Methodology: A Best Practices Report (Webinar)contently

How to Prepare For a Successful Job Search for 2024Albert Qian

Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)

Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal

5 Public speaking tips from TED - Visualized summarySpeakerHub

ChatGPT and the Future of Work - Clark Boyd Clark Boyd

Getting into the tech field. what next Tessa Mero

Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray

How to have difficult conversations Rajiv Jayarajah, MAppComm, ACC

Introduction to Data ScienceChristy Abraham Joy

Time Management & Productivity - Best PracticesVit Horky

The six step guide to practical project managementMindGenius

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36

Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools

12 Ways to Increase Your Influence at WorkGetSmarter

ChatGPT webinar slidesAlireza Esmikhani

More than Just Lines on a Map: Best Practices for U.S Bike RoutesProject for Public Spaces & National Center for Biking and Walking

Featured (20)

AI Trends in Creative Operations 2024 by Artwork Flow.pdf

Skeleton Culture Code

PEPSICO Presentation to CAGNY Conference Feb 2024

Content Methodology: A Best Practices Report (Webinar)

How to Prepare For a Successful Job Search for 2024

Social Media Marketing Trends 2024 // The Global Indie Insights

Trends In Paid Search: Navigating The Digital Landscape In 2024

5 Public speaking tips from TED - Visualized summary

ChatGPT and the Future of Work - Clark Boyd

Getting into the tech field. what next

Google's Just Not That Into You: Understanding Core Updates & Search Intent

How to have difficult conversations

Introduction to Data Science

Time Management & Productivity - Best Practices

The six step guide to practical project management

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...

Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...

12 Ways to Increase Your Influence at Work

ChatGPT webinar slides

More than Just Lines on a Map: Best Practices for U.S Bike Routes

Sieci neuronowe

1. Sieci neuronowe dla dużych zbiorów danych

2. Co to jest sztuczna sieć neuronowa? Algorytm klasyfikacji, szczególnie do problemów nieliniowo separowalnych np.: ? ?? ! Oczywiście, dwa piksele to trochę mało ”ficzerów”.

3. Jak wygląda? Wektor cech (wejściowy) (np. kolor piksela 1 i 2 - 2 cechy, 2 neurony w tej warstwie) Klasa, do której “wpadł” dany wektor cech (np. samochód, nie samochód ) Warstwy ukryte to wektory cech utworzone na podstawie poprzednich warstw (tutaj wektora wejścowego)

4. Gdzie tu duże zbiory danych? ● Wielkość wektora cech (np. 171,476 wyrazów w Angielskim, miliony pikseli w obrazach wysokich rozdzelczości, filmy) ● Liczebność zbioru treningowego (np. 81,941,760 filmów na YT, 5,010,071 artykułów na Wikipedii)

5. Jak działa? Backprop - liczy błąd każdego neuron (konkretnie gradient funkcji blędu) Forwardprop – ustawia wartości funkcji aktywacji neuronów (liczy “wartość cech” warstw ukrytych)

6. Jakie mamy problemy obliczeniowe? W momencie kiedy backpropagation wyliczy gardienty, potrzebujemy metody optymalizacji, która wykorzysta wyliczony gradient w celu minimalizacji błędu klasyfikacji. Typowo używane metody: ● BFGS ● Gradient descent

7. Gradient descent Każdy krok to: W wersji klasycznej gradient funkcji kosztu* (błędu) wygląda tak: *jest to gradient dla kosztu w postaci entropii krzyżowej Tak w wersji „stochastic”: Czyli co krok liczymy koszt względem jednego wektora treningowego, a nie całego zbioru.Czyli co krok iterujemy po całym zbiorze treningowym.

8. Co jeśli nie wystarczy jeden komputer? Trzeba rozproszyć algorytmy. Jak?

9. Large Scale Distributed Deep Networks Artykuł Large Scale Distributed Deep Networks 2012 opsuje dwa rozproszone algorytmy optymalizacji będące modyfikacją wcześniej wymienionych: ● Downpour SGD ● Sandblaster L-BFGS http://research.google.com/archive/large_deep_networks_nips2012.html

10. Architektura Downpour SGD • SGD działa asynchronicznie na wszystkich parametrach przechowywanych na serwerze • Zbiór treningowy podzielony jest na trzy części • Każda replika modelu liczy gradient tylko dla swojego zestawu parametrów na serwerze • SGD nadaje replikom „wspólny cel” • Podwójne zrównoleglenie • Mocno „online’owy” charakter uczenia

11. Kod klienta (repliki modelu) Bufor na policzone gradienty Parametr do regulacji częstości pobierania parametrów modelu z serwera Parametr do regulacji częstości wysyłania parametrów modelu do serwera SGD „na własną rękę” w iteracjach bez fetcha z serwera

12. Materiały https://static.googleusercontent.com/media/research.google.com/en//archive/large_deep_networks_nips2012.pdf http://alexminnaar.com/implementing-the-distbelief-deep-neural-network-training-framework-with-akka.html http://deeplearning4j.org/ http://deepdist.com/ http://www.tensorflow.org/ https://gist.github.com/slnowak/7ba5f6603666961929f7 https://gist.github.com/slnowak/225b512b3adb6ef3669b

Sieci neuronowe

Recommended

Recommended

More Related Content

Featured

Featured (20)

Sieci neuronowe