Successfully reported this slideshow.
Your SlideShare is downloading. ×

Computer Vision and Deep Learning

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Loading in …3
×

Check these out next

1 of 102 Ad

More Related Content

Viewers also liked (20)

Similar to Computer Vision and Deep Learning (20)

Advertisement

More from Grigory Sapunov (20)

Recently uploaded (20)

Advertisement

Computer Vision and Deep Learning

  1. 1. Компьютерное зрение и deep learning Григорий Сапунов Хакатон GoToHack Big Data Москва 22.02.2016 eclass.cc RoadAR
  2. 2. “Простые задачи” Распознавание: классификация и локализация
  3. 3. Классификация и Детектирование http://tutorial.caffe.berkeleyvision.org/caffe-cvpr15-detection.pdf (задача сложнее)
  4. 4. Распознавание: Дорожные знаки (IJCNN 2011) The German Traffic Sign Recognition Benchmark ● Мультиклассовая классификация ● >40 классов ● >50,000 изображений с реальных дорог http://benchmark.ini.rub.de/?section=gtsrb&subsection=dataset
  5. 5. Распознавание: Дорожные знаки (IJCNN 2011) Первый случай создания системы с качеством распознавания выше человеческого. http://benchmark.ini.rub.de/index.php?section=gtsrb&subsection=results# Rank Team Representative Method Correct recognition rate (error rate) 1 IDSIA Dan Ciresan Committee of CNNs 99.46 % (0.54%) 2 INI Human Performance 98.84 % (1.16%) 3 sermanet Pierre Sermanet Multi-Scale CNNs 98.31 % (1.69%) 4 CAOR Fatin Zaklouta Random Forests 96.14 % (3.86%)
  6. 6. Распознавание: Рукописные цифры (MNIST) ● мультиклассовая классификация ● 10 классов, 60000 изображений 28*28 пикселей http://yann.lecun.com/exdb/mnist/
  7. 7. Распознавание: Рукописные цифры (MNIST) Человек: ≈0.2% ошибок Первый сопоставимый результат: 0.23% (2012) “Multi-column Deep Neural Networks for Image Classification”, Dan Cireșan, Ueli Meier, Jurgen Schmidhuber http://repository.supsi.ch/5145/1/IDSIA-04-12.pdf
  8. 8. http://rodrigob.github.io/are_we_there_yet/build/classification_datasets_results.html
  9. 9. Распознавание: CIFAR-10/100 ● 10/100 классов ● 60000 изображений ● 32*32 пикселя Человек: ~6% ошибок https://www.cs.toronto.edu/~kriz/cifar.html
  10. 10. Распознавание: CIFAR-10/100 http://rodrigob.github.io/are_we_there_yet/build/classification_datasets_results.html#43494641522d3130
  11. 11. Large Scale Visual Recognition Challenge (ILSVRC) ILSVRC2015 ● Object detection (200 категорий) ● Object localization (1000 категорий) ● Object detection from video (30 категорий) ● Scene classification (401 категория) http://image-net.org/challenges/LSVRC/2015/index#maincomp
  12. 12. Для тех, кто в теме
  13. 13. Large Scale Visual Recognition Challenge (ILSVRC) http://arxiv.org/abs/1409.0575
  14. 14. http://karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet/ “Consider that there are more than 120 species of dogs in the dataset. We estimate that 28 (37%) of the human errors fall into this category, while only 7 (7%) of GoogLeNet errors do”
  15. 15. Ещё про ILSVRC http://arxiv.org/abs/1502.01852 “We achieve 4.94% top-5 test error on the ImageNet 2012 classification dataset. This is a 26% relative improvement over the ILSVRC 2014 winner (GoogLeNet, 6.66%). To our knowledge, our result is the first to surpass human-level performance (5.1%, Russakovsky et al.) on this visual recognition challenge.”
  16. 16. http://vision.stanford.edu/teaching/cs231n/
  17. 17. http://vision.stanford.edu/teaching/cs231n/
  18. 18. Распознавание: Brain Image Segmentation (2012) http://fiji.sc/Segmentation_of_neuronal_structures_in_EM_stacks_challenge_-_ISBI_2012
  19. 19. Распознавание: Brain Image Segmentation (2012) 2 набора 512 × 512 пикселей × 30 срезов
  20. 20. Распознавание: Brain Image Segmentation (2012) Задача: по фотографиям электронного микроскопа срезов мозга (в данном случае это дрозофила) построить 3D-модель нейронов и дендритов. Человеческий труд крайне долгий.
  21. 21. http://ufldl.stanford.edu/housenumbers/ >600 000 картинок с реальными фотографиями из Google Street View. The Street View House Numbers (SVHN) Dataset
  22. 22. Компьютеры становятся лучше человека в родных для него задачах на восприятие
  23. 23. … хотя иногда и довольно беспомощны http://www.mirror.co.uk/news/weird-news/friendly-robot-hitchhiking-across-america-6184914
  24. 24. Автомобили-роботы
  25. 25. Автомобили-роботы
  26. 26. Автомобили-роботы
  27. 27. Автомобили-роботы: определение объектов
  28. 28. Автомобили-роботы: детекция пешеходов
  29. 29. Автомобили-роботы: распознавание знаков
  30. 30. Это началось не вчера. Немножко истории
  31. 31. DARPA Urban Challenge 2007 1 место робот “Boss” 96 км «улиц», доставка условного груза в установленную точку менее, чем за 6 часов. Роботы должны были соблюдать правила дорожного движения (включая учёт дорожных знаков), ехать в потоке, уметь парковаться.
  32. 32. DARPA Grand Challenge 2005 1 место робот “Stanley” 6 часов 54 мин Маршрут длиной 211,8 километра по каменистой пустыне Мохаве
  33. 33. Ernst Dickmanns Работы по роботизированным автомобилям в 1980-90е годы. 1994: "VAmP" Mercedes 500 SEL проехал более 1000 км по кольцевому шоссе в Париже со скоростю до 130 км/ч, автоматически перестраиваясь и пропуская машины. Автоматическое отслеживание до 12 других автомобилей. 1995: Тур в 1758 км из Мюнхена в Данию и обратно. Разгон на шоссе до 175 км/ч. Средняя дистанция автономной езды без перезапуска системы ~9 км; самый длинный полностью автономный участок 158 км. 95% дистанции проехано автономно. Видеокамеры и саккадное зрение, процессоры 8086 (забудьте про GPU!). http://www.youtube.com/watch?v=YZ6nPhUG2i0
  34. 34. Ernst Dickmanns: VAmP Mercedes 500 SEL (1990-е)
  35. 35. Ernst Dickmanns https://www.youtube.com/watch?v=_HbVWm7wdmE
  36. 36. Живём в интересное время
  37. 37. George Hotz: Acura Hack Meet the 26-Year-Old Hacker Who Built a Self- Driving Car... in His Garage https://www.youtube.com/watch?v=KTrgRYa2wbI
  38. 38. Дроны и коптеры http://www.digitaltrends.com/cool-tech/swiss-drone-ai-follows-trails/ Поиск потерявшихся людей
  39. 39. ● NVidia Jetson TK1/TX1 (192/256 CUDA Cores) ● Raspberry Pi (ARM Cortex-A7 900MHz 4-ядра, 1 Гб ОЗУ) ● Планшеты, телефоны, … ● Google Project Tango Hackers’ Time
  40. 40. SLAM
  41. 41. SLAM: Simultaneous Localization and Mapping
  42. 42. SLAM: Simultaneous Localization and Mapping Одновременная локализация и построение карты. Visual SLAM (vision-based SLAM) — использует только камеру (а не лидар или инерционные датчики). Может использовать одну камеру (монокулярный SLAM) или две (стерео SLAM). Обычно real-time. Это (в основном пока) не про deep learning. Но уже есть совмещение с семантической разметкой (здесь deep learning).
  43. 43. SLAM: Simultaneous Localization and Mapping Пример с использованием лидара:
  44. 44. LSD-SLAM: Large-Scale Direct Monocular SLAM http://vision.in.tum.de/research/vslam/lsdslam
  45. 45. Семантический SLAM https://www.doc.ic.ac.uk/~rfs09/docs/Salas-Moreno-R-2014-PhD-Thesis.pdf
  46. 46. SLAM++: SLAM на уровне объектов http://www.doc.ic.ac.uk/~rfs09/slampp.html
  47. 47. Семантическая сегментация
  48. 48. http://arxiv.org/pdf/1301.3572.pdf Indoor Semantic Segmentation using depth information
  49. 49. http://mi.eng.cam.ac.uk/research/projects/VideoRec/CamVid/
  50. 50. https://www.youtube.com/watch?v=ZJMtDRbqH40 NYU Semantic Segmentation with a Convolutional Network (33 categories)
  51. 51. Другие интересные задачи работы с изображениями
  52. 52. Генерация описаний картинок http://arxiv.org/abs/1411.4555 “Show and Tell: A Neural Image Caption Generator”
  53. 53. More Hacking: NeuralTalk and Walk Ингредиенты: ● https://github.com/karpathy/neuraltalk2 Project for learning Multimodal Recurrent Neural Networks that describe images with sentences ● Веб-камера/ноутбук Результат: ● https://vimeo.com/146492001
  54. 54. More hacking: NeuralTalk and Walk
  55. 55. More Hacking: DenseCap and ? http://arxiv.org/abs/1511.07571 DenseCap: Fully Convolutional Localization Networks for Dense Captioning
  56. 56. Как же оно всё работает?
  57. 57. Как же оно всё работает? ● Convolutional neural networks (CNN), свёрточные нейросети ● Recurrent neural networks (RNN), рекуррентные нейросети + LSTM (Long short-term memory) ● Word embeddings (word2vec, GloVe) ● Restricted Boltzmann Machines (RBM) ● Autoencoders Комбинации готовых “кирпичиков”
  58. 58. Операция свёртки (convolution) Свёрточная нейронная сеть (Convolutional neural net, CNN) использует операцию свёртки для выделения локальных признаков на изображении. input kernel output http://intellabs.github.io/RiverTrail/tutorial/
  59. 59. http://www.gimpbible.com/files/convolution-matrix/
  60. 60. CNN: Convolutional Neural Network http://www.clarifai.com/technology
  61. 61. RNN: Recurrent Neural Network
  62. 62. https://github.com/farizrahman4u/seq2seq
  63. 63. RNN: Sequence to Sequence Learning https://github.com/farizrahman4u/seq2seq
  64. 64. RNN: Sequence to Sequence Learning http://www.cs.toronto.edu/~graves/arabic_ocr_chapter.pdf
  65. 65. Мультимодальное обучение http://arxiv.org/abs/1411.2539 Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models
  66. 66. Мультимодальное обучение https://www.cs.utexas.edu/~vsub/
  67. 67. Word embeddings: word2vec https://code.google.com/archive/p/word2vec/
  68. 68. Word embeddings: word2vec https://code.google.com/archive/p/word2vec/
  69. 69. Word embeddings: GloVe http://nlp.stanford.edu/projects/glove/
  70. 70. Ещё немного красивостей и интересностей
  71. 71. Visual Question Answering https://avisingh599.github.io/deeplearning/visual-qa/
  72. 72. Visual Question Answering http://arxiv.org/abs/1505.02074 Exploring Models and Data for Image Question Answering
  73. 73. Visual Question Answering http://arxiv.org/abs/1505.02074 Exploring Models and Data for Image Question Answering
  74. 74. Reinforcement Learning Управление симулированным автомобилем на основе видеосигнала (2013) http://people.idsia.ch/~juergen/gecco2013torcs.pdf http://people.idsia.ch/~juergen/compressednetworksearch.html
  75. 75. Reinforcement Learning
  76. 76. Reinforcement Learning Human-level control through deep reinforcement learning (2014) http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html Playing Atari with Deep Reinforcement Learning (2013) http://arxiv.org/abs/1312.5602
  77. 77. Reinforcement Learning
  78. 78. More Fun & Hacking: Deep Dream http://www.telegraph.co.uk/technology/google/11730050/deep-dream-best-images.html?frame=3370674
  79. 79. More Fun & Hacking: Neural Style http://www.dailymail.co.uk/sciencetech/article-3214634/The-algorithm-learn-copy-artist-Neural-network-recreate-snaps-style-Van-Gogh-Picasso.html
  80. 80. Neural Style http://www.dailymail.co.uk/sciencetech/article-3214634/The-algorithm-learn-copy-artist-Neural-network-recreate-snaps-style-Van-Gogh-Picasso.html
  81. 81. More Fun & Hacking: MtG cards http://www.escapistmagazine.com/articles/view/scienceandtech/14276-Magic-The-Gathering-Cards-Made-by-Artificial-Intelligence
  82. 82. Интересно? Что делать дальше
  83. 83. Библиотеки для работы ● OpenCV (http://opencv.org/) ● Caffe (http://caffe.berkeleyvision.org/) ● Torch7 (http://torch.ch/) ● Theano/Keras/… (http://deeplearning.net/software/theano/, http://keras.io/) ● TensorFlow (https://www.tensorflow.org/) ● Neon (http://neon.nervanasys.com/) ● ...
  84. 84. Что читать и смотреть - CS231n: Convolutional Neural Networks for Visual Recognition, Fei-Fei Li, Andrej Karpathy, Stanford (http://vision.stanford. edu/teaching/cs231n/index.html) - CS224d: Deep Learning for Natural Language Processing, Richard Socher, Stanford (http://cs224d.stanford.edu/index.html) - Neural Networks for Machine Learning, Geoffrey Hinton (https://www. coursera.org/course/neuralnets) - Подборка курсов по компьютерному зрению (http://eclass. cc/courselists/111_computer_vision_and_navigation) - Подборка курсов по deep learning (http://eclass. cc/courselists/117_deep_learning) - “Deep Learning”, Ian Goodfellow, Yoshua Bengio and Aaron Courville (http://www.deeplearningbook.org/)
  85. 85. Что читать и смотреть - Google+ Deep Learning community (https://plus.google. com/communities/112866381580457264725) - VK Deep Learning community (http://vk.com/deeplearning) - Quora (https://www.quora.com/topic/Deep-Learning) - FB Deep Learning Moscow (https://www.facebook. com/groups/1505369016451458/) - Twitter Deep Learning Hub (https://twitter.com/DeepLearningHub) - NVidia blog (https://devblogs.nvidia.com/parallelforall/tag/deep-learning/) - IEEE Spectrum blog (http://spectrum.ieee.org/blog/cars-that-think) - http://deeplearning.net/ - ...
  86. 86. За кем следить? - Jürgen Schmidhuber (http://people.idsia.ch/~juergen/) - Geoffrey E. Hinton (http://www.cs.toronto.edu/~hinton/) - Google DeepMind (http://deepmind.com/) - Yann LeCun (http://yann.lecun.com, https://www.facebook.com/yann.lecun) - Yoshua Bengio (http://www.iro.umontreal.ca/~bengioy, https://www.quora. com/profile/Yoshua-Bengio) - Andrej Karpathy (http://karpathy.github.io/) - Andrew Ng (http://www.andrewng.org/) - ...
  87. 87. https://ru.linkedin.com/in/grigorysapunov grigory.sapunov@ieee.org Спасибо!

×