La visió és el procés que consumeix més glucosa en el cervell humà, interpretant el context que ens envolta continuament a partir de la llum captada pels nostres ulls. Aquest procés, complexe i encara misteriós, ha estat reproduït ja en els seus estadis més bàsics pels ordinadors. Els darrers avenços en intel·ligència artificial i capacitat de càlcul ha permès que les màquines ja siguin tan o més precises com les persones en camps com el reconeixement de persones o la conducció de vehicles. Com a conseqüència, s'ha iniciat el compte enrera per tal de poder automatitzar totes aquestes tasques basades amb la visió, com podria ser l'anàlisi de dades mèdiques o la vigilància. Els robots ja han obert els ulls i veuen a un futur molt prometedor en el camp de la intel·ligència artificial.
STEM és una paraula polisèmica. De vegades vol dir interdisciplinarietat, de vegades robòtica, i de vegades vol dir vocacions científiques. Quan al Pla STEMCat ens vam plantejar com desplegar l'iniciativa STEM, el primer que vam fer va ser mirar de definir què enteníem per STEM. Per a nosaltres, STEM no és una metodologia. STEM és un objectiu polític: l'increment de les vocacions científico-tecnològiques, l'equitat -en especial pel que fa al gènere- en l'accés a aquestes professions, i el desenvolupament de la dimensió científica -i tecnològica- de la ciutadania (Scitizenship), que implica capacitar la ciutadania per a compendre, decidir i actuar. I això implica coses que inclouen les tecnologies (robòtica, sensors,...), les metodologies (ABP, Tinkering,...) però també -i molt especialment- les perspectives (rols de gènere, controvèrsies sòcio-científiques, educació pel desenvolupament i la pau...). Promoure una ciutadania capaç de comprendre, decidir i actuar en la seva dimensió científica necessita d'una component política en el desplegament de les STEM. Abordar problemàtiques socials participades per la ciència i incorporar perspectives ètiques a les iniciatives STEM no és només una manera de tenir enginyeres i científics amb una visió més humana del món. És també una manera de tenir ciutadans i ciutadanes amb una relació més cordial i empoderada amb la ciència i la tecnologia.
Resumen del proyecto i2cat, 1999-2003, un proyecto de diseño y desarrollo de la Internet2 en Catalunya, que dió lugar a la creación de la Fundación i2cat en septiembre 2003.
Ús pràctic de la Intel·ligència Artificial a l’escolaNeus Lorenzo
Lorenzo, Neus (2024) Ús pràctic de la Intel·ligència Artificial a l’escola. Col·legi de Doctors i Llicenciats de Catalunya. SCP-IEC. Jornada de seguiment ComConèixer (KBIP). Barcelona.
"Quan siguem grans potser no tindrem feina". D'aquí 10 anys existiran moltes professions que ara ni coneixem i reptes que ara no tenim. La tecnologia formarà part d'aquest demà.
Com és un enginyer/a? Quines avantatges té ser enginyer o enginyera?
STEM és una paraula polisèmica. De vegades vol dir interdisciplinarietat, de vegades robòtica, i de vegades vol dir vocacions científiques. Quan al Pla STEMCat ens vam plantejar com desplegar l'iniciativa STEM, el primer que vam fer va ser mirar de definir què enteníem per STEM. Per a nosaltres, STEM no és una metodologia. STEM és un objectiu polític: l'increment de les vocacions científico-tecnològiques, l'equitat -en especial pel que fa al gènere- en l'accés a aquestes professions, i el desenvolupament de la dimensió científica -i tecnològica- de la ciutadania (Scitizenship), que implica capacitar la ciutadania per a compendre, decidir i actuar. I això implica coses que inclouen les tecnologies (robòtica, sensors,...), les metodologies (ABP, Tinkering,...) però també -i molt especialment- les perspectives (rols de gènere, controvèrsies sòcio-científiques, educació pel desenvolupament i la pau...). Promoure una ciutadania capaç de comprendre, decidir i actuar en la seva dimensió científica necessita d'una component política en el desplegament de les STEM. Abordar problemàtiques socials participades per la ciència i incorporar perspectives ètiques a les iniciatives STEM no és només una manera de tenir enginyeres i científics amb una visió més humana del món. És també una manera de tenir ciutadans i ciutadanes amb una relació més cordial i empoderada amb la ciència i la tecnologia.
Resumen del proyecto i2cat, 1999-2003, un proyecto de diseño y desarrollo de la Internet2 en Catalunya, que dió lugar a la creación de la Fundación i2cat en septiembre 2003.
Ús pràctic de la Intel·ligència Artificial a l’escolaNeus Lorenzo
Lorenzo, Neus (2024) Ús pràctic de la Intel·ligència Artificial a l’escola. Col·legi de Doctors i Llicenciats de Catalunya. SCP-IEC. Jornada de seguiment ComConèixer (KBIP). Barcelona.
"Quan siguem grans potser no tindrem feina". D'aquí 10 anys existiran moltes professions que ara ni coneixem i reptes que ara no tenim. La tecnologia formarà part d'aquest demà.
Com és un enginyer/a? Quines avantatges té ser enginyer o enginyera?
HÀBITAT, TERRITORI I TECNOLOGIES DE FRONTERA
Singularitat tecnològica i ciudadanía
Albert Cortina
Fòrum CAT 21 Territori i Urbanisme – Estat i alternatives
Societat Catalana d’Ordenació del Territori (SCOT)
Institut d’Estudis Catalans
17 de desembre de 2013
Scientix, projectes i recursos europeus d'innovació educativa STEMjdomen44
Scientix és la comunitat europea d'educació en ciències, matemàtiques, enginyeria i tecnologia, promoguda per la Comissió Europea, que inclou projectes i recursos educatius d'àmbit europeu. Trobades de professorat, col·laboracions, activitats amb laboratoris virtuals i remots, i les darreres innovacions com la Future Classroom, projectes educatius sobre nanotecnologia, biotecnologia o programació.
A partir de la propuesta sobre cómo debería ser la estación de trabajo colaborativo, Jordi Graells expone 5 historias que explican los ingredientes para avanzar más hacia la mejora y el cambio de las organizaciones..
Programa de la I Jornada de ciència, tecnologia i educació. Projecte FEDER – Clúster TIC MEDIA de Girona.
Auditori de l’edifici Narcís Monturiol, parc CiT UdG.
3 de Juny de 2011
Article in the book HiperCatalunya, Territoris de Recerca
https://www.agapea.com/Grupo-Metapolis/Hipercatalunya-Territoris-de-recerca-9788495951380-i.htm
Ponència sobre la importància d'estar a la xarxa i les oportunitats que ofereix Internet a les empreses a càrrec de Marc Garriga. Va ser en l'entorn de la 3a edició de la jornada puntXpunt sobre "Oportunitats i eines d'Internet aplicades a l'agricultura ecològica", celebrada el 20 de juliol de 2011 i promoguda per la Fundació puntCAT
Usos i abusos de la Intel·ligència ArtificialNeus Lorenzo
LORENZO, Neus (2023). "Usos i abusos de la Intel·ligència Artificial. Els missatges ocults i les evidències amagades". Ed. Transformation Society. CosmoCaixa, Museu de la ciència. 5 Oct 2023. Barcelona. DOI: 10.13140/RG.2.2.27979.57127
Programa de les "Jornades de l'Institut d'Informàtica i Aplicacions UdG"3D Girona Tic Media
En el marc del projecte FEDER - Clúster TIC MEDIA de Girona que està executant l'Ajuntament de Girona amb la col·laboració del Parc Científic i Tecnològic de la Universitat de Girona, es presenta un nou cicle de conferències.
Organitzades per l'Institut d'Informàtica i Aplicacions (IIiA) de la Universitat de Girona, les jornades pretenen dinamitzar el sector TIC i aconseguir alhora que la recerca en l'àmbit universitari tingui difusió.
EduEnginy projecte de Elena Jurado i La Salle Campus (URL)Elena Jurado
EduEnginy un projecte projecte de transferència de coneixement universitat escoles per promoure el pensament enginyeril i resolució de problemes mitjançant robòtica educativa. S'han acompanyat de 2016 a 2022 a més de 300 professors i 120 escoles de la xarxa La Salle.
Innovación en Manresa (ESADE y EADA 2008)Alain Jordà
Presentación del proceso de desarrollo e implantación de la innovación en la ciudad de Manresa (Barcelona). Ponencia presentada en las escuelas de negocio ESADE y EADA (Barcelona)
This document provides an overview of deep generative learning and summarizes several key generative models including GANs, VAEs, diffusion models, and autoregressive models. It discusses the motivation for generative models and their applications such as image generation, text-to-image synthesis, and enhancing other media like video and speech. Example state-of-the-art models are provided for each application. The document also covers important concepts like the difference between discriminative and generative modeling, sampling techniques, and the training procedures for GANs and VAEs.
This document provides an overview of deep generative learning and summarizes several key generative models including GANs, VAEs, diffusion models, and autoregressive models. It discusses the motivation for generative models and their applications such as image generation, text-to-image synthesis, and enhancing other media like video and speech. Example state-of-the-art models are provided for each application. The document also covers important concepts like the difference between discriminative and generative modeling, sampling techniques, and the training procedures for GANs and VAEs.
The document discusses the Vision Transformer (ViT) model for computer vision tasks. It covers:
1. How ViT tokenizes images into patches and uses position embeddings to encode spatial relationships.
2. ViT uses a class embedding to trigger class predictions, unlike CNNs which have decoders.
3. The receptive field of ViT grows as the attention mechanism allows elements to attend to other distant elements in later layers.
4. Initial results showed ViT performance was comparable to CNNs when trained on large datasets but lagged CNNs trained on smaller datasets like ImageNet.
Machine translation and computer vision have greatly benefited from the advances in deep learning. A large and diverse amount of textual and visual data have been used to train neural networks whether in a supervised or self-supervised manner. Nevertheless, the convergence of the two fields in sign language translation and production still poses multiple open challenges, like the low video resources, limitations in hand pose estimation, or 3D spatial grounding from poses.
The transformer is the neural architecture that has received most attention in the early 2020's. It removed the recurrency in RNNs, replacing it with and attention mechanism across the input and output tokens of a sequence (cross-attenntion) and between the tokens composing the input (and output) sequences, named self-attention.
These slides review the research of our lab since 2016 on applied deep learning, starting from our participation in the TRECVID Instance Search 2014, moving into video analysis with CNN+RNN architectures, and our current efforts in sign language translation and production.
Machine translation and computer vision have greatly benefited of the advances in deep learning. The large and diverse amount of textual and visual data have been used to train neural networks whether in a supervised or self-supervised manner. Nevertheless, the convergence of the two field in sign language translation and production is still poses multiple open challenges, like the low video resources, limitations in hand pose estimation, or 3D spatial grounding from poses. This talk will present these challenges and the How2✌️Sign dataset (https://how2sign.github.io) recorded at CMU in collaboration with UPC, BSC, Gallaudet University and Facebook.
https://imatge.upc.edu/web/publications/sign-language-translation-and-production-multimedia-and-multimodal-challenges-all
HÀBITAT, TERRITORI I TECNOLOGIES DE FRONTERA
Singularitat tecnològica i ciudadanía
Albert Cortina
Fòrum CAT 21 Territori i Urbanisme – Estat i alternatives
Societat Catalana d’Ordenació del Territori (SCOT)
Institut d’Estudis Catalans
17 de desembre de 2013
Scientix, projectes i recursos europeus d'innovació educativa STEMjdomen44
Scientix és la comunitat europea d'educació en ciències, matemàtiques, enginyeria i tecnologia, promoguda per la Comissió Europea, que inclou projectes i recursos educatius d'àmbit europeu. Trobades de professorat, col·laboracions, activitats amb laboratoris virtuals i remots, i les darreres innovacions com la Future Classroom, projectes educatius sobre nanotecnologia, biotecnologia o programació.
A partir de la propuesta sobre cómo debería ser la estación de trabajo colaborativo, Jordi Graells expone 5 historias que explican los ingredientes para avanzar más hacia la mejora y el cambio de las organizaciones..
Programa de la I Jornada de ciència, tecnologia i educació. Projecte FEDER – Clúster TIC MEDIA de Girona.
Auditori de l’edifici Narcís Monturiol, parc CiT UdG.
3 de Juny de 2011
Article in the book HiperCatalunya, Territoris de Recerca
https://www.agapea.com/Grupo-Metapolis/Hipercatalunya-Territoris-de-recerca-9788495951380-i.htm
Ponència sobre la importància d'estar a la xarxa i les oportunitats que ofereix Internet a les empreses a càrrec de Marc Garriga. Va ser en l'entorn de la 3a edició de la jornada puntXpunt sobre "Oportunitats i eines d'Internet aplicades a l'agricultura ecològica", celebrada el 20 de juliol de 2011 i promoguda per la Fundació puntCAT
Usos i abusos de la Intel·ligència ArtificialNeus Lorenzo
LORENZO, Neus (2023). "Usos i abusos de la Intel·ligència Artificial. Els missatges ocults i les evidències amagades". Ed. Transformation Society. CosmoCaixa, Museu de la ciència. 5 Oct 2023. Barcelona. DOI: 10.13140/RG.2.2.27979.57127
Programa de les "Jornades de l'Institut d'Informàtica i Aplicacions UdG"3D Girona Tic Media
En el marc del projecte FEDER - Clúster TIC MEDIA de Girona que està executant l'Ajuntament de Girona amb la col·laboració del Parc Científic i Tecnològic de la Universitat de Girona, es presenta un nou cicle de conferències.
Organitzades per l'Institut d'Informàtica i Aplicacions (IIiA) de la Universitat de Girona, les jornades pretenen dinamitzar el sector TIC i aconseguir alhora que la recerca en l'àmbit universitari tingui difusió.
EduEnginy projecte de Elena Jurado i La Salle Campus (URL)Elena Jurado
EduEnginy un projecte projecte de transferència de coneixement universitat escoles per promoure el pensament enginyeril i resolució de problemes mitjançant robòtica educativa. S'han acompanyat de 2016 a 2022 a més de 300 professors i 120 escoles de la xarxa La Salle.
Innovación en Manresa (ESADE y EADA 2008)Alain Jordà
Presentación del proceso de desarrollo e implantación de la innovación en la ciudad de Manresa (Barcelona). Ponencia presentada en las escuelas de negocio ESADE y EADA (Barcelona)
This document provides an overview of deep generative learning and summarizes several key generative models including GANs, VAEs, diffusion models, and autoregressive models. It discusses the motivation for generative models and their applications such as image generation, text-to-image synthesis, and enhancing other media like video and speech. Example state-of-the-art models are provided for each application. The document also covers important concepts like the difference between discriminative and generative modeling, sampling techniques, and the training procedures for GANs and VAEs.
This document provides an overview of deep generative learning and summarizes several key generative models including GANs, VAEs, diffusion models, and autoregressive models. It discusses the motivation for generative models and their applications such as image generation, text-to-image synthesis, and enhancing other media like video and speech. Example state-of-the-art models are provided for each application. The document also covers important concepts like the difference between discriminative and generative modeling, sampling techniques, and the training procedures for GANs and VAEs.
The document discusses the Vision Transformer (ViT) model for computer vision tasks. It covers:
1. How ViT tokenizes images into patches and uses position embeddings to encode spatial relationships.
2. ViT uses a class embedding to trigger class predictions, unlike CNNs which have decoders.
3. The receptive field of ViT grows as the attention mechanism allows elements to attend to other distant elements in later layers.
4. Initial results showed ViT performance was comparable to CNNs when trained on large datasets but lagged CNNs trained on smaller datasets like ImageNet.
Machine translation and computer vision have greatly benefited from the advances in deep learning. A large and diverse amount of textual and visual data have been used to train neural networks whether in a supervised or self-supervised manner. Nevertheless, the convergence of the two fields in sign language translation and production still poses multiple open challenges, like the low video resources, limitations in hand pose estimation, or 3D spatial grounding from poses.
The transformer is the neural architecture that has received most attention in the early 2020's. It removed the recurrency in RNNs, replacing it with and attention mechanism across the input and output tokens of a sequence (cross-attenntion) and between the tokens composing the input (and output) sequences, named self-attention.
These slides review the research of our lab since 2016 on applied deep learning, starting from our participation in the TRECVID Instance Search 2014, moving into video analysis with CNN+RNN architectures, and our current efforts in sign language translation and production.
Machine translation and computer vision have greatly benefited of the advances in deep learning. The large and diverse amount of textual and visual data have been used to train neural networks whether in a supervised or self-supervised manner. Nevertheless, the convergence of the two field in sign language translation and production is still poses multiple open challenges, like the low video resources, limitations in hand pose estimation, or 3D spatial grounding from poses. This talk will present these challenges and the How2✌️Sign dataset (https://how2sign.github.io) recorded at CMU in collaboration with UPC, BSC, Gallaudet University and Facebook.
https://imatge.upc.edu/web/publications/sign-language-translation-and-production-multimedia-and-multimodal-challenges-all
https://imatge-upc.github.io/synthref/
Integrating computer vision with natural language processing has achieved significant progress
over the last years owing to the continuous evolution of deep learning. A novel vision and language
task, which is tackled in the present Master thesis is referring video object segmentation, in which a
language query defines which instance to segment from a video sequence. One of the biggest chal-
lenges for this task is the lack of relatively large annotated datasets since a tremendous amount of
time and human effort is required for annotation. Moreover, existing datasets suffer from poor qual-
ity annotations in the sense that approximately one out of ten language expressions fails to uniquely
describe the target object.
The purpose of the present Master thesis is to address these challenges by proposing a novel
method for generating synthetic referring expressions for an image (video frame). This method pro-
duces synthetic referring expressions by using only the ground-truth annotations of the objects as well
as their attributes, which are detected by a state-of-the-art object detection deep neural network. One
of the advantages of the proposed method is that its formulation allows its application to any object
detection or segmentation dataset.
By using the proposed method, the first large-scale dataset with synthetic referring expressions for
video object segmentation is created, based on an existing large benchmark dataset for video instance
segmentation. A statistical analysis and comparison of the created synthetic dataset with existing ones
is also provided in the present Master thesis.
The conducted experiments on three different datasets used for referring video object segmen-
tation prove the efficiency of the generated synthetic data. More specifically, the obtained results
demonstrate that by pre-training a deep neural network with the proposed synthetic dataset one can
improve the ability of the network to generalize across different datasets, without any additional annotation cost. This outcome is even more important taking into account that no additional annotation cost is involved.
Master MATT thesis defense by Juan José Nieto
Advised by Víctor Campos and Xavier Giro-i-Nieto.
27th May 2021.
Pre-training Reinforcement Learning (RL) agents in a task-agnostic manner has shown promising results. However, previous works still struggle to learn and discover meaningful skills in high-dimensional state-spaces. We approach the problem by leveraging unsupervised skill discovery and self-supervised learning of state representations. In our work, we learn a compact latent representation by making use of variational or contrastive techniques. We demonstrate that both allow learning a set of basic navigation skills by maximizing an information theoretic objective. We assess our method in Minecraft 3D maps with different complexities. Our results show that representations and conditioned policies learned from pixels are enough for toy examples, but do not scale to realistic and complex maps. We also explore alternative rewards and input observations to overcome these limitations.
https://imatge.upc.edu/web/publications/discovery-and-learning-navigation-goals-pixels-minecraft
Peter Muschick MSc thesis
Universitat Pollitecnica de Catalunya, 2020
Sign language recognition and translation has been an active research field in the recent years with most approaches using deep neural networks to extract information from sign language data. This work investigates the mostly disregarded approach of using human keypoint estimation from image and video data with OpenPose in combination with transformer network architecture. Firstly, it was shown that it is possible to recognize individual signs (4.5% word error rate (WER)). Continuous sign language recognition though was more error prone (77.3% WER) and sign language translation was not possible using the proposed methods, which might be due to low accuracy scores of human keypoint estimation by OpenPose and accompanying loss of information or insufficient capacities of the used transformer model. Results may improve with the use of datasets containing higher repetition rates of individual signs or focusing more precisely on keypoint extraction of hands.
This document discusses interpretability and explainable AI (XAI) in neural networks. It begins by providing motivation for why explanations of neural network predictions are often required. It then provides an overview of different interpretability techniques, including visualizing learned weights and feature maps, attribution methods like class activation maps and guided backpropagation, and feature visualization. Specific examples and applications of each technique are described. The document serves as a guide to interpretability and explainability in deep learning models.
Deep learning technologies are at the core of the current revolution in artificial intelligence for multimedia data analysis. The convergence of large-scale annotated datasets and affordable GPU hardware has allowed the training of neural networks for data analysis tasks which were previously addressed with hand-crafted features. Architectures such as convolutional neural networks, recurrent neural networks or Q-nets for reinforcement learning have shaped a brand new scenario in signal processing. This course will cover the basic principles of deep learning from both an algorithmic and computational perspectives.
Deep learning technologies are at the core of the current revolution in artificial intelligence for multimedia data analysis. The convergence of large-scale annotated datasets and affordable GPU hardware has allowed the training of neural networks for data analysis tasks which were previously addressed with hand-crafted features. Architectures such as convolutional neural networks, recurrent neural networks or Q-nets for reinforcement learning have shaped a brand new scenario in signal processing. This course will cover the basic principles of deep learning from both an algorithmic and computational perspectives.
Deep learning technologies are at the core of the current revolution in artificial intelligence for multimedia data analysis. The convergence of large-scale annotated datasets and affordable GPU hardware has allowed the training of neural networks for data analysis tasks which were previously addressed with hand-crafted features. Architectures such as convolutional neural networks, recurrent neural networks or Q-nets for reinforcement learning have shaped a brand new scenario in signal processing. This course will cover the basic principles of deep learning from both an algorithmic and computational perspectives.
https://telecombcn-dl.github.io/dlai-2020/
Deep learning technologies are at the core of the current revolution in artificial intelligence for multimedia data analysis. The convergence of large-scale annotated datasets and affordable GPU hardware has allowed the training of neural networks for data analysis tasks which were previously addressed with hand-crafted features. Architectures such as convolutional neural networks, recurrent neural networks or Q-nets for reinforcement learning have shaped a brand new scenario in signal processing. This course will cover the basic principles of deep learning from both an algorithmic and computational perspectives.
https://telecombcn-dl.github.io/drl-2020/
This course presents the principles of reinforcement learning as an artificial intelligence tool based on the interaction of the machine with its environment, with applications to control tasks (eg. robotics, autonomous driving) o decision making (eg. resource optimization in wireless communication networks). It also advances in the development of deep neural networks trained with little or no supervision, both for discriminative and generative tasks, with special attention on multimedia applications (vision, language and speech).
Giro-i-Nieto, X. One Perceptron to Rule Them All: Language, Vision, Audio and Speech. In Proceedings of the 2020 International Conference on Multimedia Retrieval (pp. 7-8).
Tutorial page:
https://imatge.upc.edu/web/publications/one-perceptron-rule-them-all-language-vision-audio-and-speech-tutorial
Deep neural networks have boosted the convergence of multimedia data analytics in a unified framework shared by practitioners in natural language, vision and speech. Image captioning, lip reading or video sonorization are some of the first applications of a new and exciting field of research exploiting the generalization properties of deep neural representation. This tutorial will firstly review the basic neural architectures to encode and decode vision, text and audio, to later review the those models that have successfully translated information across modalities.
This document summarizes image segmentation techniques using deep learning. It begins with an overview of semantic segmentation and instance segmentation. It then discusses several techniques for semantic segmentation, including deconvolution/transposed convolution for learnable upsampling, skip connections to combine predictions from different CNN depths, and dilated convolutions to increase the receptive field without losing resolution. For instance segmentation, it covers proposal-based methods like Mask R-CNN, and single-shot and recurrent approaches as alternatives to proposal-based models.
https://imatge-upc.github.io/rvos-mots/
Video object segmentation can be understood as a sequence-to-sequence task that can benefit from the curriculum learning strategies for better and faster training of deep neural networks. This work explores different schedule sampling and frame skipping variations to significantly improve the performance of a recurrent architecture. Our results on the car class of the KITTI-MOTS challenge indicate that, surprisingly, an inverse schedule sampling is a better option than a classic forward one. Also, that a progressive skipping of frames during training is beneficial, but only when training with the ground truth masks instead of the predicted ones.
Deep neural networks have achieved outstanding results in various applications such as vision, language, audio, speech, or reinforcement learning. These powerful function approximators typically require large amounts of data to be trained, which poses a challenge in the usual case where little labeled data is available. During the last year, multiple solutions have been proposed to leverage this problem, based on the concept of self-supervised learning, which can be understood as a specific case of unsupervised learning. This talk will cover its basic principles and provide examples in the field of multimedia.
More from Universitat Politècnica de Catalunya (20)
7. ETSETB(Barcelona)/ETSEIAAT(Terrassa)
UniversitatPolitècnicadeCatalunya(UPC)
Xavier Giró i Nieto, “Quan els robots obren els ulls”. Fira de l’Ensenyament de Badalona, 18-19/2/2016
Per què estudiar TIC ?
7
Font: 25 Best jobs in America (Glassdoor)
Els graus TIC (telecomunicacions i informàtica) són
els estudis més propers a la millor feina que
existeix en l’actualitat: Científic de dades.
13. ETSETB(Barcelona)/ETSEIAAT(Terrassa)
UniversitatPolitècnicadeCatalunya(UPC)
Xavier Giró i Nieto, “Quan els robots obren els ulls”. Fira de l’Ensenyament de Badalona, 18-19/2/2016
On són els robots ?
LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-based learning applied to document
recognition. Proceedings of the IEEE, 86(11), 2278-2324.
Aprenentatge automàtic
(Machine learning)
14. ETSETB(Barcelona)/ETSEIAAT(Terrassa)
UniversitatPolitècnicadeCatalunya(UPC)
Xavier Giró i Nieto, “Quan els robots obren els ulls”. Fira de l’Ensenyament de Badalona, 18-19/2/2016
On són els robots ?
Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional
neural networks." In Advances in neural information processing systems, pp. 1097-1105. 2012
15. ETSETB(Barcelona)/ETSEIAAT(Terrassa)
UniversitatPolitècnicadeCatalunya(UPC)
Xavier Giró i Nieto, “Quan els robots obren els ulls”. Fira de l’Ensenyament de Badalona, 18-19/2/2016
On són els robots ?
Detecció d’objectes
Girshick, Ross, Jeff Donahue, Trevor Darrell, and Jitendra Malik. "Region-based convolutional networks for
accurate object detection and segmentation." Pattern Analysis and Machine Intelligence, IEEE Transactions
on 38, no. 1 (2016): 142-158.
17. ETSETB(Barcelona)/ETSEIAAT(Terrassa)
UniversitatPolitècnicadeCatalunya(UPC)
Xavier Giró i Nieto, “Quan els robots obren els ulls”. Fira de l’Ensenyament de Badalona, 18-19/2/2016
On són els robots ?
Detecció i Reconeixement de cares
Farfade, Sachin Sudhakar, Mohammad Saberian, and Li-Jia Li. "Multi-view Face
Detection Using Deep Convolutional Neural Networks." ICMR (2015).
18. ETSETB(Barcelona)/ETSEIAAT(Terrassa)
UniversitatPolitècnicadeCatalunya(UPC)
Xavier Giró i Nieto, “Quan els robots obren els ulls”. Fira de l’Ensenyament de Badalona, 18-19/2/2016
On són els robots ?
Reconeixement d’activitats
Tran, Du, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, and Manohar Paluri. "Learning
spatiotemporal features with 3D convolutional networks." In Proceedings of the IEEE International
Conference on Computer Vision, pp. 4489-4497. 2015
31. ETSETB(Barcelona)/ETSEIAAT(Terrassa)
UniversitatPolitècnicadeCatalunya(UPC)
Xavier Giró i Nieto, “Quan els robots obren els ulls”. Fira de l’Ensenyament de Badalona, 18-19/2/2016
Només poden obrir els ulls ?
“Literatura” (!?)
Darknet
JON
He leaned close and onions, barefoot from his shoulder. "I am not a purple
girl," he said as he stood over him. "The sight of you sell your father with you a
little choice."
"I say to swear up his sea or a boy of stone and heart, down," Lord Tywin
said. "I love your word or her to me."
34. ETSETB(Barcelona)/ETSEIAAT(Terrassa)
UniversitatPolitècnicadeCatalunya(UPC)
Xavier Giró i Nieto, “Quan els robots obren els ulls”. Fira de l’Ensenyament de Badalona, 18-19/2/2016
Només poden obrir els ulls ?
“Google’s chairman (Eric Schmidth) thinks artificial intelligence
will let scientists solve some of the world’s "hard problems," like
population growth, climate change, human development,
and education.” (Bloomberg Business, 11/01/2016)
[+info @ MIT Technology Review]
37. ETSETB(Barcelona)/ETSEIAAT(Terrassa)
UniversitatPolitècnicadeCatalunya(UPC)
Xavier Giró i Nieto, “Quan els robots obren els ulls”. Fira de l’Ensenyament de Badalona, 18-19/2/2016
Només poden obrir els ulls ?
Neil Lawrence, OpenAI won’t benefit humanity
without open data sharing (The Guardian,
14/12/2015)
Phd Comics: Who owns your data ? (Hint: it is not you)
38. ETSETB(Barcelona)/ETSEIAAT(Terrassa)
UniversitatPolitècnicadeCatalunya(UPC)
Xavier Giró i Nieto, “Quan els robots obren els ulls”. Fira de l’Ensenyament de Badalona, 18-19/2/2016
38
Xavier Sala-i-Martin (Columbia University),
“Les conclusions del Fòrum de Davos”
(TV3, 03/02/2016)
Carles Boix (Princeton University),
“La quarta revolució industrial”
(Diari Ara, 08/02/2016)
Només poden obrir els ulls ?
45. ETSETB(Barcelona)/ETSEIAAT(Terrassa)
UniversitatPolitècnicadeCatalunya(UPC)
Xavier Giró i Nieto, “Quan els robots obren els ulls”. Fira de l’Ensenyament de Badalona, 18-19/2/2016
45
On voleu seguir aprenent ?
Antonio Torralba,
Professor al MIT
Cristian Canton
Microsoft Research
Joan Bruna
Professor a Berkeley
Ells (i MOLTS MÉS que no són en aquesta pàgina)...
Oriol Vinyals
Google DeepMind
...van estudiar a la
46. ETSETB(Barcelona)/ETSEIAAT(Terrassa)
UniversitatPolitècnicadeCatalunya(UPC)
Xavier Giró i Nieto, “Quan els robots obren els ulls”. Fira de l’Ensenyament de Badalona, 18-19/2/2016
46
On voleu seguir aprenent ?
Font: La UPC als llistat de rànquins internacionals
Evolution of the position of the UPC in the
QS World University Rankings and the QS WUR by Faculty
Ranking 2015 edition 2014 edition
Catalonia Technical
university
in Spain
Spain Europe World Catalonia Technical
university
in Spain
Spain Europe World
QS World
University
Ranking,
general
classification
4 1 7 134 299 4 1 7 152 337
QS WUR by
Faculty:
Engineering
and
Technology
1 1 1 22 82 1 1 1 17 60
50. ETSETB(Barcelona)/ETSEIAAT(Terrassa)
UniversitatPolitècnicadeCatalunya(UPC)
Xavier Giró i Nieto, “Quan els robots obren els ulls”. Fira de l’Ensenyament de Badalona, 18-19/2/2016
Cerca d’objectes en vídeos
V. - T. Nguyen, -Dinh-Le, D., Salvador, A., -Zhu, C., Nguyen, D. - L., Tran,
M. - T., Duc, T. Ngo, Duong, D. Anh, Satoh, S. 'ichi, and Giró-i-Nieto, X.,
“NII-HITACHI-UIT at TRECVID 2015 Instance Search”, in TRECVID 2015
Workshop, Gaithersburg, MD, USA, 2015.
On voleu seguir aprenent ?
51. ETSETB(Barcelona)/ETSEIAAT(Terrassa)
UniversitatPolitècnicadeCatalunya(UPC)
Xavier Giró i Nieto, “Quan els robots obren els ulls”. Fira de l’Ensenyament de Badalona, 18-19/2/2016
Segmentació d’objectes mesurant activitat cerebral
E. Mohedano, Healy, G., McGuinness, K., Giró-i-Nieto, X., O'Connor, N.,
and Smeaton, A. F., “Object segmentation in images using EEG
signals”, in ACM Multimedia, Orlando, Florida (USA), 2014.
On voleu seguir aprenent ?
52. ETSETB(Barcelona)/ETSEIAAT(Terrassa)
UniversitatPolitècnicadeCatalunya(UPC)
Xavier Giró i Nieto, “Quan els robots obren els ulls”. Fira de l’Ensenyament de Badalona, 18-19/2/2016
Predicció de l’atenció visual
J. Pan and Giró-i-Nieto, X., “End-to-end Convolutional Network for
Saliency Prediction”, in Large-scale Scene Understanding Challenge
(LSUN) at CVPR Workshops , Boston, MA (USA), 2015. [Slides]
LSUN Challenge
On voleu seguir aprenent ?
53. ETSETB(Barcelona)/ETSEIAAT(Terrassa)
UniversitatPolitècnicadeCatalunya(UPC)
Xavier Giró i Nieto, “Quan els robots obren els ulls”. Fira de l’Ensenyament de Badalona, 18-19/2/2016
53
A. Salvador, Zeppelzauer, M., Manchon-Vizuete, D., Calafell-Orós,
A., and Giró-i-Nieto, X., “Cultural Event Recognition with Visual
ConvNets and Temporal Models”, in CVPR ChaLearn Looking at
People Workshop 2015, 2015. [slides]
ChaLearn Worshop
Classificació d’imatges
On voleu seguir aprenent ?
54. ETSETB(Barcelona)/ETSEIAAT(Terrassa)
UniversitatPolitècnicadeCatalunya(UPC)
Xavier Giró i Nieto, “Quan els robots obren els ulls”. Fira de l’Ensenyament de Badalona, 18-19/2/2016
Anàlisi de sentiments
V. Campos, Salvador, A., Jou, B., and Giró-i-Nieto, X., “Diving Deep into
Sentiment: Understanding Fine-tuned CNNs for Visual Sentiment
Prediction”, in 1st International Workshop on Affect and Sentiment in
Multimedia, Brisbane, Australia, 2015.
On voleu seguir aprenent ?