BSc thesis by Pia Muñoz Tralero at UPC-CCMA (May 2010).
More info: https://imatge.upc.edu/web/publications/extensio-duna-interficie-de-cerca-dimatges-les-consultes-amb-regions
Authors: Elisabet Carcel, Manuel Martos, Xavier Giró-i-Nieto and Ferran Marqués
Details: https://imatge.upc.edu/web/publications/rich-internet-application-semi-automatic-annotation-semantic-shots-keyframes
This paper describes a system developed for the semi- automatic annotation of keyframes in a broadcasting company. The tool aims at assisting archivists who traditionally label every keyframe manually by suggesting them an automatic annotation that they can intuitively edit and validate. The system is valid for any domain as it uses generic MPEG-7 visual descriptors and binary SVM classifiers. The classification engine has been tested on the multiclass problem of semantic shot detection, a type of metadata used in the company to index new con- tent ingested in the system. The detection performance has been tested in two different domains: soccer and parliament. The core engine is ac- cessed by a Rich Internet Application via a web service. The graphical user interface allows the edition of the suggested labels with an intuitive drag and drop mechanism between rows of thumbnails, each row representing a different semantic shot class. The system has been described as complete and easy to use by the professional archivists at the company.
Ponència de Mercè Oller, de la UPC, presentada en la 18a edició de la Trobada dels Serveis Informàtics de les Universitats de Catalunya (TSIUC) el 30 novembre de 2017 a la Universitat Oberta de Catalunya (UOC).
Metodología i Desenvolupament de Projectes en Xarxa PRACTICAMarcos Baldovi
Metodologia i Desenvolupament de Projectes en Xarxa, es tracta d'una assignatura en la qual al llarg de les 3 PAC'S , es treballa per grups formats per alumnes utilitzant eines TIC. El treball que es desenvolupa en aquesta part de l'assignatura, tracta del procés de producció d'un projecte interactiu. A la pràctica final es desenvolupa un nou projecte amb la diferència, que n'està entrega es tracta d'un producte integral, no per parts com a les tres primeres entregues. Els membres del grup no varien tampoc en aquesta pràctica.
El 14 de diciembre de 2016 el ITeC presentó la Comisión Construimos el Futuro en Bimtecnia, un foro internacional sobre construcción inteligente celebrado en Valladolid.
Authors: Elisabet Carcel, Manuel Martos, Xavier Giró-i-Nieto and Ferran Marqués
Details: https://imatge.upc.edu/web/publications/rich-internet-application-semi-automatic-annotation-semantic-shots-keyframes
This paper describes a system developed for the semi- automatic annotation of keyframes in a broadcasting company. The tool aims at assisting archivists who traditionally label every keyframe manually by suggesting them an automatic annotation that they can intuitively edit and validate. The system is valid for any domain as it uses generic MPEG-7 visual descriptors and binary SVM classifiers. The classification engine has been tested on the multiclass problem of semantic shot detection, a type of metadata used in the company to index new con- tent ingested in the system. The detection performance has been tested in two different domains: soccer and parliament. The core engine is ac- cessed by a Rich Internet Application via a web service. The graphical user interface allows the edition of the suggested labels with an intuitive drag and drop mechanism between rows of thumbnails, each row representing a different semantic shot class. The system has been described as complete and easy to use by the professional archivists at the company.
Ponència de Mercè Oller, de la UPC, presentada en la 18a edició de la Trobada dels Serveis Informàtics de les Universitats de Catalunya (TSIUC) el 30 novembre de 2017 a la Universitat Oberta de Catalunya (UOC).
Metodología i Desenvolupament de Projectes en Xarxa PRACTICAMarcos Baldovi
Metodologia i Desenvolupament de Projectes en Xarxa, es tracta d'una assignatura en la qual al llarg de les 3 PAC'S , es treballa per grups formats per alumnes utilitzant eines TIC. El treball que es desenvolupa en aquesta part de l'assignatura, tracta del procés de producció d'un projecte interactiu. A la pràctica final es desenvolupa un nou projecte amb la diferència, que n'està entrega es tracta d'un producte integral, no per parts com a les tres primeres entregues. Els membres del grup no varien tampoc en aquesta pràctica.
El 14 de diciembre de 2016 el ITeC presentó la Comisión Construimos el Futuro en Bimtecnia, un foro internacional sobre construcción inteligente celebrado en Valladolid.
Presentació del projecte COFRE: repositori de preservació digital de la Bibli...Biblioteca de Catalunya
Presentació del projecte COFRE per Karibel Pérez dins el curs de "Preservació digital en 5 passes" impartit a la Biblioteca de Catalunya per en Ciro Llueca.
Juny 2013
Taller d'introducció a la fabricació digital a través de l'eina de disseny 3D Tinkercad una senzilla aplicació web d'ús intuïtiu que facilita treballar la creativitat a l'aula amb persones usuàries que no tenen cap noció de disseny.
presentación de la aplicación eprojectes diseñada para facilitar el control documental de los proyectos y favorecer el conocimiento de los mismos en toda la entidad. Forma parte del sistema de calidad de Surt. Aplicando las TICs en los procesos de trabajo. Iniciativa TICs.
Presentació de la Unitat formativa del mòdul d'Ofimàtica dels Certificats de professionalitat.
(Si quieres ver la misma presentación en español puedes acceder a la dirección:
https://issuu.com/antcv/docs/uf0323_aplicaciones_inform_ticas_para_presentacion
)
somUPC: Integració de les intranets de la UPCinLabFIB
Presentació del projecte SOMUPC. Aquest neix amb l’objectiu d’unificar i homogeneïtzar les Intranets de la UPC. Des del somUPC els membres de la comunitat UPC podran accedir a totes les Intranets que necessitin i les quals estan autoritzats des d’un mateix lloc.
Informació sobre els màsters oficials dels Estudis d'Informàtica, Multimèdia i Telecomunicació de la UOC: Aplicacions Multimèdia, Enginyeria Informàtica, Enginyeria de Telecomunicació, Programari lliure, Seguretat de les TIC, (interuniversitari), Enginyeria computacional i matemàtica (interuniversitari). Presentació feta a la sessió informativa del 08/09/2014 a Barcelona.
Sesión informativa del Grado de ingeniería informática, grado de multimedia, grado de tecnologías de telecomunicación, de la UOC, con los Directores Académicos de los programas mencionados.
cuándo? Martes 2 de febrero
Dónde? Rambla del poblenou,156
Hora? 17:30 pm
El programari lliure a la Generalitat de Catalunyaframbla
Presentació de les accions per l'impuls i la promoció de l'ús del programari lliure a la Generalitat de Catalunya realitzada en el marc de les III Jornades de software lliure de la Universitat de Barcelona
Presentació del treball realitzat en el marc de l'assignatura "Didàctica de les competències TIC" del Màster de la Dinamització de la Societat de la informació i la Comunicació (2011).
Equip de treball: Lluís Campderrich, Carme Badia, Mar Cots, Yolanda Anguita
This document provides an overview of deep generative learning and summarizes several key generative models including GANs, VAEs, diffusion models, and autoregressive models. It discusses the motivation for generative models and their applications such as image generation, text-to-image synthesis, and enhancing other media like video and speech. Example state-of-the-art models are provided for each application. The document also covers important concepts like the difference between discriminative and generative modeling, sampling techniques, and the training procedures for GANs and VAEs.
Presentació del projecte COFRE: repositori de preservació digital de la Bibli...Biblioteca de Catalunya
Presentació del projecte COFRE per Karibel Pérez dins el curs de "Preservació digital en 5 passes" impartit a la Biblioteca de Catalunya per en Ciro Llueca.
Juny 2013
Taller d'introducció a la fabricació digital a través de l'eina de disseny 3D Tinkercad una senzilla aplicació web d'ús intuïtiu que facilita treballar la creativitat a l'aula amb persones usuàries que no tenen cap noció de disseny.
presentación de la aplicación eprojectes diseñada para facilitar el control documental de los proyectos y favorecer el conocimiento de los mismos en toda la entidad. Forma parte del sistema de calidad de Surt. Aplicando las TICs en los procesos de trabajo. Iniciativa TICs.
Presentació de la Unitat formativa del mòdul d'Ofimàtica dels Certificats de professionalitat.
(Si quieres ver la misma presentación en español puedes acceder a la dirección:
https://issuu.com/antcv/docs/uf0323_aplicaciones_inform_ticas_para_presentacion
)
somUPC: Integració de les intranets de la UPCinLabFIB
Presentació del projecte SOMUPC. Aquest neix amb l’objectiu d’unificar i homogeneïtzar les Intranets de la UPC. Des del somUPC els membres de la comunitat UPC podran accedir a totes les Intranets que necessitin i les quals estan autoritzats des d’un mateix lloc.
Informació sobre els màsters oficials dels Estudis d'Informàtica, Multimèdia i Telecomunicació de la UOC: Aplicacions Multimèdia, Enginyeria Informàtica, Enginyeria de Telecomunicació, Programari lliure, Seguretat de les TIC, (interuniversitari), Enginyeria computacional i matemàtica (interuniversitari). Presentació feta a la sessió informativa del 08/09/2014 a Barcelona.
Sesión informativa del Grado de ingeniería informática, grado de multimedia, grado de tecnologías de telecomunicación, de la UOC, con los Directores Académicos de los programas mencionados.
cuándo? Martes 2 de febrero
Dónde? Rambla del poblenou,156
Hora? 17:30 pm
El programari lliure a la Generalitat de Catalunyaframbla
Presentació de les accions per l'impuls i la promoció de l'ús del programari lliure a la Generalitat de Catalunya realitzada en el marc de les III Jornades de software lliure de la Universitat de Barcelona
Presentació del treball realitzat en el marc de l'assignatura "Didàctica de les competències TIC" del Màster de la Dinamització de la Societat de la informació i la Comunicació (2011).
Equip de treball: Lluís Campderrich, Carme Badia, Mar Cots, Yolanda Anguita
This document provides an overview of deep generative learning and summarizes several key generative models including GANs, VAEs, diffusion models, and autoregressive models. It discusses the motivation for generative models and their applications such as image generation, text-to-image synthesis, and enhancing other media like video and speech. Example state-of-the-art models are provided for each application. The document also covers important concepts like the difference between discriminative and generative modeling, sampling techniques, and the training procedures for GANs and VAEs.
Machine translation and computer vision have greatly benefited from the advances in deep learning. A large and diverse amount of textual and visual data have been used to train neural networks whether in a supervised or self-supervised manner. Nevertheless, the convergence of the two fields in sign language translation and production still poses multiple open challenges, like the low video resources, limitations in hand pose estimation, or 3D spatial grounding from poses.
The transformer is the neural architecture that has received most attention in the early 2020's. It removed the recurrency in RNNs, replacing it with and attention mechanism across the input and output tokens of a sequence (cross-attenntion) and between the tokens composing the input (and output) sequences, named self-attention.
These slides review the research of our lab since 2016 on applied deep learning, starting from our participation in the TRECVID Instance Search 2014, moving into video analysis with CNN+RNN architectures, and our current efforts in sign language translation and production.
Machine translation and computer vision have greatly benefited of the advances in deep learning. The large and diverse amount of textual and visual data have been used to train neural networks whether in a supervised or self-supervised manner. Nevertheless, the convergence of the two field in sign language translation and production is still poses multiple open challenges, like the low video resources, limitations in hand pose estimation, or 3D spatial grounding from poses. This talk will present these challenges and the How2✌️Sign dataset (https://how2sign.github.io) recorded at CMU in collaboration with UPC, BSC, Gallaudet University and Facebook.
https://imatge.upc.edu/web/publications/sign-language-translation-and-production-multimedia-and-multimodal-challenges-all
https://imatge-upc.github.io/synthref/
Integrating computer vision with natural language processing has achieved significant progress
over the last years owing to the continuous evolution of deep learning. A novel vision and language
task, which is tackled in the present Master thesis is referring video object segmentation, in which a
language query defines which instance to segment from a video sequence. One of the biggest chal-
lenges for this task is the lack of relatively large annotated datasets since a tremendous amount of
time and human effort is required for annotation. Moreover, existing datasets suffer from poor qual-
ity annotations in the sense that approximately one out of ten language expressions fails to uniquely
describe the target object.
The purpose of the present Master thesis is to address these challenges by proposing a novel
method for generating synthetic referring expressions for an image (video frame). This method pro-
duces synthetic referring expressions by using only the ground-truth annotations of the objects as well
as their attributes, which are detected by a state-of-the-art object detection deep neural network. One
of the advantages of the proposed method is that its formulation allows its application to any object
detection or segmentation dataset.
By using the proposed method, the first large-scale dataset with synthetic referring expressions for
video object segmentation is created, based on an existing large benchmark dataset for video instance
segmentation. A statistical analysis and comparison of the created synthetic dataset with existing ones
is also provided in the present Master thesis.
The conducted experiments on three different datasets used for referring video object segmen-
tation prove the efficiency of the generated synthetic data. More specifically, the obtained results
demonstrate that by pre-training a deep neural network with the proposed synthetic dataset one can
improve the ability of the network to generalize across different datasets, without any additional annotation cost. This outcome is even more important taking into account that no additional annotation cost is involved.
Master MATT thesis defense by Juan José Nieto
Advised by Víctor Campos and Xavier Giro-i-Nieto.
27th May 2021.
Pre-training Reinforcement Learning (RL) agents in a task-agnostic manner has shown promising results. However, previous works still struggle to learn and discover meaningful skills in high-dimensional state-spaces. We approach the problem by leveraging unsupervised skill discovery and self-supervised learning of state representations. In our work, we learn a compact latent representation by making use of variational or contrastive techniques. We demonstrate that both allow learning a set of basic navigation skills by maximizing an information theoretic objective. We assess our method in Minecraft 3D maps with different complexities. Our results show that representations and conditioned policies learned from pixels are enough for toy examples, but do not scale to realistic and complex maps. We also explore alternative rewards and input observations to overcome these limitations.
https://imatge.upc.edu/web/publications/discovery-and-learning-navigation-goals-pixels-minecraft
Peter Muschick MSc thesis
Universitat Pollitecnica de Catalunya, 2020
Sign language recognition and translation has been an active research field in the recent years with most approaches using deep neural networks to extract information from sign language data. This work investigates the mostly disregarded approach of using human keypoint estimation from image and video data with OpenPose in combination with transformer network architecture. Firstly, it was shown that it is possible to recognize individual signs (4.5% word error rate (WER)). Continuous sign language recognition though was more error prone (77.3% WER) and sign language translation was not possible using the proposed methods, which might be due to low accuracy scores of human keypoint estimation by OpenPose and accompanying loss of information or insufficient capacities of the used transformer model. Results may improve with the use of datasets containing higher repetition rates of individual signs or focusing more precisely on keypoint extraction of hands.
https://github.com/telecombcn-dl/lectures-all/
These slides review techniques for interpreting the behavior of deep neural networks. The talk reviews basic techniques such as the display of filters and tensors, as well as more advanced ones that try to interpret which part of the input data is responsible for the predictions, or generate data that maximizes the activation of certain neurons.
Deep learning technologies are at the core of the current revolution in artificial intelligence for multimedia data analysis. The convergence of large-scale annotated datasets and affordable GPU hardware has allowed the training of neural networks for data analysis tasks which were previously addressed with hand-crafted features. Architectures such as convolutional neural networks, recurrent neural networks or Q-nets for reinforcement learning have shaped a brand new scenario in signal processing. This course will cover the basic principles of deep learning from both an algorithmic and computational perspectives.
Deep learning technologies are at the core of the current revolution in artificial intelligence for multimedia data analysis. The convergence of large-scale annotated datasets and affordable GPU hardware has allowed the training of neural networks for data analysis tasks which were previously addressed with hand-crafted features. Architectures such as convolutional neural networks, recurrent neural networks or Q-nets for reinforcement learning have shaped a brand new scenario in signal processing. This course will cover the basic principles of deep learning from both an algorithmic and computational perspectives.
Deep learning technologies are at the core of the current revolution in artificial intelligence for multimedia data analysis. The convergence of large-scale annotated datasets and affordable GPU hardware has allowed the training of neural networks for data analysis tasks which were previously addressed with hand-crafted features. Architectures such as convolutional neural networks, recurrent neural networks or Q-nets for reinforcement learning have shaped a brand new scenario in signal processing. This course will cover the basic principles of deep learning from both an algorithmic and computational perspectives.
https://telecombcn-dl.github.io/dlai-2020/
Deep learning technologies are at the core of the current revolution in artificial intelligence for multimedia data analysis. The convergence of large-scale annotated datasets and affordable GPU hardware has allowed the training of neural networks for data analysis tasks which were previously addressed with hand-crafted features. Architectures such as convolutional neural networks, recurrent neural networks or Q-nets for reinforcement learning have shaped a brand new scenario in signal processing. This course will cover the basic principles of deep learning from both an algorithmic and computational perspectives.
https://telecombcn-dl.github.io/drl-2020/
This course presents the principles of reinforcement learning as an artificial intelligence tool based on the interaction of the machine with its environment, with applications to control tasks (eg. robotics, autonomous driving) o decision making (eg. resource optimization in wireless communication networks). It also advances in the development of deep neural networks trained with little or no supervision, both for discriminative and generative tasks, with special attention on multimedia applications (vision, language and speech).
Giro-i-Nieto, X. One Perceptron to Rule Them All: Language, Vision, Audio and Speech. In Proceedings of the 2020 International Conference on Multimedia Retrieval (pp. 7-8).
Tutorial page:
https://imatge.upc.edu/web/publications/one-perceptron-rule-them-all-language-vision-audio-and-speech-tutorial
Deep neural networks have boosted the convergence of multimedia data analytics in a unified framework shared by practitioners in natural language, vision and speech. Image captioning, lip reading or video sonorization are some of the first applications of a new and exciting field of research exploiting the generalization properties of deep neural representation. This tutorial will firstly review the basic neural architectures to encode and decode vision, text and audio, to later review the those models that have successfully translated information across modalities.
Image segmentation is a classic computer vision task that aims at labeling pixels with semantic classes. These slides provide an overview of the basic approaches applied from the deep learning field to tackle this challenge and presents the basic subtasks (semantic, instance and panoptic segmentation) and related datasets.
Presented at the International Summer School on Deep Learning (ISSonDL) 2020 held online and organized by the University of Gdansk (Poland) between the 30th August and 2nd September.
http://2020.dl-lab.eu/virtual-summer-school-on-deep-learning/
https://imatge-upc.github.io/rvos-mots/
Video object segmentation can be understood as a sequence-to-sequence task that can benefit from the curriculum learning strategies for better and faster training of deep neural networks. This work explores different schedule sampling and frame skipping variations to significantly improve the performance of a recurrent architecture. Our results on the car class of the KITTI-MOTS challenge indicate that, surprisingly, an inverse schedule sampling is a better option than a classic forward one. Also, that a progressive skipping of frames during training is beneficial, but only when training with the ground truth masks instead of the predicted ones.
Deep neural networks have achieved outstanding results in various applications such as vision, language, audio, speech, or reinforcement learning. These powerful function approximators typically require large amounts of data to be trained, which poses a challenge in the usual case where little labeled data is available. During the last year, multiple solutions have been proposed to leverage this problem, based on the concept of self-supervised learning, which can be understood as a specific case of unsupervised learning. This talk will cover its basic principles and provide examples in the field of multimedia.
More from Universitat Politècnica de Catalunya (20)
Deep Self-supervised Learning for All - Xavier Giro - X-Europe 2020
Extensió d'una interfície de cerca d'imatges a les consultes amb regions
1. Per Mª Pia Muñoz Trallero
Tutors:
Xavier Giró
Xavier Vives
Escola d’Enginyeria de Terrassa (EET) – Juny 2010
2. Introducció
Requeriments
Estat de l’art
Disseny i resultats
Eina global
Digitrace
Entorn de desenvolupament
Conclusions
Índex
2Índex / 31
4. Introducció
4
Precedent:
Ramon Salla 2009, Aplicació Rica d’Internet per a la consulta amb text i imatge
al repositori de vídeos de la Corporació Catalana de Mitjans Audiovisuals
Idea principal:
“Recuperació d’imatges a partir d’una idea”
Projecte universitat – empresa situat en el marc d’un projecte estatal:
Introducció / 31
9. Requeriments
Integració i millores:
La CCMA demana una eina multimodal que integri les funcionalitats presentades:
9
Detecció
de text
Consultes
mitjançant
imatge
Consultes
textuals
Cerca d’imatges
mitjançant
regions
Digition
Digimatge Detector
de text
Incorporació
d’una nova
eina
/ 31
10. Requeriments
Integració i millores:
10
Digimatge:
Aquest projecte neix amb la finalitat d’assolir
les mancances del Digimatge i estendre les
cerques per imatge a cerques per regió
UPSeek:
L’eina s’ha de comunicar amb el mòdul de la
UPC que s’encarrega del processat de la
imatge i de retornar els resultats de la cerca.
Descriptors:
L’eina ha de permetre configurar els pesos de
cadascun dels descriptors visuals en les
cerques tant per imatge global com per regió.
/ 31
12. Estat de l’art
12Estat de l’art
Consultes mitjançant exemple - Content-based Image Retrieval
Imatge exemple:
Estudi del
contingut visual
Sistema CBIR:
Comparació
contra la
base de dades
Resultat:
Imatges
similars
/ 31
13. Sistema CBIR: Eines
13Estat de l’art
Indexador: Cercador:
• Analitza tota la col·lecció
d’imatges i vídeos
• Ingesta metadades a la
base de dades
• Interfície gràfica d’usuari
• Permet navegar i fer
consultes sobre la col·lecció
/ 31
14. Cercadors que incorporen consultes
basades en el contingut visual
IMARS CALIPH & EMIR
Eina comercial proposada per IBM Projecte de codi lliure
ACM Multimedia Open Soure
Competition 2009
14Estat de l’art / 31
17. Segmentació interactiva:
17Estat de l’art
Nom de la tècnica SRG1 SIOX2 BPT3
Grau d'interacció Alt Mitjà Baix
Descriptor Color Color Color, textura, dispersió, ...
Comparativa de tècniques de segmentació asistida
1. Adams i Bischof - Adobe Photoshop
2. Gerald Friedland - GIMP
3. Luis Garrido, UPC - Clients UPSeek (GAT i GOS)
/ 31
18. Disseny
Disseny: eina global
18
S’ha decidit fer una integració jeràrquica de totes les eines a l’entorn del Digition
Digition
Mòdul de visualització de keyframes
Digimatge
Cerca
per
imatge
Cerca
per
regió
Detecció
de
text
Descriptors
visuals
Descriptors
visuals
/ 31
19. Disseny
Digitrace: Interfície gràfica
19
Mòdul principal
Menú
de
mode
Menú
de
configuració
Imatge
+
màscara
Botó
de
cerca
*
Menú
de
marcadors
Menú
d’edició
Mòdul secundari
Colors Configuració Ajuda
1. Marcadors
2. Màscara
1. Descriptors
2. Pinzell
1. Inici
2. Modes
/ 31
22. Disseny
Digitrace: Segmentació interactiva
22
• Punt fort: marcadors únicament d’objecte.
• Distingim dos criteris de propagació de fulles:
Criteri sense expansió Criteri amb expansió
Per a cada node objecte, seleccionarem el seu pare sempre i quan el subarbre del seu
germà tingui, com a mínim, un node seleccionat i no en tingui cap node fons.
/ 31
23. Disseny
Digitrace: Definició de modes
23
Rectangle sense expansió Rectangle amb expansió
Traça sense expansió Traça amb expansió
/ 31
25. Entorn de desenvolupament
Crides: Consultes per regió
25
Crida getQbE Mètode HTTP Paràmetres
d'entrada
Paràmetres
de sortida
Mode rectangle:
Obtenció de màscara
GET assetId
timeCode
coordenades
Màscara
Mode rectangle:
Obtenció de resultats
GET assetId
timeCode
coordenades
descriptors
Keyframes resultants
Mode traça:
Obtenció de màscara
POST assetId
timeCode
label
Imatge
bpt_neg
bpt_pos
Màscara
bpt_neg
bpt_pos
Mode traça:
Obtenció de resultats
GET assetId
timeCode
bpt_neg
bpt_pos
descriptors
Keyframes resultants
/ 31
26. Entorn de desenvolupament
Entorn de desenvolupament:
Marc de desenvolupament: Adobe Flex
Llenguatges de programació: MXML i ActionScript
• Aplicació web : Rich Internet Application
26
Usabilitat
Rapidesa
Interacció
Capacitats
multimèdia
Atractiu
/ 31
27. Disseny de les
interfícies:
- Digitrace
- Mòdul keyframes
Implementació
amb Flex de les
interfícies
Disseny dels
modes de
segmentació
interactiva
Disseny de les
crides HTTP
Conclusions
Conclusions:Treball realitzat
27 / 31
28. Conclusions
Conclusions:
28
Requeriments assolits:
Interfície multimodal
Integració del Digitrace
Descriptors visuals
Comunicació amb l’UPSeek
Punts forts de la interfície:
Comparteix les qualitats de les interfícies d’escriptori i les
interfícies web.
Originalitat de la proposta de segmentació interactiva: garantia
de resultats coherents amb marcadors únicament d’objecte.
/ 31
29. Conclusions
Conclusions:
29
Conclusions de l’avaluació dels modes de segmentació proposats:
El mode traça resulta útil per a imatges homogènies amb un
esforç mínim.
El mode rectangle és aconsellable, en canvi, per a imatges amb
molts colors i contorns.
Conclusions personals:
Experiència de treball en equip
Mediació entre la universitat i la empresa
Continuïtat de l’eina
/ 31
30. Conclusions
Treball futur:
30
A curt termini:
Incorporació de la màscara utilitzada en la cerca i dels resultats
Dinamitzar el mòdul de metadades del Digition
Agrupament dels resultats
A llarg termini:
Millorar la interacció de l’usuari amb els pesos dels descriptors
Eficiència de la cerca
Incorporar consultes textuals a partir del Detector de text
/ 31