борисенкова методы визуализации для анализа зависящих от времени данных
1.
Методы визуализации дляанализа зависящих
от времени данных
(Visual Methods for Analyzing Time-Oriented Data
Wolfgang Aigner, Silvia Miksch, Wolfgang Muller, Heidrun Schumann, and
Christian Tominski)
Перевод – Борисенкова А., 424.
3
Три основных частипроцесса
представления данных:
●
Визуализация
данных
●
Анализ данных
●
Внесение
корректировок
пользователем
4.
4
Основные особенности
зависящих отвремени данных
Данных обычно много
И у них много параметров,
которые меняются со
временем
И если это всё визуализировать,
то экран будет переполнен
информацией, среди которой
можно потеряться
Надо что-то отбросить или
скрыть
6
Способы и концепции
представлениявремени
●
Линейное и повторяющееся время
●
Интервалы времени или дискретные точки
●
Упорядоченное время или представленное в
виде дерева время или время,
воспринимаемое с нескольких точек зрения
(Большинство способов визуализации
использует линейное время)
7.
7
Следует подчеркнуть,
что метод,
разработанныйдля
определенного вида
данных, не должен
применяться для
визуализации
другого вида
данных.
Это может привести к
невыразительности или
неэффективности
визуального
представления, ошибкам и
ложному толкованию
9
Что плохо ипочему плохо
Неисследованные данные – неизвестные
параметры – неизвестно, как именно
визуализировать
Придется либо посадить пользователя, чтобы
тот, заметив периодичность данных, нажал
кнопку «стоп»,
...либо разрабатывать аналитические методы
анализа данных, что интереснее. Подробнее –
далее
12
Что плохо ипочему плохо
TimeWheel полезно только для многомерных
данных с дискретным временем
Данные с интервальным временем не могут
быть представлены
16
Keim’s Visual AnalyticsMantra
«Analyze First - Show the Important - Zoom and
Filter, and Analyze Further - Details on
Demand»
Сначала анализируем – показываем важное –
приближаем, скрываем незначительное,
продолжаем анализировать – если
понадобится, покажем детали.
18
Концепция абстракции зависящих
отвремени данных
Требуется придумать способ анализа больших объемов
всё время пополняющихся данных для упрощения
последующей обработки
Создадим абстракцию, которая передает ключевые идеи,
подавляя детали
Основная идея заключается в использовании
качественных значений или паттернов, а не исходных
данных, для дальнейшего анализа или визуализации
Предварительно данные требуется подготовить: оставить
только корректные и нужные данные, отсортировать, etc.
19.
19
Абстракция временных данных:
триэтапа
1) Подготовка данных: исключение данных с
ошибками, сортировка
2) Преобразование входных данных в кривую с
некоторой дополнительной информацией о
распределении данных по этой кривой.
3) Преобразование количественных значений в
качественные ("нормальный" или "высокий"),
и объединение данных с одинаковыми
качественными значениями во временные
интервалы.
20.
20
Красная область изображаетсглаженную
кривую, синие прямоугольники представляют
временные интервалы устойчивых
качественных значений, черная кривая –
изначальные данные.
21.
21
Выделение основных компонент
Изсырых данных выделяем те, которые
соответствуют наибольшему разбросу
значений, из оставшихся – снова выделяем
те, которые соответствуют наибольшему
разбросу значений, и так далее.
Алгоритм выделяет компоненты по порядку их
значимости, что может помочь уменьшить
размерность исходных данных, если она
слишком велика.
22.
22
Что плохо ипочему плохо
Алгоритм не делает различий между
зависимыми и независимыми переменными:
все они равноправны. Из-за этого
зависимость от времени может быть
потеряна
Выход: исключить переменную «время» из
рассмотрения, после завершения выделения
остальных компонентов объединить время и
выделенные компоненты
23.
23
Число летних днейс максимальной дневной
температурой выше 20C (синий), выше 25 C
(фиолетовый), выше 30 C (зеленый), со
среднесуточной температурой (желтый) и с
максимальной (белый).
27
Анализ с привлечением
пользователяпри помощи
событий
Взаимодействие с пользователем предполагает
параметризацию рассмотренных ранее методов
визуализации и анализа данных. Большинство
современных предназначенных для этого программ
имеют интерактивный GUI для задания параметров
с помощью, например, ползунков или чекбоксов.
Три шага:
●
– описание события;
●
– обнаружение события;
●
– представление события.
28.
28
Что же хочетувидеть
пользователь: описание события
Запрос: «Выбрать три последовательных дня с
увеличением заболеваемости гриппом более
чем на 15%». {(x, y, z)date | z.flu ≥ y.flu 1.15
∗
&& y.flu ≥ x.flu 1.15}
∗
29.
29
Обнаружение события
●
Переменные втак или иначе определённой
формуле инициализируются конкретными
значениями из набора данных
●
Формула вычисляется в true или false
Процесс вычисления может повлечь большие
накладные расходы, так что к выбору
используемых алгоритмов вычисления стоит
отнестись с вниманием
30.
30
Учет пожеланий пользователя
привизуализации данных:
представление событий
●
Сообщить, что нашлось что-то,
интересующее пользователя
●
Выделить интересующие данные среди
остальных данных
●
Отразить, что же делает данные
интересными для пользователя
31.
31
«Выбрать дни сбольшим числом
заражений»
Формула: {x | x.flu ≥ 300}
32.
32
Что плохо ипочему плохо
Не подходит для автоматического выявления
событий в данных, если пользователь не
представляет, что же именно искать
36
REFERENCES
Visual Methods forAnalyzing Time-Oriented Data
by Wolfgang Aigner, Silvia Miksch, Wolfgang
Muller, Heidrun Schumann, and Christian
Tominski
37.
37
REFERENCES
[1] B. Shneiderman,“The Eyes Have It: A Task by
Data Type Taxonomy
for Information Visualizations,” in Proc. of the
IEEE Symp. on Visual
Languages. IEEE Press, 1996, pp. 336–343.
[2] J. J. Thomas and K. A. Cook, “A Visual
Analytics Agenda,” IEEE
Computer Graphics and Applications, vol. 26, no.
1, pp. 10–13, 2006.
38.
38
R EFERENCES
.
̈
[6] I.A. Goralwalla, M. T. Ozsu,
and D. Szafron, “An Object-Oriented
Framework for Temporal Data Models,” in
Temporal Databases: Re-
search and Practice, E. et al., Ed. Springer, 1998,
pp. 1–35.
[7] W. Muller and H. Schumann, “Visualization
Methods for Time-
39.
39
R EFERENCES
[9] M.Weber, M. Alexa, and W. Muller,
“Visualizing Time-Series on
Spirals,” in Proc. of the IEEE Symp. on
Information Visualization 2001
(InfoVis01), Oct. 2001, pp. 7–14.
[10] J. V. Carlis and J. A. Konstan, “Interactive
Visualization of Serial
Periodic Data,” in Proc. of Symposium on User
Interface Software and
Technology (UIST), 1998.
40.
40
R EFERENCES
[14] W.Aigner, S. Miksch, B. Thurnher, and S. Biffl,
“PlanningLines: Novel
Glyphs for Representing Temporal Uncertainties
and their Evaluation,”
in Proc. of the 9th Intl. Conf. on Information
Visualisation (IV05). IEEE
Press, 2005.
[15] C. Plaisant, B. Milash, A. Rose, S. Widoff, and
B. Shneiderman,
41.
41
R EFERENCES
[18] R.L. Harris, Information Graphics: A
Comprehensive Illustrated Refer-
ence. Oxford University Press, 1999.
[19] H. Hochheiser, “Interactive Graphical
Querying of Time Series and
Linear Sequence Data Sets,” Ph.D. dissertation,
University of Maryland,
2003.
[20] H. Doleisch, H. Hauser, M. Gasser, and R.
Kosara, “Interactive
42.
42
R EFERENCES
[23] W.J. Clancey, “Heuristic Classification,”
Artificial Intelligence, vol. 27,
pp. 289–350, 1985.
[24] J. J. Thomas and K. A. Cook, Illuminating the
Path: The Research and
Development Agenda for Visual Analytics. IEEE
Press, 2005.
[25] J. Lin, E. Keogh, S. Lonardi, and B. Chiu, “A
symbolic representation of
time series, with implications for streaming
algorithms,” in Proc. ACM SIGMOD Workshop on
43.
43
R EFERENCES
R. Bade,S. Schlechtweg, and S. Miksch, “Connecting
Time-oriented
Data and Information to a Coherent Interactive
Visualization,” in Proc.
of the 2004 Conf. on Human Factors in Computing
Systems (CHI04).
ACM Press, 2004, pp. 105–112.
J. Lin, E. Keogh, L. Wei, and S. Lonardi, “Experiencing
SAX: a Novel
Symbolic Representation of Time Series,” Data Mining
and Knowledge
Discovery, 2007, to appear.
44.
44
R EFERENCES
W. Muller,T. Nocke, and H. Schumann, “Enhancing the
Visualization
Process with Principal Component Analysis to Support the
Exploration
of Trends,” in Proc. of APVIS’06, 2006.
A. K. Jain, M. N. Murty, and P. J. Flynn, “Data clustering: a
review,”
ACM Computing Surveys, vol. 31, no. 3, pp. 264–323, 1999.
J. J. van Wijk and E. R. van Selow, “Cluster and Calendar
Based
Visualization of Time Series Data,” in Proc. of the IEEE
Symp. on
Information Visualization 1999 (InfoVis’99), 1999, pp. 4–9.
45.
45
R EFERENCES
K. Henriksen,J. Sporring, and K. Hornbaek,
“Virtual Trackballs Re-
visited,” IEEE Transactions on Visualization and
Computer Graphics,
vol. 10, no. 2, pp. 206–216, 2004.
C. Tominski, “Event-Based Visualization for
User-Centered Visual Anal-
ysis,” Ph.D. dissertation, University of Rostock,
2006.
S. dos Santos and K. Brodlie, “Gaining