Bahare Shariat Jild 2 By SadurshSharia Mufti Amjad Ali Azmi
борисенкова методы визуализации для анализа зависящих от времени данных
1. Методы визуализации для анализа зависящих
от времени данных
(Visual Methods for Analyzing Time-Oriented Data
Wolfgang Aigner, Silvia Miksch, Wolfgang Muller, Heidrun Schumann, and
Christian Tominski)
Перевод – Борисенкова А., 424.
3. 3
Три основных части процесса
представления данных:
●
Визуализация
данных
●
Анализ данных
●
Внесение
корректировок
пользователем
4. 4
Основные особенности
зависящих от времени данных
Данных обычно много
И у них много параметров,
которые меняются со
временем
И если это всё визуализировать,
то экран будет переполнен
информацией, среди которой
можно потеряться
Надо что-то отбросить или
скрыть
6. 6
Способы и концепции
представления времени
●
Линейное и повторяющееся время
●
Интервалы времени или дискретные точки
●
Упорядоченное время или представленное в
виде дерева время или время,
воспринимаемое с нескольких точек зрения
(Большинство способов визуализации
использует линейное время)
7. 7
Следует подчеркнуть,
что метод,
разработанный для
определенного вида
данных, не должен
применяться для
визуализации
другого вида
данных.
Это может привести к
невыразительности или
неэффективности
визуального
представления, ошибкам и
ложному толкованию
9. 9
Что плохо и почему плохо
Неисследованные данные – неизвестные
параметры – неизвестно, как именно
визуализировать
Придется либо посадить пользователя, чтобы
тот, заметив периодичность данных, нажал
кнопку «стоп»,
...либо разрабатывать аналитические методы
анализа данных, что интереснее. Подробнее –
далее
12. 12
Что плохо и почему плохо
TimeWheel полезно только для многомерных
данных с дискретным временем
Данные с интервальным временем не могут
быть представлены
16. 16
Keim’s Visual Analytics Mantra
«Analyze First - Show the Important - Zoom and
Filter, and Analyze Further - Details on
Demand»
Сначала анализируем – показываем важное –
приближаем, скрываем незначительное,
продолжаем анализировать – если
понадобится, покажем детали.
18. 18
Концепция абстракции зависящих
от времени данных
Требуется придумать способ анализа больших объемов
всё время пополняющихся данных для упрощения
последующей обработки
Создадим абстракцию, которая передает ключевые идеи,
подавляя детали
Основная идея заключается в использовании
качественных значений или паттернов, а не исходных
данных, для дальнейшего анализа или визуализации
Предварительно данные требуется подготовить: оставить
только корректные и нужные данные, отсортировать, etc.
19. 19
Абстракция временных данных:
три этапа
1) Подготовка данных: исключение данных с
ошибками, сортировка
2) Преобразование входных данных в кривую с
некоторой дополнительной информацией о
распределении данных по этой кривой.
3) Преобразование количественных значений в
качественные ("нормальный" или "высокий"),
и объединение данных с одинаковыми
качественными значениями во временные
интервалы.
20. 20
Красная область изображает сглаженную
кривую, синие прямоугольники представляют
временные интервалы устойчивых
качественных значений, черная кривая –
изначальные данные.
21. 21
Выделение основных компонент
Из сырых данных выделяем те, которые
соответствуют наибольшему разбросу
значений, из оставшихся – снова выделяем
те, которые соответствуют наибольшему
разбросу значений, и так далее.
Алгоритм выделяет компоненты по порядку их
значимости, что может помочь уменьшить
размерность исходных данных, если она
слишком велика.
22. 22
Что плохо и почему плохо
Алгоритм не делает различий между
зависимыми и независимыми переменными:
все они равноправны. Из-за этого
зависимость от времени может быть
потеряна
Выход: исключить переменную «время» из
рассмотрения, после завершения выделения
остальных компонентов объединить время и
выделенные компоненты
23. 23
Число летних дней с максимальной дневной
температурой выше 20C (синий), выше 25 C
(фиолетовый), выше 30 C (зеленый), со
среднесуточной температурой (желтый) и с
максимальной (белый).
27. 27
Анализ с привлечением
пользователя при помощи
событий
Взаимодействие с пользователем предполагает
параметризацию рассмотренных ранее методов
визуализации и анализа данных. Большинство
современных предназначенных для этого программ
имеют интерактивный GUI для задания параметров
с помощью, например, ползунков или чекбоксов.
Три шага:
●
– описание события;
●
– обнаружение события;
●
– представление события.
28. 28
Что же хочет увидеть
пользователь: описание события
Запрос: «Выбрать три последовательных дня с
увеличением заболеваемости гриппом более
чем на 15%». {(x, y, z)date | z.flu ≥ y.flu 1.15
∗
&& y.flu ≥ x.flu 1.15}
∗
29. 29
Обнаружение события
●
Переменные в так или иначе определённой
формуле инициализируются конкретными
значениями из набора данных
●
Формула вычисляется в true или false
Процесс вычисления может повлечь большие
накладные расходы, так что к выбору
используемых алгоритмов вычисления стоит
отнестись с вниманием
30. 30
Учет пожеланий пользователя
при визуализации данных:
представление событий
●
Сообщить, что нашлось что-то,
интересующее пользователя
●
Выделить интересующие данные среди
остальных данных
●
Отразить, что же делает данные
интересными для пользователя
31. 31
«Выбрать дни с большим числом
заражений»
Формула: {x | x.flu ≥ 300}
32. 32
Что плохо и почему плохо
Не подходит для автоматического выявления
событий в данных, если пользователь не
представляет, что же именно искать
36. 36
REFERENCES
Visual Methods for Analyzing Time-Oriented Data
by Wolfgang Aigner, Silvia Miksch, Wolfgang
Muller, Heidrun Schumann, and Christian
Tominski
37. 37
REFERENCES
[1] B. Shneiderman, “The Eyes Have It: A Task by
Data Type Taxonomy
for Information Visualizations,” in Proc. of the
IEEE Symp. on Visual
Languages. IEEE Press, 1996, pp. 336–343.
[2] J. J. Thomas and K. A. Cook, “A Visual
Analytics Agenda,” IEEE
Computer Graphics and Applications, vol. 26, no.
1, pp. 10–13, 2006.
38. 38
R EFERENCES
.
̈
[6] I. A. Goralwalla, M. T. Ozsu,
and D. Szafron, “An Object-Oriented
Framework for Temporal Data Models,” in
Temporal Databases: Re-
search and Practice, E. et al., Ed. Springer, 1998,
pp. 1–35.
[7] W. Muller and H. Schumann, “Visualization
Methods for Time-
39. 39
R EFERENCES
[9] M. Weber, M. Alexa, and W. Muller,
“Visualizing Time-Series on
Spirals,” in Proc. of the IEEE Symp. on
Information Visualization 2001
(InfoVis01), Oct. 2001, pp. 7–14.
[10] J. V. Carlis and J. A. Konstan, “Interactive
Visualization of Serial
Periodic Data,” in Proc. of Symposium on User
Interface Software and
Technology (UIST), 1998.
40. 40
R EFERENCES
[14] W. Aigner, S. Miksch, B. Thurnher, and S. Biffl,
“PlanningLines: Novel
Glyphs for Representing Temporal Uncertainties
and their Evaluation,”
in Proc. of the 9th Intl. Conf. on Information
Visualisation (IV05). IEEE
Press, 2005.
[15] C. Plaisant, B. Milash, A. Rose, S. Widoff, and
B. Shneiderman,
41. 41
R EFERENCES
[18] R. L. Harris, Information Graphics: A
Comprehensive Illustrated Refer-
ence. Oxford University Press, 1999.
[19] H. Hochheiser, “Interactive Graphical
Querying of Time Series and
Linear Sequence Data Sets,” Ph.D. dissertation,
University of Maryland,
2003.
[20] H. Doleisch, H. Hauser, M. Gasser, and R.
Kosara, “Interactive
42. 42
R EFERENCES
[23] W. J. Clancey, “Heuristic Classification,”
Artificial Intelligence, vol. 27,
pp. 289–350, 1985.
[24] J. J. Thomas and K. A. Cook, Illuminating the
Path: The Research and
Development Agenda for Visual Analytics. IEEE
Press, 2005.
[25] J. Lin, E. Keogh, S. Lonardi, and B. Chiu, “A
symbolic representation of
time series, with implications for streaming
algorithms,” in Proc. ACM SIGMOD Workshop on
43. 43
R EFERENCES
R. Bade, S. Schlechtweg, and S. Miksch, “Connecting
Time-oriented
Data and Information to a Coherent Interactive
Visualization,” in Proc.
of the 2004 Conf. on Human Factors in Computing
Systems (CHI04).
ACM Press, 2004, pp. 105–112.
J. Lin, E. Keogh, L. Wei, and S. Lonardi, “Experiencing
SAX: a Novel
Symbolic Representation of Time Series,” Data Mining
and Knowledge
Discovery, 2007, to appear.
44. 44
R EFERENCES
W. Muller, T. Nocke, and H. Schumann, “Enhancing the
Visualization
Process with Principal Component Analysis to Support the
Exploration
of Trends,” in Proc. of APVIS’06, 2006.
A. K. Jain, M. N. Murty, and P. J. Flynn, “Data clustering: a
review,”
ACM Computing Surveys, vol. 31, no. 3, pp. 264–323, 1999.
J. J. van Wijk and E. R. van Selow, “Cluster and Calendar
Based
Visualization of Time Series Data,” in Proc. of the IEEE
Symp. on
Information Visualization 1999 (InfoVis’99), 1999, pp. 4–9.
45. 45
R EFERENCES
K. Henriksen, J. Sporring, and K. Hornbaek,
“Virtual Trackballs Re-
visited,” IEEE Transactions on Visualization and
Computer Graphics,
vol. 10, no. 2, pp. 206–216, 2004.
C. Tominski, “Event-Based Visualization for
User-Centered Visual Anal-
ysis,” Ph.D. dissertation, University of Rostock,
2006.
S. dos Santos and K. Brodlie, “Gaining