2. Проблема
Проблема обработки неструктурированных данных
(рост объема данных):
- проблема поиска;
- проблема хранения.
Проблема хранения - эффективное использование
пространства систем хранения данных.
Использование концепции ILM (Information Lifecycle
Managment) и HSM (Hierarchical Storage Management).
Необходимы методы и алгоритмы для классификации
информации по признакам, определяющим ее
ценность, и выбора соответствующих аппаратных
ресурсов для ее хранения.
2
Оптимизация хранения неструктурированной информации в корпоративных информационных системах
3. Классификация информации
3
Оптимизация хранения неструктурированной информации в корпоративных информационных системах
4. Классификация информации
Предлагаемые подходы опираются на признаки,
характеризующие физическую структуру данных,
т.е. характеристики файла (тип, размер, дата
создания, и т.д.). Семантика не определена - все эти
данные представляют одинаковую ценность при
одинаковых физических характеристиках.
Аналогичные по структуре данные, одинаково
размещенные в системе хранения, могут иметь
совершенно разный смысл и, следовательно, разную
ценность для организации.
4 Оптимизация хранения неструктурированной информации в корпоративных информационных системах
5. Архитектура управления информацией
UIMA – Unstructured Information Management
Architecture
Разработана в IBM и передана сообществу open-source.
Базируется на понятии «Аннотатор»
Извлечение сущностей
●
(люди, даты, места,
продукция и т.д.)
Определение темы
●
(категория, настроение)
Взаимосвязи
●
● т.д.
5
Оптимизация хранения неструктурированной информации в корпоративных информационных системах
6. Структура решения
6
Оптимизация хранения неструктурированной информации в корпоративных информационных системах
7. Заключение
Задача — классификация информационного ресурса, т.е.
определение принадлежности к одному из заданных
классов и выделение соответствующего хранилища.
Отличительной особенностью предлагаемого решения
является категоризация информационного ресурса на
основе как физической структуры данных, так и
семантической информации о ресурсе c использованием
механизмов IBM (Apache) UIMA.
7
Оптимизация хранения неструктурированной информации в корпоративных информационных системах