SlideShare a Scribd company logo
1 of 7
Download to read offline
Оптимизация хранения неструктурированной
      информации в корпоративных
       информационных системах




               Селиванов Евгений, аспирант каф. ИУС БТИ
Проблема
Проблема обработки неструктурированных данных
(рост объема данных):
- проблема поиска;
- проблема хранения.

Проблема хранения - эффективное использование
пространства систем хранения данных.
Использование концепции ILM (Information Lifecycle
Managment) и HSM (Hierarchical Storage Management).

Необходимы методы и алгоритмы для классификации
информации по признакам, определяющим ее
ценность, и выбора соответствующих аппаратных
ресурсов для ее хранения.
2
    Оптимизация хранения неструктурированной информации в корпоративных информационных системах
Классификация информации




3
    Оптимизация хранения неструктурированной информации в корпоративных информационных системах
Классификация информации

Предлагаемые подходы опираются на признаки,
характеризующие физическую структуру данных,
т.е. характеристики файла (тип, размер, дата
создания, и т.д.). Семантика не определена - все эти
данные представляют одинаковую ценность при
одинаковых физических характеристиках.

Аналогичные по структуре данные, одинаково
размещенные в системе хранения, могут иметь
совершенно разный смысл и, следовательно, разную
ценность для организации.




4   Оптимизация хранения неструктурированной информации в корпоративных информационных системах
Архитектура управления информацией

UIMA – Unstructured Information Management
Architecture
Разработана в IBM и передана сообществу open-source.

Базируется на понятии «Аннотатор»
  Извлечение сущностей
●


(люди, даты, места,
продукция и т.д.)
  Определение темы
●


(категория, настроение)
  Взаимосвязи
●


● т.д.




    5
        Оптимизация хранения неструктурированной информации в корпоративных информационных системах
Структура решения




6
     Оптимизация хранения неструктурированной информации в корпоративных информационных системах
Заключение
    Задача — классификация информационного ресурса, т.е.
    определение принадлежности к одному из заданных
    классов и выделение соответствующего хранилища.

    Отличительной особенностью предлагаемого решения
    является категоризация информационного ресурса на
    основе как физической структуры данных, так и
    семантической информации о ресурсе c использованием
    механизмов IBM (Apache) UIMA.




7
      Оптимизация хранения неструктурированной информации в корпоративных информационных системах

More Related Content

What's hot

Начало 2009! Кейсы и надежды (с) Владимир Гарев
Начало 2009! Кейсы и надежды (с) Владимир ГаревНачало 2009! Кейсы и надежды (с) Владимир Гарев
Начало 2009! Кейсы и надежды (с) Владимир ГаревHUNGRY BOYS Creative agency
 
Milti-Listing for Real Estate over Russia
Milti-Listing for Real Estate over RussiaMilti-Listing for Real Estate over Russia
Milti-Listing for Real Estate over RussiaDmitry Kravtsov
 
Маркетинг e-learning
Маркетинг e-learningМаркетинг e-learning
Маркетинг e-learningElena Tikhomirova
 
SaaS - инновационная концепция (Сергей Панарин, ACTIVITI)
SaaS - инновационная концепция (Сергей Панарин, ACTIVITI)SaaS - инновационная концепция (Сергей Панарин, ACTIVITI)
SaaS - инновационная концепция (Сергей Панарин, ACTIVITI)i_day
 
обособление синтаксических конструкций с союзами как, словно
обособление синтаксических конструкций с союзами как, словнообособление синтаксических конструкций с союзами как, словно
обособление синтаксических конструкций с союзами как, словноguestd64dbd
 
Хорошо ли работают Ваши менеджеры по продажам?
Хорошо ли работают Ваши менеджеры по продажам?Хорошо ли работают Ваши менеджеры по продажам?
Хорошо ли работают Ваши менеджеры по продажам?Mikhail Grafsky
 
Как сделать шведское настоящее нашим будущим
Как сделать шведское настоящее нашим будущимКак сделать шведское настоящее нашим будущим
Как сделать шведское настоящее нашим будущимOleg Kopylov
 
корпоративный кодекс
корпоративный кодекскорпоративный кодекс
корпоративный кодексlacetti606
 
РИФ 2008: Электронные платежи в работе операторов фиксированной связи
РИФ 2008: Электронные платежи в работе операторов фиксированной связиРИФ 2008: Электронные платежи в работе операторов фиксированной связи
РИФ 2008: Электронные платежи в работе операторов фиксированной связиE-Money News
 
Devby Sef Presentation
Devby Sef PresentationDevby Sef Presentation
Devby Sef Presentationsef2009
 
Goal Directed Design
Goal Directed DesignGoal Directed Design
Goal Directed Designsanch3z
 
СПИК 2008: Как простимулировать электронные платежи (Яндекс.Деньги)
СПИК 2008: Как простимулировать электронные платежи (Яндекс.Деньги)СПИК 2008: Как простимулировать электронные платежи (Яндекс.Деньги)
СПИК 2008: Как простимулировать электронные платежи (Яндекс.Деньги)E-Money News
 
Global Compact Performance Model
Global Compact Performance ModelGlobal Compact Performance Model
Global Compact Performance ModelHOSHVA PR
 
Персональные риски аналитика
Персональные риски аналитикаПерсональные риски аналитика
Персональные риски аналитикаSQALab
 
Nikishin Root Conf
Nikishin Root ConfNikishin Root Conf
Nikishin Root ConfLiudmila Li
 
вопросы
вопросывопросы
вопросыsef2009
 
Minsk Seminar September09 Bntu
Minsk Seminar September09   BntuMinsk Seminar September09   Bntu
Minsk Seminar September09 BntuAlexey Skalaban
 
Default
DefaultDefault
Defaultvenzz
 
Sef Sivakou Tezisy
Sef Sivakou TezisySef Sivakou Tezisy
Sef Sivakou Tezisysef2009
 
DUMP-2015: «Как тестировщик мануалы писал» Антон Вдовиченко, СКБ Контур
DUMP-2015: «Как тестировщик мануалы писал» Антон Вдовиченко, СКБ Контур DUMP-2015: «Как тестировщик мануалы писал» Антон Вдовиченко, СКБ Контур
DUMP-2015: «Как тестировщик мануалы писал» Антон Вдовиченко, СКБ Контур it-people
 

What's hot (20)

Начало 2009! Кейсы и надежды (с) Владимир Гарев
Начало 2009! Кейсы и надежды (с) Владимир ГаревНачало 2009! Кейсы и надежды (с) Владимир Гарев
Начало 2009! Кейсы и надежды (с) Владимир Гарев
 
Milti-Listing for Real Estate over Russia
Milti-Listing for Real Estate over RussiaMilti-Listing for Real Estate over Russia
Milti-Listing for Real Estate over Russia
 
Маркетинг e-learning
Маркетинг e-learningМаркетинг e-learning
Маркетинг e-learning
 
SaaS - инновационная концепция (Сергей Панарин, ACTIVITI)
SaaS - инновационная концепция (Сергей Панарин, ACTIVITI)SaaS - инновационная концепция (Сергей Панарин, ACTIVITI)
SaaS - инновационная концепция (Сергей Панарин, ACTIVITI)
 
обособление синтаксических конструкций с союзами как, словно
обособление синтаксических конструкций с союзами как, словнообособление синтаксических конструкций с союзами как, словно
обособление синтаксических конструкций с союзами как, словно
 
Хорошо ли работают Ваши менеджеры по продажам?
Хорошо ли работают Ваши менеджеры по продажам?Хорошо ли работают Ваши менеджеры по продажам?
Хорошо ли работают Ваши менеджеры по продажам?
 
Как сделать шведское настоящее нашим будущим
Как сделать шведское настоящее нашим будущимКак сделать шведское настоящее нашим будущим
Как сделать шведское настоящее нашим будущим
 
корпоративный кодекс
корпоративный кодекскорпоративный кодекс
корпоративный кодекс
 
РИФ 2008: Электронные платежи в работе операторов фиксированной связи
РИФ 2008: Электронные платежи в работе операторов фиксированной связиРИФ 2008: Электронные платежи в работе операторов фиксированной связи
РИФ 2008: Электронные платежи в работе операторов фиксированной связи
 
Devby Sef Presentation
Devby Sef PresentationDevby Sef Presentation
Devby Sef Presentation
 
Goal Directed Design
Goal Directed DesignGoal Directed Design
Goal Directed Design
 
СПИК 2008: Как простимулировать электронные платежи (Яндекс.Деньги)
СПИК 2008: Как простимулировать электронные платежи (Яндекс.Деньги)СПИК 2008: Как простимулировать электронные платежи (Яндекс.Деньги)
СПИК 2008: Как простимулировать электронные платежи (Яндекс.Деньги)
 
Global Compact Performance Model
Global Compact Performance ModelGlobal Compact Performance Model
Global Compact Performance Model
 
Персональные риски аналитика
Персональные риски аналитикаПерсональные риски аналитика
Персональные риски аналитика
 
Nikishin Root Conf
Nikishin Root ConfNikishin Root Conf
Nikishin Root Conf
 
вопросы
вопросывопросы
вопросы
 
Minsk Seminar September09 Bntu
Minsk Seminar September09   BntuMinsk Seminar September09   Bntu
Minsk Seminar September09 Bntu
 
Default
DefaultDefault
Default
 
Sef Sivakou Tezisy
Sef Sivakou TezisySef Sivakou Tezisy
Sef Sivakou Tezisy
 
DUMP-2015: «Как тестировщик мануалы писал» Антон Вдовиченко, СКБ Контур
DUMP-2015: «Как тестировщик мануалы писал» Антон Вдовиченко, СКБ Контур DUMP-2015: «Как тестировщик мануалы писал» Антон Вдовиченко, СКБ Контур
DUMP-2015: «Как тестировщик мануалы писал» Антон Вдовиченко, СКБ Контур
 

IBM UIMA

  • 1. Оптимизация хранения неструктурированной информации в корпоративных информационных системах Селиванов Евгений, аспирант каф. ИУС БТИ
  • 2. Проблема Проблема обработки неструктурированных данных (рост объема данных): - проблема поиска; - проблема хранения. Проблема хранения - эффективное использование пространства систем хранения данных. Использование концепции ILM (Information Lifecycle Managment) и HSM (Hierarchical Storage Management). Необходимы методы и алгоритмы для классификации информации по признакам, определяющим ее ценность, и выбора соответствующих аппаратных ресурсов для ее хранения. 2 Оптимизация хранения неструктурированной информации в корпоративных информационных системах
  • 3. Классификация информации 3 Оптимизация хранения неструктурированной информации в корпоративных информационных системах
  • 4. Классификация информации Предлагаемые подходы опираются на признаки, характеризующие физическую структуру данных, т.е. характеристики файла (тип, размер, дата создания, и т.д.). Семантика не определена - все эти данные представляют одинаковую ценность при одинаковых физических характеристиках. Аналогичные по структуре данные, одинаково размещенные в системе хранения, могут иметь совершенно разный смысл и, следовательно, разную ценность для организации. 4 Оптимизация хранения неструктурированной информации в корпоративных информационных системах
  • 5. Архитектура управления информацией UIMA – Unstructured Information Management Architecture Разработана в IBM и передана сообществу open-source. Базируется на понятии «Аннотатор» Извлечение сущностей ● (люди, даты, места, продукция и т.д.) Определение темы ● (категория, настроение) Взаимосвязи ● ● т.д. 5 Оптимизация хранения неструктурированной информации в корпоративных информационных системах
  • 6. Структура решения 6 Оптимизация хранения неструктурированной информации в корпоративных информационных системах
  • 7. Заключение Задача — классификация информационного ресурса, т.е. определение принадлежности к одному из заданных классов и выделение соответствующего хранилища. Отличительной особенностью предлагаемого решения является категоризация информационного ресурса на основе как физической структуры данных, так и семантической информации о ресурсе c использованием механизмов IBM (Apache) UIMA. 7 Оптимизация хранения неструктурированной информации в корпоративных информационных системах