SlideShare a Scribd company logo
1 of 11
Федор Краснов,к.т.н., НЭИКОН Загрузить в DSpace10 000 000 записей
Арифметика 10 000 000 Если хранилище будет наполняться со скоростью одна запись в  секунду, то нам потребуется 116 дней, чтобы загрузить все. Если одна запись содержит 30 мета-полей (dc.title, dc.date_issued, и.т.п.), то для хранения в Dublin Core у нас получится таблица с  0,3 миллиарда строк. При среднем размере текста статьи 500 кБ нам потребуется минимум 15 Тб дисков .
Научное обоснование «Experiment to Investigate theScalability of aDSpace-based Archive» DharitriMisra, Ph. D.National Library of Medicine (NLM) April 30, 2008 (http://www.dspacedev2.org/images/stories/ist2008_paper_submitted1.pdf) Conclusion Our archive, built on DSpace, shows acceptable performance in ingesting up to a million items Larger file sizes will not significantly affect performance Our benchmarks should be useful to other DSpace installation sites concerned with performance
Структура работ Процесс загрузки (ingestment) Подготовка записей для конвертации Конвертация записей в формат Dublin Core Загрузка записей в DSpace Подготовкадля доступа через веб Индексирование данных в таблицах Индексирование данных для просмотра (Browse) Индексирование данных для Поиска (Search)
Подготовки записей для конвертации Коллекции поставляются в формате tar.gz Проверка уникальности записей Проверка валидности записей Установление соответствия метаданных и текста статьи Проверка целостности (наличия метаданных и полных текстов)
Загрузка записей в Dspace Dspaceимеет три интерфейса для загрузки Веб интерфейс (SWORD) Import (bin/dspace import)  Metadata-import (bin/dspacemetadata-import)  с последующей привязкой документов
Подготовкадля доступа через веб Индексирование данных для просмотра (Browse) по Автору, Названию журнала, Дате выпуска с помощью Luceneинтегрированного в Dspace. Индексирование данных для поиска (Search) с помощью Solrинтегрированного в Dspace. Для ManakinSolr обеспечивает facets и  auto complition.
Текущие результаты Завершен процесс загрузки коллекции 13.7 млн записей (без полных текстов статей) Проведена подготовка записей для конвертации, устранено дублирование,  выявлены не валидные записи, произведено сопоставление формата коллекции с Dublin Core. Завершена конвертация записей в формат Dublin Core. Произведена загрузка записей в DSpace
Сравнение
Сравнение
Спасибо за внимание. Продолжение следует …

More Related Content

What's hot

Cфинкс и поиск терабайта
Cфинкс и поиск терабайтаCфинкс и поиск терабайта
Cфинкс и поиск терабайта
Media Gorod
 
Файлы и файловые структуры
Файлы и файловые структурыФайлы и файловые структуры
Файлы и файловые структуры
kvlar
 
Lapan 20.04 hadoop h-base
Lapan 20.04 hadoop h-baseLapan 20.04 hadoop h-base
Lapan 20.04 hadoop h-base
kuchinskaya
 
Lecture14
Lecture14Lecture14
Lecture14
Muuluu
 
67
6767
67
JIuc
 
CodeFest 2014. Бартунов О. — Hstore — документо-ориентированное хранилище и д...
CodeFest 2014. Бартунов О. — Hstore — документо-ориентированное хранилище и д...CodeFest 2014. Бартунов О. — Hstore — документо-ориентированное хранилище и д...
CodeFest 2014. Бартунов О. — Hstore — документо-ориентированное хранилище и д...
CodeFest
 
MongoDB в продакшен - миф или реальность?
MongoDB в продакшен - миф или реальность?MongoDB в продакшен - миф или реальность?
MongoDB в продакшен - миф или реальность?
Alexey Tokar
 
файлы и файловые структуры
файлы и файловые структурыфайлы и файловые структуры
файлы и файловые структуры
Anastasiya1234
 

What's hot (20)

LDAP in infrastructure (RootConf 2009)
LDAP in infrastructure (RootConf 2009)LDAP in infrastructure (RootConf 2009)
LDAP in infrastructure (RootConf 2009)
 
03 - Hadoop. HDFS Shell-команды
03 - Hadoop. HDFS Shell-команды03 - Hadoop. HDFS Shell-команды
03 - Hadoop. HDFS Shell-команды
 
2
22
2
 
Cфинкс и поиск терабайта
Cфинкс и поиск терабайтаCфинкс и поиск терабайта
Cфинкс и поиск терабайта
 
Файлы и файловые структуры
Файлы и файловые структурыФайлы и файловые структуры
Файлы и файловые структуры
 
Linux files, file systems, block devices.
Linux files, file systems, block devices.Linux files, file systems, block devices.
Linux files, file systems, block devices.
 
Lapan 20.04 hadoop h-base
Lapan 20.04 hadoop h-baseLapan 20.04 hadoop h-base
Lapan 20.04 hadoop h-base
 
89
8989
89
 
Система Хранения Оригиналов Документов
Система Хранения Оригиналов ДокументовСистема Хранения Оригиналов Документов
Система Хранения Оригиналов Документов
 
Lecture14
Lecture14Lecture14
Lecture14
 
файлы и файловая система
файлы и файловая системафайлы и файловая система
файлы и файловая система
 
Понятие об ОС. Рабочий стол, файл, папка, диск
Понятие об ОС. Рабочий стол, файл, папка, дискПонятие об ОС. Рабочий стол, файл, папка, диск
Понятие об ОС. Рабочий стол, файл, папка, диск
 
67
6767
67
 
CodeFest 2014. Бартунов О. — Hstore — документо-ориентированное хранилище и д...
CodeFest 2014. Бартунов О. — Hstore — документо-ориентированное хранилище и д...CodeFest 2014. Бартунов О. — Hstore — документо-ориентированное хранилище и д...
CodeFest 2014. Бартунов О. — Hstore — документо-ориентированное хранилище и д...
 
Сжатие файлов. Архивация.
Сжатие файлов. Архивация.Сжатие файлов. Архивация.
Сжатие файлов. Архивация.
 
Файл
ФайлФайл
Файл
 
Лекция 3. Распределённая файловая система HDFS
Лекция 3. Распределённая файловая система HDFSЛекция 3. Распределённая файловая система HDFS
Лекция 3. Распределённая файловая система HDFS
 
MongoDB в продакшен - миф или реальность?
MongoDB в продакшен - миф или реальность?MongoDB в продакшен - миф или реальность?
MongoDB в продакшен - миф или реальность?
 
файлы и файловые структуры
файлы и файловые структурыфайлы и файловые структуры
файлы и файловые структуры
 
Архивирование. Концепция C-Bura
Архивирование. Концепция C-BuraАрхивирование. Концепция C-Bura
Архивирование. Концепция C-Bura
 

Similar to загрузить в DSpace

MongoDB первые впечатления
MongoDB первые впечатленияMongoDB первые впечатления
MongoDB первые впечатления
fudz1k
 
2015-12-05 Дмитрий Еманов - Многоверсионная архитектура данных: аспирин или г...
2015-12-05 Дмитрий Еманов - Многоверсионная архитектура данных: аспирин или г...2015-12-05 Дмитрий Еманов - Многоверсионная архитектура данных: аспирин или г...
2015-12-05 Дмитрий Еманов - Многоверсионная архитектура данных: аспирин или г...
HappyDev
 
IOP202 DevCon 2012 Apache Lucene in Windows Azure
IOP202 DevCon 2012 Apache Lucene in Windows AzureIOP202 DevCon 2012 Apache Lucene in Windows Azure
IOP202 DevCon 2012 Apache Lucene in Windows Azure
Vadim Novitskiy
 
Frontera: распределенный робот для обхода интернета в больших объемах - Алекс...
Frontera: распределенный робот для обхода интернета в больших объемах - Алекс...Frontera: распределенный робот для обхода интернета в больших объемах - Алекс...
Frontera: распределенный робот для обхода интернета в больших объемах - Алекс...
it-people
 
Безопасность без антивирусов 4
Безопасность без антивирусов 4Безопасность без антивирусов 4
Безопасность без антивирусов 4
Positive Hack Days
 
Разработка распределенного приложение на платформе Amazon Cloud
Разработка распределенного приложение на платформе Amazon CloudРазработка распределенного приложение на платформе Amazon Cloud
Разработка распределенного приложение на платформе Amazon Cloud
MageCloud
 
NoSQL внутри SQL: приземленные вопросы практического применения / Дмитрий До...
NoSQL внутри SQL: приземленные вопросы практического применения /  Дмитрий До...NoSQL внутри SQL: приземленные вопросы практического применения /  Дмитрий До...
NoSQL внутри SQL: приземленные вопросы практического применения / Дмитрий До...
Ontico
 

Similar to загрузить в DSpace (20)

Развитие баз данных в Dropbox. Путь от одной глобальной базы MySQL к 6000 шар...
Развитие баз данных в Dropbox. Путь от одной глобальной базы MySQL к 6000 шар...Развитие баз данных в Dropbox. Путь от одной глобальной базы MySQL к 6000 шар...
Развитие баз данных в Dropbox. Путь от одной глобальной базы MySQL к 6000 шар...
 
MongoDB первые впечатления
MongoDB первые впечатленияMongoDB первые впечатления
MongoDB первые впечатления
 
Nosql and Mongodb
Nosql and MongodbNosql and Mongodb
Nosql and Mongodb
 
Ускоряем и разгружаем веб-сервер, прозрачно кэшируя на SSD, Станислав Николов...
Ускоряем и разгружаем веб-сервер, прозрачно кэшируя на SSD, Станислав Николов...Ускоряем и разгружаем веб-сервер, прозрачно кэшируя на SSD, Станислав Николов...
Ускоряем и разгружаем веб-сервер, прозрачно кэшируя на SSD, Станислав Николов...
 
2015-12-05 Дмитрий Еманов - Многоверсионная архитектура данных: аспирин или г...
2015-12-05 Дмитрий Еманов - Многоверсионная архитектура данных: аспирин или г...2015-12-05 Дмитрий Еманов - Многоверсионная архитектура данных: аспирин или г...
2015-12-05 Дмитрий Еманов - Многоверсионная архитектура данных: аспирин или г...
 
НуП_Лекция 8. Работа с файлами на Ассемблере.ppt
НуП_Лекция 8. Работа с файлами на Ассемблере.pptНуП_Лекция 8. Работа с файлами на Ассемблере.ppt
НуП_Лекция 8. Работа с файлами на Ассемблере.ppt
 
IOP202 DevCon 2012 Apache Lucene in Windows Azure
IOP202 DevCon 2012 Apache Lucene in Windows AzureIOP202 DevCon 2012 Apache Lucene in Windows Azure
IOP202 DevCon 2012 Apache Lucene in Windows Azure
 
НуП_Лекция 7. Работа с каталогами диска.ppt
НуП_Лекция 7. Работа с каталогами диска.pptНуП_Лекция 7. Работа с каталогами диска.ppt
НуП_Лекция 7. Работа с каталогами диска.ppt
 
лабраб 4
лабраб 4лабраб 4
лабраб 4
 
Frontera обход испанского интернета
Frontera обход испанского интернетаFrontera обход испанского интернета
Frontera обход испанского интернета
 
Frontera: распределенный робот для обхода интернета в больших объемах - Алекс...
Frontera: распределенный робот для обхода интернета в больших объемах - Алекс...Frontera: распределенный робот для обхода интернета в больших объемах - Алекс...
Frontera: распределенный робот для обхода интернета в больших объемах - Алекс...
 
Безопасность без антивирусов 4
Безопасность без антивирусов 4Безопасность без антивирусов 4
Безопасность без антивирусов 4
 
Lan-Crawler Bachlor RU
Lan-Crawler Bachlor RULan-Crawler Bachlor RU
Lan-Crawler Bachlor RU
 
Базовые принципы работы с SVN.
Базовые принципы работы с SVN.Базовые принципы работы с SVN.
Базовые принципы работы с SVN.
 
Разработка распределенного приложение на платформе Amazon Cloud
Разработка распределенного приложение на платформе Amazon CloudРазработка распределенного приложение на платформе Amazon Cloud
Разработка распределенного приложение на платформе Amazon Cloud
 
Введение в Oracle
Введение в OracleВведение в Oracle
Введение в Oracle
 
Анализ и оценка систем адресации данных в современных ЭВМ
Анализ и оценка систем адресации данных в современных ЭВМАнализ и оценка систем адресации данных в современных ЭВМ
Анализ и оценка систем адресации данных в современных ЭВМ
 
файловая система
файловая системафайловая система
файловая система
 
1
11
1
 
NoSQL внутри SQL: приземленные вопросы практического применения / Дмитрий До...
NoSQL внутри SQL: приземленные вопросы практического применения /  Дмитрий До...NoSQL внутри SQL: приземленные вопросы практического применения /  Дмитрий До...
NoSQL внутри SQL: приземленные вопросы практического применения / Дмитрий До...
 

More from Fedor Krasnov

16RPTC_russian_ButorinKrasnov
16RPTC_russian_ButorinKrasnov16RPTC_russian_ButorinKrasnov
16RPTC_russian_ButorinKrasnov
Fedor Krasnov
 
Corporate Wikipedia in Upstream: Bimodal IT Case
Corporate Wikipedia in Upstream: Bimodal IT CaseCorporate Wikipedia in Upstream: Bimodal IT Case
Corporate Wikipedia in Upstream: Bimodal IT Case
Fedor Krasnov
 
виртуальное сколково Final
виртуальное сколково Finalвиртуальное сколково Final
виртуальное сколково Final
Fedor Krasnov
 
клиентоориентированные Kpi
клиентоориентированные  Kpiклиентоориентированные  Kpi
клиентоориентированные Kpi
Fedor Krasnov
 
управление процессами и бережливость
управление процессами и бережливостьуправление процессами и бережливость
управление процессами и бережливость
Fedor Krasnov
 
MRPII в Телеком
MRPII  в ТелекомMRPII  в Телеком
MRPII в Телеком
Fedor Krasnov
 
BPM за 0 рублей
BPM  за 0 рублейBPM  за 0 рублей
BPM за 0 рублей
Fedor Krasnov
 
Маркетинговый взгляд на ИТ ServiceDesk
Маркетинговый взгляд на ИТ ServiceDeskМаркетинговый взгляд на ИТ ServiceDesk
Маркетинговый взгляд на ИТ ServiceDesk
Fedor Krasnov
 

More from Fedor Krasnov (19)

16RPTC_russian_ButorinKrasnov
16RPTC_russian_ButorinKrasnov16RPTC_russian_ButorinKrasnov
16RPTC_russian_ButorinKrasnov
 
Corporate Wikipedia in Upstream: Bimodal IT Case
Corporate Wikipedia in Upstream: Bimodal IT CaseCorporate Wikipedia in Upstream: Bimodal IT Case
Corporate Wikipedia in Upstream: Bimodal IT Case
 
Corporate Wikipedia in Upstream: Bimodal IT Case
Corporate Wikipedia in Upstream: Bimodal IT CaseCorporate Wikipedia in Upstream: Bimodal IT Case
Corporate Wikipedia in Upstream: Bimodal IT Case
 
SalesForce at Skolkovo
SalesForce at  SkolkovoSalesForce at  Skolkovo
SalesForce at Skolkovo
 
Virtual Skolkovo
Virtual Skolkovo Virtual Skolkovo
Virtual Skolkovo
 
виртуальное сколково Final
виртуальное сколково Finalвиртуальное сколково Final
виртуальное сколково Final
 
клиентоориентированные Kpi
клиентоориентированные  Kpiклиентоориентированные  Kpi
клиентоориентированные Kpi
 
управление оттоком абонентов 2
управление оттоком абонентов 2управление оттоком абонентов 2
управление оттоком абонентов 2
 
получение знаний о поведении абонентов
получение знаний о поведении абонентовполучение знаний о поведении абонентов
получение знаний о поведении абонентов
 
управление процессами и бережливость
управление процессами и бережливостьуправление процессами и бережливость
управление процессами и бережливость
 
управление по отклонениям
управление по отклонениямуправление по отклонениям
управление по отклонениям
 
MRPII в Телеком
MRPII  в ТелекомMRPII  в Телеком
MRPII в Телеком
 
организационная антропология
организационная антропологияорганизационная антропология
организационная антропология
 
Обзор рынка АСР, Краснова Ф.В.
Обзор рынка АСР, Краснова Ф.В.Обзор рынка АСР, Краснова Ф.В.
Обзор рынка АСР, Краснова Ф.В.
 
iKPI eTOM
iKPI eTOMiKPI eTOM
iKPI eTOM
 
BPM за 0 рублей
BPM  за 0 рублейBPM  за 0 рублей
BPM за 0 рублей
 
KPI документооборота
KPI документооборотаKPI документооборота
KPI документооборота
 
Маркетинговый взгляд на ИТ ServiceDesk
Маркетинговый взгляд на ИТ ServiceDeskМаркетинговый взгляд на ИТ ServiceDesk
Маркетинговый взгляд на ИТ ServiceDesk
 
инструмент разработки ит стратегии
инструмент разработки ит стратегииинструмент разработки ит стратегии
инструмент разработки ит стратегии
 

загрузить в DSpace

  • 1. Федор Краснов,к.т.н., НЭИКОН Загрузить в DSpace10 000 000 записей
  • 2. Арифметика 10 000 000 Если хранилище будет наполняться со скоростью одна запись в секунду, то нам потребуется 116 дней, чтобы загрузить все. Если одна запись содержит 30 мета-полей (dc.title, dc.date_issued, и.т.п.), то для хранения в Dublin Core у нас получится таблица с 0,3 миллиарда строк. При среднем размере текста статьи 500 кБ нам потребуется минимум 15 Тб дисков .
  • 3. Научное обоснование «Experiment to Investigate theScalability of aDSpace-based Archive» DharitriMisra, Ph. D.National Library of Medicine (NLM) April 30, 2008 (http://www.dspacedev2.org/images/stories/ist2008_paper_submitted1.pdf) Conclusion Our archive, built on DSpace, shows acceptable performance in ingesting up to a million items Larger file sizes will not significantly affect performance Our benchmarks should be useful to other DSpace installation sites concerned with performance
  • 4. Структура работ Процесс загрузки (ingestment) Подготовка записей для конвертации Конвертация записей в формат Dublin Core Загрузка записей в DSpace Подготовкадля доступа через веб Индексирование данных в таблицах Индексирование данных для просмотра (Browse) Индексирование данных для Поиска (Search)
  • 5. Подготовки записей для конвертации Коллекции поставляются в формате tar.gz Проверка уникальности записей Проверка валидности записей Установление соответствия метаданных и текста статьи Проверка целостности (наличия метаданных и полных текстов)
  • 6. Загрузка записей в Dspace Dspaceимеет три интерфейса для загрузки Веб интерфейс (SWORD) Import (bin/dspace import) Metadata-import (bin/dspacemetadata-import) с последующей привязкой документов
  • 7. Подготовкадля доступа через веб Индексирование данных для просмотра (Browse) по Автору, Названию журнала, Дате выпуска с помощью Luceneинтегрированного в Dspace. Индексирование данных для поиска (Search) с помощью Solrинтегрированного в Dspace. Для ManakinSolr обеспечивает facets и auto complition.
  • 8. Текущие результаты Завершен процесс загрузки коллекции 13.7 млн записей (без полных текстов статей) Проведена подготовка записей для конвертации, устранено дублирование, выявлены не валидные записи, произведено сопоставление формата коллекции с Dublin Core. Завершена конвертация записей в формат Dublin Core. Произведена загрузка записей в DSpace
  • 11. Спасибо за внимание. Продолжение следует …

Editor's Notes

  1. Эта презентация демонстрирует новые возможности PowerPoint. Ее рекомендуется просматривать в режиме показа слайдов. Эти слайды должны дать вам представление о том, какие эффектные презентации можно создать с помощью PowerPoint 2010.Для доступа к другим образцам шаблонов перейдите на вкладку "Файл", а затем щелкните "Образцы слайдов" на вкладке "Создать".