Федор Краснов,к.т.н., НЭИКОНЗагрузить в DSpace10 000 000 записей
Арифметика 10 000 000Если хранилище будет наполняться со скоростью одна запись в  секунду, то нам потребуется 116 дней, чтобы загрузить все.Если одна запись содержит 30 мета-полей (dc.title, dc.date_issued, и.т.п.), то для хранения в Dublin Core у нас получится таблица с  0,3 миллиарда строк.При среднем размере текста статьи 500 кБ нам потребуется минимум 15 Тб дисков .
Научное обоснование«Experiment to Investigate theScalability of aDSpace-based Archive»DharitriMisra, Ph. D.National Library of Medicine (NLM) April 30, 2008(http://www.dspacedev2.org/images/stories/ist2008_paper_submitted1.pdf)ConclusionOur archive, built on DSpace, shows acceptable performance in ingesting up to a million itemsLarger file sizes will not significantly affect performanceOur benchmarks should be useful to other DSpace installation sites concerned with performance
Структура работПроцесс загрузки (ingestment)Подготовка записей для конвертацииКонвертация записей в формат Dublin CoreЗагрузка записей в DSpaceПодготовкадля доступа через вебИндексирование данных в таблицахИндексирование данных для просмотра (Browse)Индексирование данных для Поиска (Search)
Подготовки записей для конвертацииКоллекции поставляются в формате tar.gzПроверка уникальности записейПроверка валидности записейУстановление соответствия метаданных и текста статьиПроверка целостности (наличия метаданных и полных текстов)
Загрузка записей в DspaceDspaceимеет три интерфейса для загрузкиВеб интерфейс (SWORD)Import (bin/dspace import) Metadata-import (bin/dspacemetadata-import)  с последующей привязкой документов
Подготовкадля доступа через вебИндексирование данных для просмотра (Browse) по Автору, Названию журнала, Дате выпуска с помощью Luceneинтегрированного в Dspace.Индексирование данных для поиска (Search) с помощью Solrинтегрированного в Dspace.Для ManakinSolr обеспечивает facets и  auto complition.
Текущие результатыЗавершен процесс загрузки коллекции 13.7 млн записей (без полных текстов статей)Проведена подготовка записей для конвертации, устранено дублирование,  выявлены не валидные записи, произведено сопоставление формата коллекции с Dublin Core.Завершена конвертация записей в формат Dublin Core.Произведена загрузка записей в DSpace
Сравнение
Сравнение
Спасибо за внимание.Продолжение следует …

загрузить в DSpace

  • 1.
  • 2.
    Арифметика 10 000000Если хранилище будет наполняться со скоростью одна запись в секунду, то нам потребуется 116 дней, чтобы загрузить все.Если одна запись содержит 30 мета-полей (dc.title, dc.date_issued, и.т.п.), то для хранения в Dublin Core у нас получится таблица с 0,3 миллиарда строк.При среднем размере текста статьи 500 кБ нам потребуется минимум 15 Тб дисков .
  • 3.
    Научное обоснование«Experiment toInvestigate theScalability of aDSpace-based Archive»DharitriMisra, Ph. D.National Library of Medicine (NLM) April 30, 2008(http://www.dspacedev2.org/images/stories/ist2008_paper_submitted1.pdf)ConclusionOur archive, built on DSpace, shows acceptable performance in ingesting up to a million itemsLarger file sizes will not significantly affect performanceOur benchmarks should be useful to other DSpace installation sites concerned with performance
  • 4.
    Структура работПроцесс загрузки(ingestment)Подготовка записей для конвертацииКонвертация записей в формат Dublin CoreЗагрузка записей в DSpaceПодготовкадля доступа через вебИндексирование данных в таблицахИндексирование данных для просмотра (Browse)Индексирование данных для Поиска (Search)
  • 5.
    Подготовки записей дляконвертацииКоллекции поставляются в формате tar.gzПроверка уникальности записейПроверка валидности записейУстановление соответствия метаданных и текста статьиПроверка целостности (наличия метаданных и полных текстов)
  • 6.
    Загрузка записей вDspaceDspaceимеет три интерфейса для загрузкиВеб интерфейс (SWORD)Import (bin/dspace import) Metadata-import (bin/dspacemetadata-import) с последующей привязкой документов
  • 7.
    Подготовкадля доступа черезвебИндексирование данных для просмотра (Browse) по Автору, Названию журнала, Дате выпуска с помощью Luceneинтегрированного в Dspace.Индексирование данных для поиска (Search) с помощью Solrинтегрированного в Dspace.Для ManakinSolr обеспечивает facets и auto complition.
  • 8.
    Текущие результатыЗавершен процессзагрузки коллекции 13.7 млн записей (без полных текстов статей)Проведена подготовка записей для конвертации, устранено дублирование, выявлены не валидные записи, произведено сопоставление формата коллекции с Dublin Core.Завершена конвертация записей в формат Dublin Core.Произведена загрузка записей в DSpace
  • 9.
  • 10.
  • 11.

Editor's Notes

  • #2 Эта презентация демонстрирует новые возможности PowerPoint. Ее рекомендуется просматривать в режиме показа слайдов. Эти слайды должны дать вам представление о том, какие эффектные презентации можно создать с помощью PowerPoint 2010.Для доступа к другим образцам шаблонов перейдите на вкладку "Файл", а затем щелкните "Образцы слайдов" на вкладке "Создать".