Информационные и информационно-поисковые системы    Интернет
Морфологический анализ    Морфологический анализ – это такой процесс, которыйопределяется при помощи морфологического множ...
Модели морфологического множества уровняидентификации не содержат исчерпывающей информациио структурах объектов и не могут...
Семантические показатели     эффективности ИПС: релевантность и           пертинентность поиска      Одними из наиболее ва...
     Пертинентность      Пертинентность (в информационном поиске) —    соответствие полученной информации информационной ...
Ранжирование документов в  соответствии с их релевантностью         поисковым запросам  Внутренние факторы, влияющие на ра...
Текст страницы. Поисковые системы оценивают егопо двум основным критериям – расположение фраз настранице и частота встреча...
Относительно частоты употребления слов в документесказано немало. Существуют рекомендации об использованииключевого слова ...
Служебные мета-тэги. Ранее мета-тэги<keywords> и <description> активноиспользовались многими поисковыми машинами.Но в связ...
Глубокий («невидимый») веб   Термин Глубокий веб (deep web, иногда употребляютсяinvisible web, hidden web) обычно относитс...
Механизмы и алгоритмы поиска   Средства поиска и структурирования, иногда называемыепоисковыми механизмами, используются д...
Агенты - самые "интеллектуальные" из поисковых средств.Они могут делать больше, чем просто искать: они могутвыполнять даже...
Общий поиск информации в Сети осуществляютпрограммы, известные как пауки. Пауки сообщают осодержании найденного документа,...
Люди могут помещать информацию прямо в индекс,заполняя особую форму для того раздела, в который онихотели бы поместить сво...
Различные поисковые системы используют различные    алгоритмы ранжирования, однако основные принципы    определения релева...
АЛГОРИТМЫ ПОИСКА   Расширенный поиск   C помощью расширенного поиска можно найти документы с заданнымихарактеристиками - а...
Интеллектуальный поиск   Интеллектуальный поиск позволяет найти документ посмыслу содержащейся в нем информации, то есть д...
Имеется также алгоритм уточнения результатовзапроса, учитывающий дополнительную информацию освязях между документами. Дейс...
Закономерности поиска в Интернете  Впервые закономерности поиска в Интернете былиопубликованы в 1949г Д. Зипфом. В 1954г м...
Законы Зипфа      Первый закон Зипфа "ранг - частота". Выбирается любое    слово и подсчитывается, сколько раз оно встреч...
      Второй закон Зипфа "количество - частота".    Рассматривая первый закон, факта, что разные слова    входят в текст ...
Значимые слова, весовые коэффициенты,                  стоп-слова   От того, как будет выставлен диапазон значимых слов, з...
Весовые коэффициенты   Современные способы индексирования не ограничиваютсяанализом перечисленных параметров текста. Поиск...
Стоп-слова   Для того, чтобы из миллионов гигабайт информации,представленной в Интернете, выдать пользователюмаксимально р...
Каждая поисковая система обладает своим спискомстоп-слов, которые варьируются, актуализируются именяются, однако общие тен...
При контекстном поиске система предоставляетследующие возможности:     - задание в запросе логических формул, в том числе ...
Модели индексирования и поиска документов   Главная задача информационно-поисковой системы - поиск информации, релевантной...
Суть алгоритма Солтона в том, что для индексированияиспользуют те термины, которые имеют высокую частотувстречаемости внут...
Lycos, и OpenText, и Altavista, и другие системыИнтернета применяют линейную модель индексирования ипоиска, используя разл...
Синтаксис языка запросов( На примере ИПС                 «Yandex»)   Разные поисковые системы используют различные алгорит...
Синтаксис языка запросов системы                   Яндекс (Примеры)   " " - поиск фразы   -   "красная шапочка« (эквивале...
Основные положения языка запросов:    Если ключевые слова являются устойчивымсловосочетанием или единой фразой, то заключи...
Все слова, написанные через пробел или знак &(логическое И) должны одновременно находиться внайденных документах в предела...
Можно указать расстояние между словами. Еслипронумеровать слова в предложении, то расстояние междусловами – это разность н...
Оценка эффективности наиболее        популярных поисковых систем "Яндекс" - поисковая система по русскому интернету    Уч...
 "Рамблер" - информационно-поисковая система   Первая российская поисковая система. Имеет  возможность учета морфологии р...
Поиск программного обеспечения     Удобно искать нужную программу на специальныхсайтах, называемых каталогами программ. На...
Система поиска FTP файлов (FTP Search)   Система поиска FTP-файлов – это особый типсредств поиска в Internet, который позв...
Основным критерием поиска является название файла,задаваемое разными способами (точное соответствие,подстрока, регулярное ...
Системы поиска людей   Системы поиска людей – это специальные сервера,которые позволяют осуществлять поиск людей в Интерне...
Система поиска организаций    При розыске организаций, название которых состоит изодного слова или укладывается в однослож...
Файлообменные сети      Файлообменная сеть — собирательное название    одноранговых компьютерных сетей для совместного    ...
Любой пользователь, используя поиск, может найти накомпьютере любого другого пользователя те ресурсы,которые тот выложил в...
Тематические поисковые системы по         науке, культуре и искусству    Тематические поисковые системы по науке:   http:...
Тематические поисковые системы по           культуре и искусству:   http://www.culturefinder.com/ -    Aнглоязычная инфор...
СПАСИБО   ЗАВНИМАНИЕ!
Выполнила: Студентка 508 группы           ФКиСКД        Покладок Инна
Upcoming SlideShare
Loading in …5
×

информационные и информационно поисковые системы интернет

3,290 views

Published on

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
3,290
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
24
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

информационные и информационно поисковые системы интернет

  1. 1. Информационные и информационно-поисковые системы Интернет
  2. 2. Морфологический анализ Морфологический анализ – это такой процесс, которыйопределяется при помощи морфологического множества,т.е. множество структурных решений объектов,принадлежащих рассматриваемому классу. Результатыморфологического анализа представляются в виде моделейморфологического множества, которые в зависимости отполноты представления информации о структурах объектаделятся на модели морфологического множества уровняидентификации и модели морфологического множествауровня спецификации. Модели морфологическогомножества уровня идентификации содержат всеидентификаторы структур объектов, принадлежащихрассматриваемому классу и могут быть представлены спомощью морфологических И/ИЛИ-деревьев,морфологических таблиц, а также с помощью специальныхязыков моделирования морфологического множества, ккоторым относится Structuralist.
  3. 3. Модели морфологического множества уровняидентификации не содержат исчерпывающей информациио структурах объектов и не могут непосредственноиспользоваться с системами компьютерногомоделирования. Морфологический анализ предшествует этапуморфологического синтеза, в процессе которого наморфологическом множестве ищется структурноерешение, являющееся оптимальным по какому-тозаданному критерию, поэтому морфологическоемножество должно обязательно содержать структурноерешение проектируемого объекта.
  4. 4. Семантические показатели эффективности ИПС: релевантность и пертинентность поиска Одними из наиболее важных показателей эффективности информационных систем, содержащих текстовую информацию, являются семантические показатели. Семантические показатели основаны на оценке релевантности между документами и запросами. Релевантность поиска: Релевантность (англ. relevant) — применительно к результатам работы поисковой системы и экспертной системы — степень соответствия запроса и найденного, то есть уместность результата. В более общем смысле, одно из наиболее близких понятию качества «релевантности» — «адекватность», то есть оценка степени соответствия, но и степени практической применимости результата, а также степени социальной применимости варианта решения задачи.
  5. 5.  Пертинентность Пертинентность (в информационном поиске) — соответствие полученной информации информационной потребности пользователя. Пертинентность измеряется степенью соответствия между ожиданиями пользователя и результатами поиска, которая определяется как отношение объема полезной для пользователя информации к общему объему полученной информации, найденной поисковой системой. Достижение высокой степени пертинентности — основное поле конкурентной борьбы современных поисковых систем. Именно для максимального удовлетворения информационных потребностей пользователей в настоящее время в ИП-системах широко применяются теории и методы семантических сетей, контент-анализа и глубинного анализа текстов (Text mining, интеллектуальный анализ текстов)
  6. 6. Ранжирование документов в соответствии с их релевантностью поисковым запросам Внутренние факторы, влияющие на ранжированиедокументов в поисковых системах . По утверждению специалистов технических отделовпоисковых систем, в настоящее время алгоритма выдачирезультатов поиска по поисковому запросу учитываютоколо сотни факторов и критериев. Наряду с общепринятым понятием, что к внутреннимфакторам ранжирования относится текст, бытует и другаяточка зрения. Кроме текстовых критериев, к внутреннимфакторам относят код в целом (служебные теги, структуракода и т. д.).
  7. 7. Текст страницы. Поисковые системы оценивают егопо двум основным критериям – расположение фраз настранице и частота встречаемости фраз в документе.Касаемо первого критерия, можно утверждать следующее.Чтобы сделать страницу более релевантной поисковомузапросу (или нескольким запросам), необходиморасполагать фразы, соответствующие поисковым запросамкак можно выше по тексту документа. Так же не утратилсвое значение критерий вхождения релевантных запросуфраз в текст заголовков (внутри тегов <h1>-<h6>),выделений в тексте (внутри тегов <b>, <br> и др.) инекоторые другие моменты.
  8. 8. Относительно частоты употребления слов в документесказано немало. Существуют рекомендации об использованииключевого слова на странице в пределах 3-7%. Однако точныецифры, естественно, неизвестны. Считается, что страница сослишком часто встречающимся словом запроса может бытьсочтена спамом, и ее позиция при этом в результатах поискаавтоматически понижается. Это утверждение довольноспорно. Ведь если на странице всего 3 слова и запроссодержит эти же 3, то плотность составит 100%, однако такиестраницы прекрасно находятся в поиске. Гораздо болеевероятно, что существуют некие пороговые значения, последостижения которых дальнейшее увеличение частоты невлияет на релевантность документа. Не следует так же забывать, что поисковики накладываютограничения на индексируемый объем документа. Для разныхпоисковиков этот критерий варьирует в пределах 100-200килобайтов.
  9. 9. Служебные мета-тэги. Ранее мета-тэги<keywords> и <description> активноиспользовались многими поисковыми машинами.Но в связи с тем, что их содержимое не виднопользователю, они стали действенныминструментом для обмана поисковых систем, чтопривело к тому, что в настоящее время эти мета-тэги либо вообще не учитываются поисковымисистемами, либо влияние их мизерно посравнению с другими факторами.
  10. 10. Глубокий («невидимый») веб Термин Глубокий веб (deep web, иногда употребляютсяinvisible web, hidden web) обычно относится к веб-страницам, которые по тем или иным причинам неиндексируются поисковыми роботами. Соответственно,если вы ищете что-либо своим любимым поисковиком, выне сможете с его помощью найти страницы, которые этотпоисковик не проиндексировал.
  11. 11. Механизмы и алгоритмы поиска Средства поиска и структурирования, иногда называемыепоисковыми механизмами, используются для того, чтобы помочьлюдям найти информацию, в которой они нуждаются. Средствапоиска типа агентов, пауков, кроулеров и роботов используютсядля сбора информации о документах, находящихся в СетиИнтернет. Это специальные программы, которые занимаютсяпоиском страниц в Сети, извлекают гипертекстовые ссылки наэтих страницах и автоматически индексируют информацию,которую они находят для построения базы данных. Каждыйпоисковый механизм имеет собственный набор правил,определяющих, как собирать документы. Некоторые следуют закаждой ссылкой на каждой найденной странице и затем, в своюочередь, исследуют каждую ссылку на каждой из новых страниц,и так далее. Некоторые игнорируют ссылки, которые ведут кграфическим и звуковым файлам, файлам мультипликации;другие игнорируют cсылки к ресурсам типа баз данных WAIS;другие проинструктированы, что нужно просматривать преждевсего наиболее популярные страницы.
  12. 12. Агенты - самые "интеллектуальные" из поисковых средств.Они могут делать больше, чем просто искать: они могутвыполнять даже транзакции от Вашего имени. Уже сейчас онимогут искать cайты специфической тематики и возвращатьсписки cайтов, отсортированных по их посещаемости. Агентымогут обрабатывать содержание документов, находить ииндексировать другие виды ресурсов, не только страницы.Они могут также быть запрограммированы для извлеченияинформации из уже существующих баз данных. Независимоот информации, которую агенты индексируют, они передаютее обратно базе данных поискового механизма. Агенты извлекают и индексируют различные видыинформации. Некоторые, например, индексируют каждоеотдельное слово во встречающемся документе, в то время какдругие индексируют только наиболее важных 100 слов вкаждом, индексируют размер документа и число слов в нем,название, заголовки и подзаголовки и так далее. Видпостроенного индекса определяет, какой поиск может бытьсделан поисковым механизмом и как полученная информациябудет интерпретирована.
  13. 13. Общий поиск информации в Сети осуществляютпрограммы, известные как пауки. Пауки сообщают осодержании найденного документа, индексируют его иизвлекают итоговую информацию. Также онипросматривают заголовки, некоторые ссылки и посылаютпроиндексированную информацию базе данныхпоискового механизма. Кроулеры просматривают заголовки и возвращаюттолько первую ссылку. Роботы могут быть запрограммированы так, чтобыпереходить по различным ссылкам различной глубинывложенности, выполнять индексацию и даже проверятьссылки в документе. Из-за их природы они могутзастревать в циклах, поэтому, проходя по ссылкам, имнужны значительные ресурсы Сети. Однако, имеютсяметоды, предназначенные для того, чтобы запретитьроботам поиск по сайтам, владельцы которых не желают,чтобы они были проиндексированы.
  14. 14. Люди могут помещать информацию прямо в индекс,заполняя особую форму для того раздела, в который онихотели бы поместить свою информацию. Эти данныепередаются базе данных. Когда кто-либо хочет найти информацию, доступную вИнтернет, он посещает страницу поисковой системы изаполняет форму, детализирующую информацию, которая емунеобходима. Здесь могут использоваться ключевые слова,даты и другие критерии. Критерии в форме поиска должнысоответствовать критериям, используемым агентами прииндексации информации, которую они нашли приперемещении по Сети. База данных отыскивает предмет запроса, основанный наинформации, указанной в заполненной форме, и выводитсоответствующие документы, подготовленные базой данных.Чтобы определить порядок, в котором список документовбудет показан, база данных применяет алгоритмранжирования. В идеальном случае, документы, наиболеерелевантные пользовательскому запросу будут помещеныпервыми в списке.
  15. 15. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие: Количество слов запроса в текстовом содержимом документа (т.е. в html-коде). Тэги, в которых эти слова располагаются. Местоположение искомых слов в документе. Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа. Эти принципы применяются всеми поисковыми системами. А представленные ниже используются некоторыми, но достаточно известными (вроде AltaVista, HotBot).
  16. 16. АЛГОРИТМЫ ПОИСКА Расширенный поиск C помощью расширенного поиска можно найти документы с заданнымихарактеристиками - атрибутами. В ИС «Кодекс» выделены следующие видыатрибутов: Текст - форматированный текст документа, практически неограниченногоразмера. Каждый документ может состоять из нескольких текстовых объектов(например, текст закона и комментарии к нему). Подсистема поискарассматривает все тексты одного документа как единое целое. Строка с текстом - неформатированный текст длиной до 255 символов(например, наименование, место опубликования). Строка с номером - строка символов длиной до 255 символов. В отличие от«строки с текстом» в данном атрибуте система не выделяет отдельные слова. Дата - дата в диапазоне от 01.01.32000 до нашей эры до 01.01.32000 нашейэры. Ссылка - указатель на другой объект в базе данных. С помощью ссылок всистеме реализованы классификаторы (линейные и иерархические) и делениепоискового пространства на разделы. По каждому из атрибутов возможности поисковой машины различны.
  17. 17. Интеллектуальный поиск Интеллектуальный поиск позволяет найти документ посмыслу содержащейся в нем информации, то есть документы позаданной теме. В системе реализован алгоритм с использованиемкомпьютерной обработки документа. Согласно гипотезе Зипфасмысл документа зависит от частоты терминов, встречающихсяв документе. Предположим, у нас есть набор документов и насинтересуют документы на тему "земельный налог". Очевидно,что документы, в которых больше данных слов, с большейвероятностью содержат интересующую нас информацию.Правда, здесь надо учесть, что документы бывают разногообъема. Например, в многостраничном документе, содержащем5 раз слово "налог", скорее всего меньше говорится о налогах,чем в документе из трех строчек, в котором слово налогвстречается 2 раза. Поэтому сравнивается не количество слов, ачастота, с которой эти слова встречаются в документе. При этомчастота слова определяется как отношение количества этих словв тексте к общей сумме слов в тексте.
  18. 18. Имеется также алгоритм уточнения результатовзапроса, учитывающий дополнительную информацию освязях между документами. Действительно, если многодокументов по конкретной теме ссылается на одиндокумент, то он, скорее всего, содержит важнуюинформацию по этому вопросу. Поэтому после"взвешивания" документов по описанному вышеалгоритму система "Кодекс" добавляет часть его веса всемдокументам, на которые документ ссылается.
  19. 19. Закономерности поиска в Интернете Впервые закономерности поиска в Интернете былиопубликованы в 1949г Д. Зипфом. В 1954г математик Б.Мандельброт достиг более точного соответствия теории ипрактики. Так, например, короткие слова встречаются вИнтернете намного чаще длинных. Поиск слова«автокниги» будет более успешным, чем поиск фразы«книги для автолюбителей». Все поисковые системыспособны распознать значимые и незначимые слова,используя стоп-листы или словари бесполезных слов. Врусском языке в этом словаре оказались все предлоги,местоимения, частицы. Большое значение имеетзначимость терминов, определяемая на основе егоинверсной частоты.
  20. 20. Законы Зипфа Первый закон Зипфа "ранг - частота". Выбирается любое слово и подсчитывается, сколько раз оно встречается в тексте. Эта величина называется частота вхождения слова. Измеряется частота каждого слова текста. Некоторые слова будут иметь одинаковую частоту, то есть входить в текст равное количество раз. Сгруппируем их, взяв только одно значение из каждой группы. Расположим частоты по мере их убывания и пронумеруем. Порядковый номер частоты называется ранг частоты. Так, наиболее часто встречающиеся слова будут иметь ранг 1, следующие за ними -- 2 и т.д. Вероятность встретить слово путем случайного выбора, будет равна отношению частоты вхождения этого слова к общему числу слов в тексте. Вероятность = Частота вхождения слова / Число слов.
  21. 21.  Второй закон Зипфа "количество - частота". Рассматривая первый закон, факта, что разные слова входят в текст с одинаковой частотой не рассматривался. Зипф установил, что частота и количество слов, входящих в текст с этой частотой, тоже связаны между собой. Законы Зипфа универсальны. В принципе, они применимы не только к текстам. Характеристики популярности узлов в сети Интернет - тоже отвечают законам Зипфа. Не исключено, что в законах отражается "человеческое" происхождение объекта.
  22. 22. Значимые слова, весовые коэффициенты, стоп-слова От того, как будет выставлен диапазон значимых слов, зависитмногое. Поставив широко - нужные термины потонут в моревспомогательных слов; установив узкий диапазон - потеряютсясмысловые термины. Каждая поисковая система решает проблемупо-своему, руководствуясь общим объемом текста, специальнымисловарями и т.п. Если проанализировать выделенную область значимых слов, томожно отметить, что не все слова, которые попали в нее, отражаютсмысл текста. Эти слова являются "шумом", помехой, котораязатрудняет правильный выбор. "Шум" можно уменьшить путемпредварительного исключения из исследуемого текста некоторыхслов. Для этого создается словарь ненужных слов - стоп-слов(словарь называется стоп-лист). Например, для английского текстастоп-словами станут термины: the, a, an, in, to, of, and, that... и такдалее. Для русского текста в стоп-лист могли бы быть включенывсе предлоги, частицы, личные местоимения и т. п. Навернякапопали бы и слова из нашего "шума": на, не, для, это.
  23. 23. Весовые коэффициенты Современные способы индексирования не ограничиваютсяанализом перечисленных параметров текста. Поисковаямашина может строить весовые коэффициенты с учетомместоположения термина внутри документа, взаимногорасположения терминов, частей речи, морфологическихособенностей и т.п. В качестве терминов могут выступать не толькоотдельные слова, но и словосочетания. Джорж Зипф (GeorgeK. Zipf) опубликовал свои законы в 1949 году. Пять летспустя знаменитый математик Беноит Мандлеброт (BenoitMandlebrot) внес небольшие изменения в формулы Зипфа,добившись более точного соответствия теории практике. Безэтих законов сегодня не обходится ни одна системаавтоматического поиска информации. Как видите,математический анализ позволяет машине с хорошейточностью, без участия человека распознать суть текста.
  24. 24. Стоп-слова Для того, чтобы из миллионов гигабайт информации,представленной в Интернете, выдать пользователюмаксимально релевантные страницы, поисковые роботытщательно анализируют содержание каждой их них. Большуюроль в этом процессе играют ключевые слова, мета-теги,дающие обзорное представление о документе и другие факторы.Среди них особое значение имеют так называемые стоп-слова. Это такие слова, которые не несут никакой смысловойнагрузки для поисковой системы, чаще всего выполняютслужебную роль, однако необходимы для целостного иправильного восприятия текста читателем. То есть стоп-слова – это достаточно распространенные иобщеупотребительные слова и символы. Роботы, осуществляяпоиск по введенному запросу, просто игнорируют их, сокращаятаким образом время на поиск нужных страниц, при этомподдерживая релевантность запроса. Кроме того, пропуск стоп-слов позволяет системе сохранить больше пространства дляхранения информации (веб-страниц), так как они помечаютсяроботом специальным маркером.
  25. 25. Каждая поисковая система обладает своим спискомстоп-слов, которые варьируются, актуализируются именяются, однако общие тенденции в них проследитьможно. К стоп-словам относятся: служебные слова –предлоги, частицы, междометия, местоимения, союзы,наречия, а также однозначные цифры от 0 до 9(двузначные и более сложные цифры фиксируются, таккак они могут играть ключевую роль в запросе – напримердаты или номера телефонов). Помимо этого, поисковаясистема будет пропускать знаки препинания (, . : «» и такдалее). Стоит обратить внимание, что некоторых поисковыхроботов можно заставить учитывать стоп-слово прианализе по запросу, для этого необходимо внести его впоисковый запрос и поставить перед ним знак «+». Ещеодин важный момент – список стоп-слов следует состорожностью использовать в мета-тегах, так как они влюбом случае будут проигнорированы системой, а,значит, с большой долей вероятности не попадут врезультаты выдачи.
  26. 26. При контекстном поиске система предоставляетследующие возможности: - задание в запросе логических формул, в том числе соператорами расстояния. В качестве «слов» могутвыступать цифры, буквенно-цифровыепоследовательности, слова которые должны быть найденыв заданном виде, а также шаблоны - буквенно-цифровыепоследовательности с символами "*" (любая подстрока, втом числе пустая) и "?" (любая буква или цифра); - встроенный морфологический анализатор,позволяющий автоматически найти все существующиесловоформы для большинства слов русского и английскогоязыков.
  27. 27. Модели индексирования и поиска документов Главная задача информационно-поисковой системы - поиск информации, релевантной информационным потребностям пользователя. Под релевантностью понимают соответствие между желаемой и получаемой информацией. Подавляющие большинство поисковых алгоритмов основано на так называемой "Векторной модели текста", предложенной Дж. Солтоном (Salton G.) в 1975 году. Работа Солтона представляет собой теоретическую основу современных ИПС в их классической реализации. Разные авторы называют эту модель индексирования и поиска по-разному: векторной, линейной, или алгебраической. Будет справедливо, если представление документов и поиск информации в массиве разделим на две модели. Следуя этой логике, векторной будем называть модель описания информационного массива, а линейной - модель поиска информации в массиве. Такое разделение обусловлено тем, что документы записываются в виде двоичных векторов, в то время как поисковые запросы - это линейные преобразования над этими векторами.
  28. 28. Суть алгоритма Солтона в том, что для индексированияиспользуют те термины, которые имеют высокую частотувстречаемости внутри документа и низкую во всеминформационном массиве. Сама характеристикавычисляется как отношение частоты встречаемоститермина в документе к частоте встречаемости термина вмассиве. Используя эту меру системы индексирования,документу приписывают первые 20-40 символов, которыеи составляют его поисковый образ. Выбор этой мерыобъясняется простыми прагматическими соображениями,которые становятся очевидными при сравнениивыражения с другими способами взвешивания терминов.
  29. 29. Lycos, и OpenText, и Altavista, и другие системыИнтернета применяют линейную модель индексирования ипоиска, используя различительную силу термина валгоритмах автоматического индексирования и поиска.Следовательно, применяемые алгоритмы ограничиваютсловарь, допуская его незначительный рост. Именно это и осуществляют все реальнофункционирующие системы, ограничивая размерпоискового образа документа 20-40 наиболее "тяжелыми"терминами из содержания. При этом в словарь попадаюттолько термины поисковых образов. Следует такжеотметить, что источником терминов индексирования, вбольшинстве случаев выступает не весь документ, а толькоотдельные его части: заголовок, гипертекстовые ссылки,подзаголовки, специальные поля. Таким образом, удаетсяконтролировать размер словаря и оставаться в рамкахлинейной модели индексирования и поиска.
  30. 30. Синтаксис языка запросов( На примере ИПС «Yandex») Разные поисковые системы используют различные алгоритмы иформулы для вычисления веса и различные способы сопоставлениявсех этих факторов. Поэтому релевантность документовоценивается по-разному. То есть один и тот же запрос к разнымпоисковым системам даст разные результаты. Хотя расширенный запрос и предназначен для уточнениякритериев поиска, полностью настраиваемый поиск можнообеспечить с помощью применения языка запросов. Язык запросов— это специальные символы и операторы, которые пишутся в ту жестроку для поиска, что и ключевые слова, и обрабатываютсяпоисковой машиной. В системе Яндекс существует специальный язык запросов,использовать который более сложно, чем форму расширенногопоиска но при его использовании можно получить наилучшийрезультат. Поисковый запрос вводится в поисковое поле, он можетсодержать ключевые слова и специальные символы, позволяющиеустановить взаимосвязи между этими словами и ввестидополнительные параметры.
  31. 31. Синтаксис языка запросов системы Яндекс (Примеры) " " - поиск фразы - "красная шапочка« (эквивалентно красная /+1 шапочка) + - обязательное наличие слова в найденном документе - +быть или +не быть ~~ или - не должно быть слова в пределах документа (И НЕ) - путеводитель по Парижу ~~ (агентство | тур) ~ - не должно быть слова в пределах предложения (И НЕ) - банки ~ закон ! - искать только указанную форму слова - !Путин пробел или & - логическое И (в пределах предложения) - фабрика звезд && логическое И (в пределах документа) музыка && (фабрика звезд) | - логическое ИЛИ - рисунок | картинка | фото | коллаж /(n m) - расстояние между словами (-назад +вперед) - поставщики /2 кофе , музыкальное /(-2 4) образование, вакансии ~ /+1 студентов &&/(n m) - расстояние в предложениях (-назад +вперед) - банк && /1 налоги ( ) - группировка слов - (технология | изготовление) (сыра | творога)
  32. 32. Основные положения языка запросов: Если ключевые слова являются устойчивымсловосочетанием или единой фразой, то заключите их вкавычки. Если слова не объединены кавычками, то каждое словобудет само по себе и перед каждым их них можно поставитьзнак плюс «+», если слово обязательно должно быть внайденных документах, минус «-», если слово не должно быть внайденных документах (пробел ставится перед знаком, но непосле). Если перед словом поставить знак ~ (тильда), то этогослова не должно быть в пределах предложения в совокупности срядом стоящим в запросе словом. Примечание: по умолчаниюбудут найдены и те документы, которые удовлетворяют хотя быодному из ключевых слов. Такие ссылки будут иметь низкуюрелевантность и будут находиться в конце результатов запроса. Независимо от того, в какой форме вы употребили слово взапросе, Яндекс учитывает все формы этого слова по правиламрусского языка. Чтобы этого не происходило, поставьте знаквосклицания перед неизменяемым словом.
  33. 33. Все слова, написанные через пробел или знак &(логическое И) должны одновременно находиться внайденных документах в пределах предложения. Все слова, написанные через && должны одновременнонаходиться в найденных документах, но расстояниемежду ними не оговаривается. Слова, написанные через символ | (логическое ИЛИ)являются заменяющими друг друга (синонимами), и будутнайдены документы, удовлетворяющие хотя бы одному изэтих слов.
  34. 34. Можно указать расстояние между словами. Еслипронумеровать слова в предложении, то расстояние междусловами – это разность номеров слов. Например, если междудвумя словами может находиться только одно слово, торасстояние между ними равно 2 (3 минус 1). Числоуказывается после знака /, например региональный /2 центр.В этом случае будут найдены документы, в которых этислова находятся либо вместе, либо между ними есть ещеодно слово. Запись /2 эквивалентна записи /(-2 +2), в такойформе можно указать максимальное и минимальноеколичество слов, например, от 3 до 5 записывается /(3 5).Минус и плюс указывают на порядок слов: минус –обратный порядок. Если перед символом / указать &&, торасстояние будет вычисляться в предложениях. Для группировки отдельных частей запроса используйтекруглые скобки.
  35. 35. Оценка эффективности наиболее популярных поисковых систем "Яндекс" - поисковая система по русскому интернету Учёт русской морфологии. Подсветка найденных документов, показ контекстов. Параллельный поиск в "Энциклопедиях", "Новостях", "Маркете". Структурирование поиска по разделам каталога и серверам. www.yandex.ru - Цитируемость: 39000Регион: Россия "Апорт" - поисковая система Учёт русской морфологии. Выделение контекстов найденных слов. Уточнение поиска по разделам каталога и серверам. Поиск с переводом запроса на английский язык и наоборот. www.aport.ru - Цитируемость: 20000 Регион: Россия
  36. 36.  "Рамблер" - информационно-поисковая система Первая российская поисковая система. Имеет возможность учета морфологии русского языка. www.rambler.ru - Цитируемость: 16000Регион: Россия "Google" - поисковая система Система поиска информации в сети интернет (включая русскоязычный интернет). Возможность поиска картинок и новостей в конференциях Usenet. www.google.ru - Цитируемость: 11000 "Yahoo!" - поисковая система Возможен поиск на русском языке. www.yahoo.com - Цитируемость: 5300
  37. 37. Поиск программного обеспечения Удобно искать нужную программу на специальныхсайтах, называемых каталогами программ. На данныймомент в Интернете существует великое множествокаталогов программ. Довольно большую популярностьсреди российских пользователей снискалиСОФТ@Mail.Ru ( http://soft.mail.ru/ ), Freeware( http://freeware.ru/ ) и Softodrom( http://www.softodrom.ru/ ). Из зарубежных каталоговпрограммного обеспечения следует отметитьDownload.com (http://www.download.com/ ) и TucowsDownloads ( http://www.tucows.com/ ).
  38. 38. Система поиска FTP файлов (FTP Search) Система поиска FTP-файлов – это особый типсредств поиска в Internet, который позволяетнаходить файлы, доступные на «анонимных»FTP-серверах. Протокол FTP предназначен дляпередачи по сети файлов, и в этом смысле онфункционально является своеобразным аналогомGopher.
  39. 39. Основным критерием поиска является название файла,задаваемое разными способами (точное соответствие,подстрока, регулярное выражение и т.д.). Данный тип поиска,конечно же, не может соперничать по возможностям споисковыми машинами, так как содержимое файлов никак неучитывается при поиске, а файлам, как известно, можно даватьпроизвольные имена. Тем не менее, если Вам требуется найтикакую-нибудь известную программу или описание стандарта,то с большой долей вероятности файл, его содержащий, будетиметь соответствующее имя, и Вы сможете найти его припомощи одного из серверов FTP Search: FileSearch ищет файлы на FTP-серверах по именам самихфайлов и каталогов. Если Вы ищете какую-либо программуили еще что-то, то на WWW-серверах Вы скорее найдете ихописание, а с FTP-серверов Вы сможете перекачать их к себе.
  40. 40. Системы поиска людей Системы поиска людей – это специальные сервера,которые позволяют осуществлять поиск людей в Интернет,пользователь может указать Ф.И.О. человека и получитьего адрес электронной почты и URL-адрес. Однако,следует отметить, что системы поиска людей, в основном,берут информацию об электронных адресах из открытыхисточников, таких как конференции Usenet. Среди самыхизвестных систем поиска людей можно выделить:WhoWhere? - поиск адресов e-mail в специальные графыпоиска контактные данные (First Name. City, Last Name,Phone number), Вы можете найти интересующую Васинформацию. Системы поиска людей - это действительно большиесервера, их базы данных содержат порядка 6 000 000адресов.
  41. 41. Система поиска организаций При розыске организаций, название которых состоит изодного слова или укладывается в односложную аббревиатуру,разумно использовать поиск Web-страниц, в URL (сетевой адрес)которых входит данный термин, поскольку, как известно,односложное название компании, обычно присутствует вдоменном имени сервера или названии каталога на нем. В этомслучае нужна поисковая машина, поддерживающая поиск поURL, такая как AltaVista (http://altavista.digital.com) или Рамблер(http://rambler.ru). Если название компании двусложноецелесообразно искать в поисковых системах те страницы, где этоназвание входит в заголовок (title). В URL такое название тожеможет звучать, часто как простое слияние двух слов, слияниеслов со вставкой дефиса между ними или слияние с урезаниемконечных частей одного из входящих в название слов или обоих.Достаточно эффективным может быть поиск в локальных базахданных отдельных газет и журналов, но обслуживание такойинформацией все чаще становится платным.
  42. 42. Файлообменные сети Файлообменная сеть — собирательное название одноранговых компьютерных сетей для совместного использования файлов, основанных на равноправии участвующих в обмене файлами, то есть каждый участник одновременно является и клиентом, и сервером. Принципы работы Основные принципы работы файлообмена заключаются в следующем: пользователь скачивает программу себе на компьютер; разрешает доступ другим пользователям к некоторой части своих ресурсов (этот процесс называется «расшариванием» англ. sharing); в каждой такой программе присутствует поиск, который ищет ресурсы, выложенные на компьютерах других пользователей для свободного скачивания.
  43. 43. Любой пользователь, используя поиск, может найти накомпьютере любого другого пользователя те ресурсы,которые тот выложил в свободный доступ, и бесплатноскачать их. А так, как количество пользователей такихфайлообменных программ исчисляется сотнями тысяч, аиногда даже миллионами, пользователь скорее всегонайдет нужный ему файл.
  44. 44. Тематические поисковые системы по науке, культуре и искусству Тематические поисковые системы по науке: http://bukinist.agava.ru Поисковая система "Букинист" предназначена для поиска книг и других электронных текстов, имеющихся в свободном доступе в Интернет. http://www.scirus.com/srsapp http://www.scholar.ru - Поиск научных публикаций на русском языке http://www.allreferats.narod.ru - Поиск рефератов http://www.referat.ru - Поиск рефератов http://www.dialogus.ru - Автоматический поиск прямых ответов на вопросы пользователей http://megalib.com - Поиск в электронных учебниках, журналах, исходниках и даже софте
  45. 45. Тематические поисковые системы по культуре и искусству: http://www.culturefinder.com/ - Aнглоязычная информационная база данных в области культуры; http://infomine.ucr.edu/search/artssearch.pht ml - База данных по различным видам искусства
  46. 46. СПАСИБО ЗАВНИМАНИЕ!
  47. 47. Выполнила: Студентка 508 группы ФКиСКД Покладок Инна

×