SlideShare a Scribd company logo
1 of 47
Информационные и
 информационно-
поисковые системы
    Интернет
Морфологический анализ
    Морфологический анализ – это такой процесс, который
определяется при помощи морфологического множества,
т.е. множество структурных решений объектов,
принадлежащих рассматриваемому классу. Результаты
морфологического анализа представляются в виде моделей
морфологического множества, которые в зависимости от
полноты представления информации о структурах объекта
делятся на модели морфологического множества уровня
идентификации и модели морфологического множества
уровня спецификации. Модели морфологического
множества уровня идентификации содержат все
идентификаторы структур объектов, принадлежащих
рассматриваемому классу и могут быть представлены с
помощью морфологических И/ИЛИ-деревьев,
морфологических таблиц, а также с помощью специальных
языков моделирования морфологического множества, к
которым относится Structuralist.
Модели морфологического множества уровня
идентификации не содержат исчерпывающей информации
о структурах объектов и не могут непосредственно
использоваться с системами компьютерного
моделирования.
  Морфологический анализ предшествует этапу
морфологического синтеза, в процессе которого на
морфологическом множестве ищется структурное
решение, являющееся оптимальным по какому-то
заданному критерию, поэтому морфологическое
множество должно обязательно содержать структурное
решение проектируемого объекта.
Семантические показатели
     эффективности ИПС: релевантность и
           пертинентность поиска
      Одними из наиболее важных показателей эффективности
    информационных систем, содержащих текстовую
    информацию, являются семантические показатели.
    Семантические показатели основаны на оценке релевантности
    между документами и запросами.
   Релевантность поиска:
      Релевантность (англ. relevant) — применительно к
    результатам работы поисковой системы и экспертной системы
    — степень соответствия запроса и найденного, то есть
    уместность результата. В более общем смысле, одно из
    наиболее близких понятию качества «релевантности» —
    «адекватность», то есть оценка степени соответствия, но и
    степени практической применимости результата, а также
    степени социальной применимости варианта решения задачи.
     Пертинентность
      Пертинентность (в информационном поиске) —
    соответствие полученной информации информационной
    потребности пользователя.
       Пертинентность измеряется степенью соответствия между
    ожиданиями пользователя и результатами поиска, которая
    определяется как отношение объема полезной для
    пользователя информации к общему объему полученной
    информации, найденной поисковой системой.
       Достижение высокой степени пертинентности — основное
    поле конкурентной борьбы современных поисковых систем.
    Именно для максимального удовлетворения
    информационных потребностей пользователей в настоящее
    время в ИП-системах широко применяются теории и методы
    семантических сетей, контент-анализа и глубинного анализа
    текстов (Text mining, интеллектуальный анализ текстов)
Ранжирование документов в
  соответствии с их релевантностью
         поисковым запросам
  Внутренние факторы, влияющие на ранжирование
документов в поисковых системах .
  По утверждению специалистов технических отделов
поисковых систем, в настоящее время алгоритма выдачи
результатов поиска по поисковому запросу учитывают
около сотни факторов и критериев.
  Наряду с общепринятым понятием, что к внутренним
факторам ранжирования относится текст, бытует и другая
точка зрения. Кроме текстовых критериев, к внутренним
факторам относят код в целом (служебные теги, структура
кода и т. д.).
Текст страницы. Поисковые системы оценивают его
по двум основным критериям – расположение фраз на
странице и частота встречаемости фраз в документе.
Касаемо первого критерия, можно утверждать следующее.
Чтобы сделать страницу более релевантной поисковому
запросу (или нескольким запросам), необходимо
располагать фразы, соответствующие поисковым запросам
как можно выше по тексту документа. Так же не утратил
свое значение критерий вхождения релевантных запросу
фраз в текст заголовков (внутри тегов <h1>-<h6>),
выделений в тексте (внутри тегов <b>, <br> и др.) и
некоторые другие моменты.
Относительно частоты употребления слов в документе
сказано немало. Существуют рекомендации об использовании
ключевого слова на странице в пределах 3-7%. Однако точные
цифры, естественно, неизвестны. Считается, что страница со
слишком часто встречающимся словом запроса может быть
сочтена спамом, и ее позиция при этом в результатах поиска
автоматически понижается. Это утверждение довольно
спорно. Ведь если на странице всего 3 слова и запрос
содержит эти же 3, то плотность составит 100%, однако такие
страницы прекрасно находятся в поиске. Гораздо более
вероятно, что существуют некие пороговые значения, после
достижения которых дальнейшее увеличение частоты не
влияет на релевантность документа.
   Не следует так же забывать, что поисковики накладывают
ограничения на индексируемый объем документа. Для разных
поисковиков этот критерий варьирует в пределах 100-200
килобайтов.
Служебные мета-тэги. Ранее мета-тэги
<keywords> и <description> активно
использовались многими поисковыми машинами.
Но в связи с тем, что их содержимое не видно
пользователю, они стали действенным
инструментом для обмана поисковых систем, что
привело к тому, что в настоящее время эти мета-
тэги либо вообще не учитываются поисковыми
системами, либо влияние их мизерно по
сравнению с другими факторами.
Глубокий («невидимый») веб
   Термин Глубокий веб (deep web, иногда употребляются
invisible web, hidden web) обычно относится к веб-
страницам, которые по тем или иным причинам не
индексируются поисковыми роботами. Соответственно,
если вы ищете что-либо своим любимым поисковиком, вы
не сможете с его помощью найти страницы, которые этот
поисковик не проиндексировал.
Механизмы и алгоритмы поиска
   Средства поиска и структурирования, иногда называемые
поисковыми механизмами, используются для того, чтобы помочь
людям найти информацию, в которой они нуждаются. Средства
поиска типа агентов, пауков, кроулеров и роботов используются
для сбора информации о документах, находящихся в Сети
Интернет. Это специальные программы, которые занимаются
поиском страниц в Сети, извлекают гипертекстовые ссылки на
этих страницах и автоматически индексируют информацию,
которую они находят для построения базы данных. Каждый
поисковый механизм имеет собственный набор правил,
определяющих, как собирать документы. Некоторые следуют за
каждой ссылкой на каждой найденной странице и затем, в свою
очередь, исследуют каждую ссылку на каждой из новых страниц,
и так далее. Некоторые игнорируют ссылки, которые ведут к
графическим и звуковым файлам, файлам мультипликации;
другие игнорируют cсылки к ресурсам типа баз данных WAIS;
другие проинструктированы, что нужно просматривать прежде
всего наиболее популярные страницы.
Агенты - самые "интеллектуальные" из поисковых средств.
Они могут делать больше, чем просто искать: они могут
выполнять даже транзакции от Вашего имени. Уже сейчас они
могут искать cайты специфической тематики и возвращать
списки cайтов, отсортированных по их посещаемости. Агенты
могут обрабатывать содержание документов, находить и
индексировать другие виды ресурсов, не только страницы.
Они могут также быть запрограммированы для извлечения
информации из уже существующих баз данных. Независимо
от информации, которую агенты индексируют, они передают
ее обратно базе данных поискового механизма.
   Агенты извлекают и индексируют различные виды
информации. Некоторые, например, индексируют каждое
отдельное слово во встречающемся документе, в то время как
другие индексируют только наиболее важных 100 слов в
каждом, индексируют размер документа и число слов в нем,
название, заголовки и подзаголовки и так далее. Вид
построенного индекса определяет, какой поиск может быть
сделан поисковым механизмом и как полученная информация
будет интерпретирована.
Общий поиск информации в Сети осуществляют
программы, известные как пауки. Пауки сообщают о
содержании найденного документа, индексируют его и
извлекают итоговую информацию. Также они
просматривают заголовки, некоторые ссылки и посылают
проиндексированную информацию базе данных
поискового механизма.
   Кроулеры просматривают заголовки и возвращают
только первую ссылку.
    Роботы могут быть запрограммированы так, чтобы
переходить по различным ссылкам различной глубины
вложенности, выполнять индексацию и даже проверять
ссылки в документе. Из-за их природы они могут
застревать в циклах, поэтому, проходя по ссылкам, им
нужны значительные ресурсы Сети. Однако, имеются
методы, предназначенные для того, чтобы запретить
роботам поиск по сайтам, владельцы которых не желают,
чтобы они были проиндексированы.
Люди могут помещать информацию прямо в индекс,
заполняя особую форму для того раздела, в который они
хотели бы поместить свою информацию. Эти данные
передаются базе данных.
   Когда кто-либо хочет найти информацию, доступную в
Интернет, он посещает страницу поисковой системы и
заполняет форму, детализирующую информацию, которая ему
необходима. Здесь могут использоваться ключевые слова,
даты и другие критерии. Критерии в форме поиска должны
соответствовать критериям, используемым агентами при
индексации информации, которую они нашли при
перемещении по Сети.
   База данных отыскивает предмет запроса, основанный на
информации, указанной в заполненной форме, и выводит
соответствующие документы, подготовленные базой данных.
Чтобы определить порядок, в котором список документов
будет показан, база данных применяет алгоритм
ранжирования. В идеальном случае, документы, наиболее
релевантные пользовательскому запросу будут помещены
первыми в списке.
Различные поисковые системы используют различные
    алгоритмы ранжирования, однако основные принципы
    определения релевантности следующие:
    Количество слов запроса в текстовом содержимом
    документа (т.е. в html-коде).
    Тэги, в которых эти слова располагаются.
    Местоположение искомых слов в документе.
    Удельный вес слов, относительно которых определяется
    релевантность, в общем количестве слов документа.
       Эти принципы применяются всеми поисковыми
    системами. А представленные ниже используются
    некоторыми, но достаточно известными (вроде AltaVista,
    HotBot).
АЛГОРИТМЫ ПОИСКА
   Расширенный поиск
   C помощью расширенного поиска можно найти документы с заданными
характеристиками - атрибутами. В ИС «Кодекс» выделены следующие виды
атрибутов:
   Текст - форматированный текст документа, практически неограниченного
размера. Каждый документ может состоять из нескольких текстовых объектов
(например, текст закона и комментарии к нему). Подсистема поиска
рассматривает все тексты одного документа как единое целое.
   Строка с текстом - неформатированный текст длиной до 255 символов
(например, наименование, место опубликования).
   Строка с номером - строка символов длиной до 255 символов. В отличие от
«строки с текстом» в данном атрибуте система не выделяет отдельные слова.
   Дата - дата в диапазоне от 01.01.32000 до нашей эры до 01.01.32000 нашей
эры.
   Ссылка - указатель на другой объект в базе данных. С помощью ссылок в
системе реализованы классификаторы (линейные и иерархические) и деление
поискового пространства на разделы.
   По каждому из атрибутов возможности поисковой машины различны.
Интеллектуальный поиск
   Интеллектуальный поиск позволяет найти документ по
смыслу содержащейся в нем информации, то есть документы по
заданной теме.
    В системе реализован алгоритм с использованием
компьютерной обработки документа. Согласно гипотезе Зипфа
смысл документа зависит от частоты терминов, встречающихся
в документе. Предположим, у нас есть набор документов и нас
интересуют документы на тему "земельный налог". Очевидно,
что документы, в которых больше данных слов, с большей
вероятностью содержат интересующую нас информацию.
Правда, здесь надо учесть, что документы бывают разного
объема. Например, в многостраничном документе, содержащем
5 раз слово "налог", скорее всего меньше говорится о налогах,
чем в документе из трех строчек, в котором слово налог
встречается 2 раза. Поэтому сравнивается не количество слов, а
частота, с которой эти слова встречаются в документе. При этом
частота слова определяется как отношение количества этих слов
в тексте к общей сумме слов в тексте.
Имеется также алгоритм уточнения результатов
запроса, учитывающий дополнительную информацию о
связях между документами. Действительно, если много
документов по конкретной теме ссылается на один
документ, то он, скорее всего, содержит важную
информацию по этому вопросу. Поэтому после
"взвешивания" документов по описанному выше
алгоритму система "Кодекс" добавляет часть его веса всем
документам, на которые документ ссылается.
Закономерности поиска в Интернете
  Впервые закономерности поиска в Интернете были
опубликованы в 1949г Д. Зипфом. В 1954г математик Б.
Мандельброт достиг более точного соответствия теории и
практики. Так, например, короткие слова встречаются в
Интернете намного чаще длинных. Поиск слова
«автокниги» будет более успешным, чем поиск фразы
«книги для автолюбителей». Все поисковые системы
способны распознать значимые и незначимые слова,
используя стоп-листы или словари бесполезных слов. В
русском языке в этом словаре оказались все предлоги,
местоимения, частицы. Большое значение имеет
значимость терминов, определяемая на основе его
инверсной частоты.
Законы Зипфа
      Первый закон Зипфа "ранг - частота". Выбирается любое
    слово и подсчитывается, сколько раз оно встречается в
    тексте. Эта величина называется частота вхождения слова.
    Измеряется частота каждого слова текста. Некоторые слова
    будут иметь одинаковую частоту, то есть входить в текст
    равное количество раз. Сгруппируем их, взяв только одно
    значение из каждой группы. Расположим частоты по мере
    их убывания и пронумеруем. Порядковый номер частоты
    называется ранг частоты. Так, наиболее часто
    встречающиеся слова будут иметь ранг 1, следующие за
    ними -- 2 и т.д. Вероятность встретить слово путем
    случайного выбора, будет равна отношению частоты
    вхождения этого слова к общему числу слов в тексте.
       Вероятность = Частота вхождения слова / Число слов.
      Второй закон Зипфа "количество - частота".
    Рассматривая первый закон, факта, что разные слова
    входят в текст с одинаковой частотой не рассматривался.
    Зипф установил, что частота и количество слов, входящих
    в текст с этой частотой, тоже связаны между собой.
      Законы Зипфа универсальны. В принципе, они
    применимы не только к текстам. Характеристики
    популярности узлов в сети Интернет - тоже отвечают
    законам Зипфа. Не исключено, что в законах отражается
    "человеческое" происхождение объекта.
Значимые слова, весовые коэффициенты,
                  стоп-слова
   От того, как будет выставлен диапазон значимых слов, зависит
многое. Поставив широко - нужные термины потонут в море
вспомогательных слов; установив узкий диапазон - потеряются
смысловые термины. Каждая поисковая система решает проблему
по-своему, руководствуясь общим объемом текста, специальными
словарями и т.п.
   Если проанализировать выделенную область значимых слов, то
можно отметить, что не все слова, которые попали в нее, отражают
смысл текста. Эти слова являются "шумом", помехой, которая
затрудняет правильный выбор. "Шум" можно уменьшить путем
предварительного исключения из исследуемого текста некоторых
слов. Для этого создается словарь ненужных слов - стоп-слов
(словарь называется стоп-лист). Например, для английского текста
стоп-словами станут термины: the, a, an, in, to, of, and, that... и так
далее. Для русского текста в стоп-лист могли бы быть включены
все предлоги, частицы, личные местоимения и т. п. Наверняка
попали бы и слова из нашего "шума": на, не, для, это.
Весовые коэффициенты
   Современные способы индексирования не ограничиваются
анализом перечисленных параметров текста. Поисковая
машина может строить весовые коэффициенты с учетом
местоположения термина внутри документа, взаимного
расположения терминов, частей речи, морфологических
особенностей и т.п.
   В качестве терминов могут выступать не только
отдельные слова, но и словосочетания. Джорж Зипф (George
K. Zipf) опубликовал свои законы в 1949 году. Пять лет
спустя знаменитый математик Беноит Мандлеброт (Benoit
Mandlebrot) внес небольшие изменения в формулы Зипфа,
добившись более точного соответствия теории практике. Без
этих законов сегодня не обходится ни одна система
автоматического поиска информации. Как видите,
математический анализ позволяет машине с хорошей
точностью, без участия человека распознать суть текста.
Стоп-слова
   Для того, чтобы из миллионов гигабайт информации,
представленной в Интернете, выдать пользователю
максимально релевантные страницы, поисковые роботы
тщательно анализируют содержание каждой их них. Большую
роль в этом процессе играют ключевые слова, мета-теги,
дающие обзорное представление о документе и другие факторы.
Среди них особое значение имеют так называемые стоп-слова.
   Это такие слова, которые не несут никакой смысловой
нагрузки для поисковой системы, чаще всего выполняют
служебную роль, однако необходимы для целостного и
правильного восприятия текста читателем.
   То есть стоп-слова – это достаточно распространенные и
общеупотребительные слова и символы. Роботы, осуществляя
поиск по введенному запросу, просто игнорируют их, сокращая
таким образом время на поиск нужных страниц, при этом
поддерживая релевантность запроса. Кроме того, пропуск стоп-
слов позволяет системе сохранить больше пространства для
хранения информации (веб-страниц), так как они помечаются
роботом специальным маркером.
Каждая поисковая система обладает своим списком
стоп-слов, которые варьируются, актуализируются и
меняются, однако общие тенденции в них проследить
можно. К стоп-словам относятся: служебные слова –
предлоги, частицы, междометия, местоимения, союзы,
наречия, а также однозначные цифры от 0 до 9
(двузначные и более сложные цифры фиксируются, так
как они могут играть ключевую роль в запросе – например
даты или номера телефонов). Помимо этого, поисковая
система будет пропускать знаки препинания (, . : «» и так
далее).
   Стоит обратить внимание, что некоторых поисковых
роботов можно заставить учитывать стоп-слово при
анализе по запросу, для этого необходимо внести его в
поисковый запрос и поставить перед ним знак «+». Еще
один важный момент – список стоп-слов следует с
осторожностью использовать в мета-тегах, так как они в
любом случае будут проигнорированы системой, а,
значит, с большой долей вероятности не попадут в
результаты выдачи.
При контекстном поиске система предоставляет
следующие возможности:
     - задание в запросе логических формул, в том числе с
операторами расстояния. В качестве «слов» могут
выступать цифры, буквенно-цифровые
последовательности, слова которые должны быть найдены
в заданном виде, а также шаблоны - буквенно-цифровые
последовательности с символами "*" (любая подстрока, в
том числе пустая) и "?" (любая буква или цифра);
   - встроенный морфологический анализатор,
позволяющий автоматически найти все существующие
словоформы для большинства слов русского и английского
языков.
Модели индексирования и поиска документов
   Главная задача информационно-поисковой системы - поиск
 информации, релевантной информационным потребностям
 пользователя. Под релевантностью понимают соответствие
 между желаемой и получаемой информацией.
    Подавляющие большинство поисковых алгоритмов
 основано на так называемой "Векторной модели текста",
 предложенной Дж. Солтоном (Salton G.) в 1975 году. Работа
 Солтона представляет собой теоретическую основу
 современных ИПС в их классической реализации.
    Разные авторы называют эту модель индексирования и
 поиска по-разному: векторной, линейной, или
 алгебраической. Будет справедливо, если представление
 документов и поиск информации в массиве разделим на две
 модели. Следуя этой логике, векторной будем называть
 модель описания информационного массива, а линейной -
 модель поиска информации в массиве. Такое разделение
 обусловлено тем, что документы записываются в виде
 двоичных векторов, в то время как поисковые запросы - это
 линейные преобразования над этими векторами.
Суть алгоритма Солтона в том, что для индексирования
используют те термины, которые имеют высокую частоту
встречаемости внутри документа и низкую во всем
информационном массиве. Сама характеристика
вычисляется как отношение частоты встречаемости
термина в документе к частоте встречаемости термина в
массиве. Используя эту меру системы индексирования,
документу приписывают первые 20-40 символов, которые
и составляют его поисковый образ. Выбор этой меры
объясняется простыми прагматическими соображениями,
которые становятся очевидными при сравнении
выражения с другими способами взвешивания терминов.
Lycos, и OpenText, и Altavista, и другие системы
Интернета применяют линейную модель индексирования и
поиска, используя различительную силу термина в
алгоритмах автоматического индексирования и поиска.
Следовательно, применяемые алгоритмы ограничивают
словарь, допуская его незначительный рост.
    Именно это и осуществляют все реально
функционирующие системы, ограничивая размер
поискового образа документа 20-40 наиболее "тяжелыми"
терминами из содержания. При этом в словарь попадают
только термины поисковых образов. Следует также
отметить, что источником терминов индексирования, в
большинстве случаев выступает не весь документ, а только
отдельные его части: заголовок, гипертекстовые ссылки,
подзаголовки, специальные поля. Таким образом, удается
контролировать размер словаря и оставаться в рамках
линейной модели индексирования и поиска.
Синтаксис языка запросов( На примере ИПС
                 «Yandex»)
   Разные поисковые системы используют различные алгоритмы и
формулы для вычисления веса и различные способы сопоставления
всех этих факторов. Поэтому релевантность документов
оценивается по-разному. То есть один и тот же запрос к разным
поисковым системам даст разные результаты.
     Хотя расширенный запрос и предназначен для уточнения
критериев поиска, полностью настраиваемый поиск можно
обеспечить с помощью применения языка запросов. Язык запросов
— это специальные символы и операторы, которые пишутся в ту же
строку для поиска, что и ключевые слова, и обрабатываются
поисковой машиной.
    В системе Яндекс существует специальный язык запросов,
использовать который более сложно, чем форму расширенного
поиска но при его использовании можно получить наилучший
результат.
    Поисковый запрос вводится в поисковое поле, он может
содержать ключевые слова и специальные символы, позволяющие
установить взаимосвязи между этими словами и ввести
дополнительные параметры.
Синтаксис языка запросов системы
                   Яндекс (Примеры)
   " " - поиск фразы   -   "красная шапочка« (эквивалентно красная /+1 шапочка)

   + - обязательное наличие слова в найденном документе - +быть или +не быть

   ~~ или - не должно быть слова в пределах документа (И НЕ) - путеводитель по
    Парижу ~~ (агентство | тур)

   ~ - не должно быть слова в пределах предложения (И НЕ) - банки ~ закон
   ! - искать только указанную форму слова - !Путин
   пробел или & - логическое И (в пределах предложения)      - фабрика звезд &&
           логическое И (в пределах документа)       музыка && (фабрика звезд)

   | - логическое ИЛИ - рисунок | картинка | фото | коллаж

   /(n m) - расстояние между словами (-назад +вперед) - поставщики /2 кофе ,
    музыкальное /(-2 4) образование, вакансии ~ /+1 студентов
   &&/(n m) - расстояние в предложениях (-назад +вперед)          - банк && /1 налоги
   ( ) - группировка слов - (технология | изготовление) (сыра | творога)
Основные положения языка запросов:
    Если ключевые слова являются устойчивым
словосочетанием или единой фразой, то заключите их в
кавычки.
    Если слова не объединены кавычками, то каждое слово
будет само по себе и перед каждым их них можно поставить
знак плюс «+», если слово обязательно должно быть в
найденных документах, минус «-», если слово не должно быть в
найденных документах (пробел ставится перед знаком, но не
после). Если перед словом поставить знак ~ (тильда), то этого
слова не должно быть в пределах предложения в совокупности с
рядом стоящим в запросе словом. Примечание: по умолчанию
будут найдены и те документы, которые удовлетворяют хотя бы
одному из ключевых слов. Такие ссылки будут иметь низкую
релевантность и будут находиться в конце результатов запроса.
    Независимо от того, в какой форме вы употребили слово в
запросе, Яндекс учитывает все формы этого слова по правилам
русского языка. Чтобы этого не происходило, поставьте знак
восклицания перед неизменяемым словом.
Все слова, написанные через пробел или знак &
(логическое И) должны одновременно находиться в
найденных документах в пределах предложения.
   Все слова, написанные через && должны одновременно
находиться в найденных документах, но расстояние
между ними не оговаривается.
  Слова, написанные через символ | (логическое ИЛИ)
являются заменяющими друг друга (синонимами), и будут
найдены документы, удовлетворяющие хотя бы одному из
этих слов.
Можно указать расстояние между словами. Если
пронумеровать слова в предложении, то расстояние между
словами – это разность номеров слов. Например, если между
двумя словами может находиться только одно слово, то
расстояние между ними равно 2 (3 минус 1). Число
указывается после знака /, например региональный /2 центр.
В этом случае будут найдены документы, в которых эти
слова находятся либо вместе, либо между ними есть еще
одно слово. Запись /2 эквивалентна записи /(-2 +2), в такой
форме можно указать максимальное и минимальное
количество слов, например, от 3 до 5 записывается /(3 5).
Минус и плюс указывают на порядок слов: минус –
обратный порядок. Если перед символом / указать &&, то
расстояние будет вычисляться в предложениях.
    Для группировки отдельных частей запроса используйте
круглые скобки.
Оценка эффективности наиболее
        популярных поисковых систем
 "Яндекс" - поисковая система по русскому интернету
    Учёт русской морфологии. Подсветка найденных
  документов, показ контекстов. Параллельный поиск в
  "Энциклопедиях", "Новостях", "Маркете". Структурирование
  поиска по разделам каталога и серверам.
    www.yandex.ru - Цитируемость: 39000
Регион: Россия

   "Апорт" - поисковая система
    Учёт русской морфологии. Выделение контекстов найденных
    слов. Уточнение поиска по разделам каталога и серверам.
    Поиск с переводом запроса на английский язык и наоборот.
     www.aport.ru - Цитируемость: 20000
   Регион: Россия
 "Рамблер" - информационно-поисковая система
   Первая российская поисковая система. Имеет
  возможность учета морфологии русского языка.
   www.rambler.ru - Цитируемость: 16000
Регион: Россия

   "Google" - поисковая система
     Система поиска информации в сети интернет (включая
    русскоязычный интернет). Возможность поиска картинок
    и новостей в конференциях Usenet.
   www.google.ru - Цитируемость: 11000

   "Yahoo!" - поисковая система
     Возможен поиск на русском языке.
     www.yahoo.com - Цитируемость: 5300
Поиск программного обеспечения
     Удобно искать нужную программу на специальных
сайтах, называемых каталогами программ. На данный
момент в Интернете существует великое множество
каталогов программ. Довольно большую популярность
среди российских пользователей снискали
СОФТ@Mail.Ru ( http://soft.mail.ru/ ), Freeware
( http://freeware.ru/ ) и Softodrom
( http://www.softodrom.ru/ ). Из зарубежных каталогов
программного обеспечения следует отметить
Download.com (http://www.download.com/ ) и Tucows
Downloads ( http://www.tucows.com/ ).
Система поиска FTP файлов (FTP Search)

   Система поиска FTP-файлов – это особый тип
средств поиска в Internet, который позволяет
находить файлы, доступные на «анонимных»
FTP-серверах. Протокол FTP предназначен для
передачи по сети файлов, и в этом смысле он
функционально является своеобразным аналогом
Gopher.
Основным критерием поиска является название файла,
задаваемое разными способами (точное соответствие,
подстрока, регулярное выражение и т.д.). Данный тип поиска,
конечно же, не может соперничать по возможностям с
поисковыми машинами, так как содержимое файлов никак не
учитывается при поиске, а файлам, как известно, можно давать
произвольные имена. Тем не менее, если Вам требуется найти
какую-нибудь известную программу или описание стандарта,
то с большой долей вероятности файл, его содержащий, будет
иметь соответствующее имя, и Вы сможете найти его при
помощи одного из серверов FTP Search:
    FileSearch ищет файлы на FTP-серверах по именам самих
файлов и каталогов. Если Вы ищете какую-либо программу
или еще что-то, то на WWW-серверах Вы скорее найдете их
описание, а с FTP-серверов Вы сможете перекачать их к себе.
Системы поиска людей
   Системы поиска людей – это специальные сервера,
которые позволяют осуществлять поиск людей в Интернет,
пользователь может указать Ф.И.О. человека и получить
его адрес электронной почты и URL-адрес. Однако,
следует отметить, что системы поиска людей, в основном,
берут информацию об электронных адресах из открытых
источников, таких как конференции Usenet. Среди самых
известных систем поиска людей можно выделить:
WhoWhere? - поиск адресов e-mail в специальные графы
поиска контактные данные (First Name. City, Last Name,
Phone number), Вы можете найти интересующую Вас
информацию.
   Системы поиска людей - это действительно большие
сервера, их базы данных содержат порядка 6 000 000
адресов.
Система поиска организаций
    При розыске организаций, название которых состоит из
одного слова или укладывается в односложную аббревиатуру,
разумно использовать поиск Web-страниц, в URL (сетевой адрес)
которых входит данный термин, поскольку, как известно,
односложное название компании, обычно присутствует в
доменном имени сервера или названии каталога на нем. В этом
случае нужна поисковая машина, поддерживающая поиск по
URL, такая как AltaVista (http://altavista.digital.com) или Рамблер
(http://rambler.ru). Если название компании двусложное
целесообразно искать в поисковых системах те страницы, где это
название входит в заголовок (title). В URL такое название тоже
может звучать, часто как простое слияние двух слов, слияние
слов со вставкой дефиса между ними или слияние с урезанием
конечных частей одного из входящих в название слов или обоих.
Достаточно эффективным может быть поиск в локальных базах
данных отдельных газет и журналов, но обслуживание такой
информацией все чаще становится платным.
Файлообменные сети
      Файлообменная сеть — собирательное название
    одноранговых компьютерных сетей для совместного
    использования файлов, основанных на равноправии
    участвующих в обмене файлами, то есть каждый участник
    одновременно является и клиентом, и сервером.
       Принципы работы
   Основные принципы работы файлообмена заключаются в
    следующем:
   пользователь скачивает программу себе на компьютер;
   разрешает доступ другим пользователям к некоторой части
    своих ресурсов (этот процесс называется
    «расшариванием» англ. sharing);
   в каждой такой программе присутствует поиск, который
    ищет ресурсы, выложенные на компьютерах других
    пользователей для свободного скачивания.
Любой пользователь, используя поиск, может найти на
компьютере любого другого пользователя те ресурсы,
которые тот выложил в свободный доступ, и бесплатно
скачать их. А так, как количество пользователей таких
файлообменных программ исчисляется сотнями тысяч, а
иногда даже миллионами, пользователь скорее всего
найдет нужный ему файл.
Тематические поисковые системы по
         науке, культуре и искусству
    Тематические поисковые системы по науке:
   http://bukinist.agava.ru Поисковая система "Букинист"
    предназначена для поиска книг и других электронных
    текстов, имеющихся в свободном доступе в Интернет.
   http://www.scirus.com/srsapp
   http://www.scholar.ru - Поиск научных публикаций на
    русском языке
   http://www.allreferats.narod.ru - Поиск рефератов
   http://www.referat.ru - Поиск рефератов
   http://www.dialogus.ru - Автоматический поиск прямых
    ответов на вопросы пользователей
   http://megalib.com - Поиск в электронных учебниках,
    журналах, исходниках и даже софте
Тематические поисковые системы по
           культуре и искусству:
   http://www.culturefinder.com/ -
    Aнглоязычная информационная база данных
    в области культуры;
   http://infomine.ucr.edu/search/artssearch.pht
    ml - База данных по различным видам
    искусства
СПАСИБО
   ЗА
ВНИМАНИЕ!
Выполнила: Студентка 508 группы
           ФКиСКД
        Покладок Инна

More Related Content

What's hot

технология поиска информации в интернете
технология поиска информации в интернететехнология поиска информации в интернете
технология поиска информации в интернетеANSevrukova
 
поиск информации с использованием компьютера на зачёт
поиск информации с использованием компьютера на зачётпоиск информации с использованием компьютера на зачёт
поиск информации с использованием компьютера на зачётvfhbzgjnfgrbyf123456
 
Поиск информации в Интернете
Поиск информации в ИнтернетеПоиск информации в Интернете
Поиск информации в ИнтернетеДарья
 
поиск в интернете
поиск в интернетепоиск в интернете
поиск в интернетеsolodmar
 
20150129 минобороны презентация v02
20150129 минобороны презентация v0220150129 минобороны презентация v02
20150129 минобороны презентация v02finnopolis
 
модуль 2 тема 4 оценка кач ва информ. в интернете
модуль 2 тема 4 оценка кач ва информ. в интернетемодуль 2 тема 4 оценка кач ва информ. в интернете
модуль 2 тема 4 оценка кач ва информ. в интернетеLibrary Franko
 
модуль 2 тема 4 оценка кач ва информ. в интернете
модуль 2 тема 4 оценка кач ва информ. в интернетемодуль 2 тема 4 оценка кач ва информ. в интернете
модуль 2 тема 4 оценка кач ва информ. в интернетеOlena Bashun
 
Algorithms overview for content discovery and distribution (on russian)
Algorithms overview for content discovery and distribution (on russian) Algorithms overview for content discovery and distribution (on russian)
Algorithms overview for content discovery and distribution (on russian) Alexander Petrov
 
информационный поиск в интернет
информационный поиск в интернет информационный поиск в интернет
информационный поиск в интернет Savua
 
работа в интернет
работа в интернетработа в интернет
работа в интернетNatalyaSH
 
лекция информационные ресурсы
лекция информационные ресурсылекция информационные ресурсы
лекция информационные ресурсыTatjana Reichert
 
системный анализ и реинжиниринг
системный анализ и реинжинирингсистемный анализ и реинжиниринг
системный анализ и реинжинирингAleksandr Barmin
 
Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.
Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.
Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.SEO Conference 2014
 
Методика определения отключения ссылочного ранжирования по запросу в Яндексе
Методика определения отключения ссылочного ранжирования по запросу в ЯндексеМетодика определения отключения ссылочного ранжирования по запросу в Яндексе
Методика определения отключения ссылочного ранжирования по запросу в ЯндексеSerge Ludkiewicz
 
Запуск клуба "Поисковые системы"
Запуск клуба "Поисковые системы"Запуск клуба "Поисковые системы"
Запуск клуба "Поисковые системы"dbarashev
 
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУYandex
 
методы поиска инф. в интернет
методы поиска инф. в интернетметоды поиска инф. в интернет
методы поиска инф. в интернетOlena Bashun
 

What's hot (19)

технология поиска информации в интернете
технология поиска информации в интернететехнология поиска информации в интернете
технология поиска информации в интернете
 
лекция 5
лекция 5лекция 5
лекция 5
 
поиск информации с использованием компьютера на зачёт
поиск информации с использованием компьютера на зачётпоиск информации с использованием компьютера на зачёт
поиск информации с использованием компьютера на зачёт
 
Поиск информации в Интернете
Поиск информации в ИнтернетеПоиск информации в Интернете
Поиск информации в Интернете
 
поиск в интернете
поиск в интернетепоиск в интернете
поиск в интернете
 
20150129 минобороны презентация v02
20150129 минобороны презентация v0220150129 минобороны презентация v02
20150129 минобороны презентация v02
 
модуль 2 тема 4 оценка кач ва информ. в интернете
модуль 2 тема 4 оценка кач ва информ. в интернетемодуль 2 тема 4 оценка кач ва информ. в интернете
модуль 2 тема 4 оценка кач ва информ. в интернете
 
модуль 2 тема 4 оценка кач ва информ. в интернете
модуль 2 тема 4 оценка кач ва информ. в интернетемодуль 2 тема 4 оценка кач ва информ. в интернете
модуль 2 тема 4 оценка кач ва информ. в интернете
 
Algorithms overview for content discovery and distribution (on russian)
Algorithms overview for content discovery and distribution (on russian) Algorithms overview for content discovery and distribution (on russian)
Algorithms overview for content discovery and distribution (on russian)
 
информационный поиск в интернет
информационный поиск в интернет информационный поиск в интернет
информационный поиск в интернет
 
работа в интернет
работа в интернетработа в интернет
работа в интернет
 
лекция информационные ресурсы
лекция информационные ресурсылекция информационные ресурсы
лекция информационные ресурсы
 
системный анализ и реинжиниринг
системный анализ и реинжинирингсистемный анализ и реинжиниринг
системный анализ и реинжиниринг
 
Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.
Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.
Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.
 
Методика определения отключения ссылочного ранжирования по запросу в Яндексе
Методика определения отключения ссылочного ранжирования по запросу в ЯндексеМетодика определения отключения ссылочного ранжирования по запросу в Яндексе
Методика определения отключения ссылочного ранжирования по запросу в Яндексе
 
Запуск клуба "Поисковые системы"
Запуск клуба "Поисковые системы"Запуск клуба "Поисковые системы"
Запуск клуба "Поисковые системы"
 
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУ
 
методы поиска инф. в интернет
методы поиска инф. в интернетметоды поиска инф. в интернет
методы поиска инф. в интернет
 
IMU_RBS
IMU_RBSIMU_RBS
IMU_RBS
 

Similar to информационные и информационно поисковые системы интернет

Puple's presentation
Puple's presentationPuple's presentation
Puple's presentationKuznecov
 
Контент инижиниринг - Лекция 1
Контент инижиниринг - Лекция 1Контент инижиниринг - Лекция 1
Контент инижиниринг - Лекция 1Elena Tikhomirova
 
[Youdz.ru] поиск в интернете.
[Youdz.ru] поиск в интернете.[Youdz.ru] поиск в интернете.
[Youdz.ru] поиск в интернете.You DZ
 
НИР "Анализ информационной деятельности территориальных органов МЧС России"
НИР "Анализ информационной деятельности территориальных органов МЧС России"НИР "Анализ информационной деятельности территориальных органов МЧС России"
НИР "Анализ информационной деятельности территориальных органов МЧС России"Artukhin Valeriy
 
Как работают поисковые системы
Как работают поисковые системыКак работают поисковые системы
Как работают поисковые системыNetpeak
 
Разновидности поисковых систем в Интернете
Разновидности поисковых систем в ИнтернетеРазновидности поисковых систем в Интернете
Разновидности поисковых систем в Интернетеobstinate
 
Концепция применения онтологических структур в ERP-системах
Концепция применения онтологических структур в ERP-системахКонцепция применения онтологических структур в ERP-системах
Концепция применения онтологических структур в ERP-системахAnatoly Simkin
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системыNetpeak
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системыNetpeak
 
модуль 2 тема 4 оценка кач ва информ. в интернете
модуль 2 тема 4 оценка кач ва информ. в интернетемодуль 2 тема 4 оценка кач ва информ. в интернете
модуль 2 тема 4 оценка кач ва информ. в интернетеLibrary Franko
 
Prezent puti interneta_neispovedimi
Prezent puti interneta_neispovedimiPrezent puti interneta_neispovedimi
Prezent puti interneta_neispovedimirinto2
 
информатика
информатикаинформатика
информатикаPR15049455
 
Нюансы алгоритмов ранжирования поисковых систем
Нюансы алгоритмов ранжирования поисковых системНюансы алгоритмов ранжирования поисковых систем
Нюансы алгоритмов ранжирования поисковых системPaul K
 
Нюансы алгоритмов ранжирования поисковых систем
Нюансы алгоритмов ранжирования поисковых системНюансы алгоритмов ранжирования поисковых систем
Нюансы алгоритмов ранжирования поисковых системMegaIndexTV
 
Доклад Сергея Людкевича на Seoconference 2011
Доклад Сергея Людкевича на Seoconference 2011Доклад Сергея Людкевича на Seoconference 2011
Доклад Сергея Людкевича на Seoconference 2011Ленар Амирханов
 
Доклад Сергея Людкевича на Seoconference 2011
Доклад Сергея Людкевича на Seoconference 2011Доклад Сергея Людкевича на Seoconference 2011
Доклад Сергея Людкевича на Seoconference 2011Ленар Амирханов
 
скIm2 занятие 2 - seo, семантика
скIm2   занятие 2 - seo, семантикаскIm2   занятие 2 - seo, семантика
скIm2 занятие 2 - seo, семантикаIvan Pronko
 

Similar to информационные и информационно поисковые системы интернет (20)

Puple's presentation
Puple's presentationPuple's presentation
Puple's presentation
 
Контент инижиниринг - Лекция 1
Контент инижиниринг - Лекция 1Контент инижиниринг - Лекция 1
Контент инижиниринг - Лекция 1
 
[Youdz.ru] поиск в интернете.
[Youdz.ru] поиск в интернете.[Youdz.ru] поиск в интернете.
[Youdz.ru] поиск в интернете.
 
НИР "Анализ информационной деятельности территориальных органов МЧС России"
НИР "Анализ информационной деятельности территориальных органов МЧС России"НИР "Анализ информационной деятельности территориальных органов МЧС России"
НИР "Анализ информационной деятельности территориальных органов МЧС России"
 
Как работают поисковые системы
Как работают поисковые системыКак работают поисковые системы
Как работают поисковые системы
 
Разновидности поисковых систем в Интернете
Разновидности поисковых систем в ИнтернетеРазновидности поисковых систем в Интернете
Разновидности поисковых систем в Интернете
 
Kaznetweek2011
Kaznetweek2011Kaznetweek2011
Kaznetweek2011
 
Концепция применения онтологических структур в ERP-системах
Концепция применения онтологических структур в ERP-системахКонцепция применения онтологических структур в ERP-системах
Концепция применения онтологических структур в ERP-системах
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системы
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системы
 
модуль 2 тема 4 оценка кач ва информ. в интернете
модуль 2 тема 4 оценка кач ва информ. в интернетемодуль 2 тема 4 оценка кач ва информ. в интернете
модуль 2 тема 4 оценка кач ва информ. в интернете
 
Prezent puti interneta_neispovedimi
Prezent puti interneta_neispovedimiPrezent puti interneta_neispovedimi
Prezent puti interneta_neispovedimi
 
информатика
информатикаинформатика
информатика
 
Нюансы алгоритмов ранжирования поисковых систем
Нюансы алгоритмов ранжирования поисковых системНюансы алгоритмов ранжирования поисковых систем
Нюансы алгоритмов ранжирования поисковых систем
 
Нюансы алгоритмов ранжирования поисковых систем
Нюансы алгоритмов ранжирования поисковых системНюансы алгоритмов ранжирования поисковых систем
Нюансы алгоритмов ранжирования поисковых систем
 
Доклад Сергея Людкевича на Seoconference 2011
Доклад Сергея Людкевича на Seoconference 2011Доклад Сергея Людкевича на Seoconference 2011
Доклад Сергея Людкевича на Seoconference 2011
 
Доклад Сергея Людкевича на Seoconference 2011
Доклад Сергея Людкевича на Seoconference 2011Доклад Сергея Людкевича на Seoconference 2011
Доклад Сергея Людкевича на Seoconference 2011
 
презентация интернет
презентация интернетпрезентация интернет
презентация интернет
 
скIm2 занятие 2 - seo, семантика
скIm2   занятие 2 - seo, семантикаскIm2   занятие 2 - seo, семантика
скIm2 занятие 2 - seo, семантика
 
AskNet Search
AskNet SearchAskNet Search
AskNet Search
 

информационные и информационно поисковые системы интернет

  • 2. Морфологический анализ Морфологический анализ – это такой процесс, который определяется при помощи морфологического множества, т.е. множество структурных решений объектов, принадлежащих рассматриваемому классу. Результаты морфологического анализа представляются в виде моделей морфологического множества, которые в зависимости от полноты представления информации о структурах объекта делятся на модели морфологического множества уровня идентификации и модели морфологического множества уровня спецификации. Модели морфологического множества уровня идентификации содержат все идентификаторы структур объектов, принадлежащих рассматриваемому классу и могут быть представлены с помощью морфологических И/ИЛИ-деревьев, морфологических таблиц, а также с помощью специальных языков моделирования морфологического множества, к которым относится Structuralist.
  • 3. Модели морфологического множества уровня идентификации не содержат исчерпывающей информации о структурах объектов и не могут непосредственно использоваться с системами компьютерного моделирования. Морфологический анализ предшествует этапу морфологического синтеза, в процессе которого на морфологическом множестве ищется структурное решение, являющееся оптимальным по какому-то заданному критерию, поэтому морфологическое множество должно обязательно содержать структурное решение проектируемого объекта.
  • 4. Семантические показатели эффективности ИПС: релевантность и пертинентность поиска Одними из наиболее важных показателей эффективности информационных систем, содержащих текстовую информацию, являются семантические показатели. Семантические показатели основаны на оценке релевантности между документами и запросами.  Релевантность поиска: Релевантность (англ. relevant) — применительно к результатам работы поисковой системы и экспертной системы — степень соответствия запроса и найденного, то есть уместность результата. В более общем смысле, одно из наиболее близких понятию качества «релевантности» — «адекватность», то есть оценка степени соответствия, но и степени практической применимости результата, а также степени социальной применимости варианта решения задачи.
  • 5. Пертинентность Пертинентность (в информационном поиске) — соответствие полученной информации информационной потребности пользователя. Пертинентность измеряется степенью соответствия между ожиданиями пользователя и результатами поиска, которая определяется как отношение объема полезной для пользователя информации к общему объему полученной информации, найденной поисковой системой. Достижение высокой степени пертинентности — основное поле конкурентной борьбы современных поисковых систем. Именно для максимального удовлетворения информационных потребностей пользователей в настоящее время в ИП-системах широко применяются теории и методы семантических сетей, контент-анализа и глубинного анализа текстов (Text mining, интеллектуальный анализ текстов)
  • 6. Ранжирование документов в соответствии с их релевантностью поисковым запросам Внутренние факторы, влияющие на ранжирование документов в поисковых системах . По утверждению специалистов технических отделов поисковых систем, в настоящее время алгоритма выдачи результатов поиска по поисковому запросу учитывают около сотни факторов и критериев. Наряду с общепринятым понятием, что к внутренним факторам ранжирования относится текст, бытует и другая точка зрения. Кроме текстовых критериев, к внутренним факторам относят код в целом (служебные теги, структура кода и т. д.).
  • 7. Текст страницы. Поисковые системы оценивают его по двум основным критериям – расположение фраз на странице и частота встречаемости фраз в документе. Касаемо первого критерия, можно утверждать следующее. Чтобы сделать страницу более релевантной поисковому запросу (или нескольким запросам), необходимо располагать фразы, соответствующие поисковым запросам как можно выше по тексту документа. Так же не утратил свое значение критерий вхождения релевантных запросу фраз в текст заголовков (внутри тегов <h1>-<h6>), выделений в тексте (внутри тегов <b>, <br> и др.) и некоторые другие моменты.
  • 8. Относительно частоты употребления слов в документе сказано немало. Существуют рекомендации об использовании ключевого слова на странице в пределах 3-7%. Однако точные цифры, естественно, неизвестны. Считается, что страница со слишком часто встречающимся словом запроса может быть сочтена спамом, и ее позиция при этом в результатах поиска автоматически понижается. Это утверждение довольно спорно. Ведь если на странице всего 3 слова и запрос содержит эти же 3, то плотность составит 100%, однако такие страницы прекрасно находятся в поиске. Гораздо более вероятно, что существуют некие пороговые значения, после достижения которых дальнейшее увеличение частоты не влияет на релевантность документа. Не следует так же забывать, что поисковики накладывают ограничения на индексируемый объем документа. Для разных поисковиков этот критерий варьирует в пределах 100-200 килобайтов.
  • 9. Служебные мета-тэги. Ранее мета-тэги <keywords> и <description> активно использовались многими поисковыми машинами. Но в связи с тем, что их содержимое не видно пользователю, они стали действенным инструментом для обмана поисковых систем, что привело к тому, что в настоящее время эти мета- тэги либо вообще не учитываются поисковыми системами, либо влияние их мизерно по сравнению с другими факторами.
  • 10. Глубокий («невидимый») веб Термин Глубокий веб (deep web, иногда употребляются invisible web, hidden web) обычно относится к веб- страницам, которые по тем или иным причинам не индексируются поисковыми роботами. Соответственно, если вы ищете что-либо своим любимым поисковиком, вы не сможете с его помощью найти страницы, которые этот поисковик не проиндексировал.
  • 11. Механизмы и алгоритмы поиска Средства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Средства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как собирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных WAIS; другие проинструктированы, что нужно просматривать прежде всего наиболее популярные страницы.
  • 12. Агенты - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма. Агенты извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.
  • 13. Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма. Кроулеры просматривают заголовки и возвращают только первую ссылку. Роботы могут быть запрограммированы так, чтобы переходить по различным ссылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.
  • 14. Люди могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они хотели бы поместить свою информацию. Эти данные передаются базе данных. Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети. База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке.
  • 15. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:  Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).  Тэги, в которых эти слова располагаются.  Местоположение искомых слов в документе.  Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа. Эти принципы применяются всеми поисковыми системами. А представленные ниже используются некоторыми, но достаточно известными (вроде AltaVista, HotBot).
  • 16. АЛГОРИТМЫ ПОИСКА Расширенный поиск C помощью расширенного поиска можно найти документы с заданными характеристиками - атрибутами. В ИС «Кодекс» выделены следующие виды атрибутов: Текст - форматированный текст документа, практически неограниченного размера. Каждый документ может состоять из нескольких текстовых объектов (например, текст закона и комментарии к нему). Подсистема поиска рассматривает все тексты одного документа как единое целое. Строка с текстом - неформатированный текст длиной до 255 символов (например, наименование, место опубликования). Строка с номером - строка символов длиной до 255 символов. В отличие от «строки с текстом» в данном атрибуте система не выделяет отдельные слова. Дата - дата в диапазоне от 01.01.32000 до нашей эры до 01.01.32000 нашей эры. Ссылка - указатель на другой объект в базе данных. С помощью ссылок в системе реализованы классификаторы (линейные и иерархические) и деление поискового пространства на разделы. По каждому из атрибутов возможности поисковой машины различны.
  • 17. Интеллектуальный поиск Интеллектуальный поиск позволяет найти документ по смыслу содержащейся в нем информации, то есть документы по заданной теме. В системе реализован алгоритм с использованием компьютерной обработки документа. Согласно гипотезе Зипфа смысл документа зависит от частоты терминов, встречающихся в документе. Предположим, у нас есть набор документов и нас интересуют документы на тему "земельный налог". Очевидно, что документы, в которых больше данных слов, с большей вероятностью содержат интересующую нас информацию. Правда, здесь надо учесть, что документы бывают разного объема. Например, в многостраничном документе, содержащем 5 раз слово "налог", скорее всего меньше говорится о налогах, чем в документе из трех строчек, в котором слово налог встречается 2 раза. Поэтому сравнивается не количество слов, а частота, с которой эти слова встречаются в документе. При этом частота слова определяется как отношение количества этих слов в тексте к общей сумме слов в тексте.
  • 18. Имеется также алгоритм уточнения результатов запроса, учитывающий дополнительную информацию о связях между документами. Действительно, если много документов по конкретной теме ссылается на один документ, то он, скорее всего, содержит важную информацию по этому вопросу. Поэтому после "взвешивания" документов по описанному выше алгоритму система "Кодекс" добавляет часть его веса всем документам, на которые документ ссылается.
  • 19. Закономерности поиска в Интернете Впервые закономерности поиска в Интернете были опубликованы в 1949г Д. Зипфом. В 1954г математик Б. Мандельброт достиг более точного соответствия теории и практики. Так, например, короткие слова встречаются в Интернете намного чаще длинных. Поиск слова «автокниги» будет более успешным, чем поиск фразы «книги для автолюбителей». Все поисковые системы способны распознать значимые и незначимые слова, используя стоп-листы или словари бесполезных слов. В русском языке в этом словаре оказались все предлоги, местоимения, частицы. Большое значение имеет значимость терминов, определяемая на основе его инверсной частоты.
  • 20. Законы Зипфа  Первый закон Зипфа "ранг - частота". Выбирается любое слово и подсчитывается, сколько раз оно встречается в тексте. Эта величина называется частота вхождения слова. Измеряется частота каждого слова текста. Некоторые слова будут иметь одинаковую частоту, то есть входить в текст равное количество раз. Сгруппируем их, взяв только одно значение из каждой группы. Расположим частоты по мере их убывания и пронумеруем. Порядковый номер частоты называется ранг частоты. Так, наиболее часто встречающиеся слова будут иметь ранг 1, следующие за ними -- 2 и т.д. Вероятность встретить слово путем случайного выбора, будет равна отношению частоты вхождения этого слова к общему числу слов в тексте. Вероятность = Частота вхождения слова / Число слов.
  • 21. Второй закон Зипфа "количество - частота". Рассматривая первый закон, факта, что разные слова входят в текст с одинаковой частотой не рассматривался. Зипф установил, что частота и количество слов, входящих в текст с этой частотой, тоже связаны между собой. Законы Зипфа универсальны. В принципе, они применимы не только к текстам. Характеристики популярности узлов в сети Интернет - тоже отвечают законам Зипфа. Не исключено, что в законах отражается "человеческое" происхождение объекта.
  • 22. Значимые слова, весовые коэффициенты, стоп-слова От того, как будет выставлен диапазон значимых слов, зависит многое. Поставив широко - нужные термины потонут в море вспомогательных слов; установив узкий диапазон - потеряются смысловые термины. Каждая поисковая система решает проблему по-своему, руководствуясь общим объемом текста, специальными словарями и т.п. Если проанализировать выделенную область значимых слов, то можно отметить, что не все слова, которые попали в нее, отражают смысл текста. Эти слова являются "шумом", помехой, которая затрудняет правильный выбор. "Шум" можно уменьшить путем предварительного исключения из исследуемого текста некоторых слов. Для этого создается словарь ненужных слов - стоп-слов (словарь называется стоп-лист). Например, для английского текста стоп-словами станут термины: the, a, an, in, to, of, and, that... и так далее. Для русского текста в стоп-лист могли бы быть включены все предлоги, частицы, личные местоимения и т. п. Наверняка попали бы и слова из нашего "шума": на, не, для, это.
  • 23. Весовые коэффициенты Современные способы индексирования не ограничиваются анализом перечисленных параметров текста. Поисковая машина может строить весовые коэффициенты с учетом местоположения термина внутри документа, взаимного расположения терминов, частей речи, морфологических особенностей и т.п. В качестве терминов могут выступать не только отдельные слова, но и словосочетания. Джорж Зипф (George K. Zipf) опубликовал свои законы в 1949 году. Пять лет спустя знаменитый математик Беноит Мандлеброт (Benoit Mandlebrot) внес небольшие изменения в формулы Зипфа, добившись более точного соответствия теории практике. Без этих законов сегодня не обходится ни одна система автоматического поиска информации. Как видите, математический анализ позволяет машине с хорошей точностью, без участия человека распознать суть текста.
  • 24. Стоп-слова Для того, чтобы из миллионов гигабайт информации, представленной в Интернете, выдать пользователю максимально релевантные страницы, поисковые роботы тщательно анализируют содержание каждой их них. Большую роль в этом процессе играют ключевые слова, мета-теги, дающие обзорное представление о документе и другие факторы. Среди них особое значение имеют так называемые стоп-слова. Это такие слова, которые не несут никакой смысловой нагрузки для поисковой системы, чаще всего выполняют служебную роль, однако необходимы для целостного и правильного восприятия текста читателем. То есть стоп-слова – это достаточно распространенные и общеупотребительные слова и символы. Роботы, осуществляя поиск по введенному запросу, просто игнорируют их, сокращая таким образом время на поиск нужных страниц, при этом поддерживая релевантность запроса. Кроме того, пропуск стоп- слов позволяет системе сохранить больше пространства для хранения информации (веб-страниц), так как они помечаются роботом специальным маркером.
  • 25. Каждая поисковая система обладает своим списком стоп-слов, которые варьируются, актуализируются и меняются, однако общие тенденции в них проследить можно. К стоп-словам относятся: служебные слова – предлоги, частицы, междометия, местоимения, союзы, наречия, а также однозначные цифры от 0 до 9 (двузначные и более сложные цифры фиксируются, так как они могут играть ключевую роль в запросе – например даты или номера телефонов). Помимо этого, поисковая система будет пропускать знаки препинания (, . : «» и так далее). Стоит обратить внимание, что некоторых поисковых роботов можно заставить учитывать стоп-слово при анализе по запросу, для этого необходимо внести его в поисковый запрос и поставить перед ним знак «+». Еще один важный момент – список стоп-слов следует с осторожностью использовать в мета-тегах, так как они в любом случае будут проигнорированы системой, а, значит, с большой долей вероятности не попадут в результаты выдачи.
  • 26. При контекстном поиске система предоставляет следующие возможности: - задание в запросе логических формул, в том числе с операторами расстояния. В качестве «слов» могут выступать цифры, буквенно-цифровые последовательности, слова которые должны быть найдены в заданном виде, а также шаблоны - буквенно-цифровые последовательности с символами "*" (любая подстрока, в том числе пустая) и "?" (любая буква или цифра); - встроенный морфологический анализатор, позволяющий автоматически найти все существующие словоформы для большинства слов русского и английского языков.
  • 27. Модели индексирования и поиска документов Главная задача информационно-поисковой системы - поиск информации, релевантной информационным потребностям пользователя. Под релевантностью понимают соответствие между желаемой и получаемой информацией. Подавляющие большинство поисковых алгоритмов основано на так называемой "Векторной модели текста", предложенной Дж. Солтоном (Salton G.) в 1975 году. Работа Солтона представляет собой теоретическую основу современных ИПС в их классической реализации. Разные авторы называют эту модель индексирования и поиска по-разному: векторной, линейной, или алгебраической. Будет справедливо, если представление документов и поиск информации в массиве разделим на две модели. Следуя этой логике, векторной будем называть модель описания информационного массива, а линейной - модель поиска информации в массиве. Такое разделение обусловлено тем, что документы записываются в виде двоичных векторов, в то время как поисковые запросы - это линейные преобразования над этими векторами.
  • 28. Суть алгоритма Солтона в том, что для индексирования используют те термины, которые имеют высокую частоту встречаемости внутри документа и низкую во всем информационном массиве. Сама характеристика вычисляется как отношение частоты встречаемости термина в документе к частоте встречаемости термина в массиве. Используя эту меру системы индексирования, документу приписывают первые 20-40 символов, которые и составляют его поисковый образ. Выбор этой меры объясняется простыми прагматическими соображениями, которые становятся очевидными при сравнении выражения с другими способами взвешивания терминов.
  • 29. Lycos, и OpenText, и Altavista, и другие системы Интернета применяют линейную модель индексирования и поиска, используя различительную силу термина в алгоритмах автоматического индексирования и поиска. Следовательно, применяемые алгоритмы ограничивают словарь, допуская его незначительный рост. Именно это и осуществляют все реально функционирующие системы, ограничивая размер поискового образа документа 20-40 наиболее "тяжелыми" терминами из содержания. При этом в словарь попадают только термины поисковых образов. Следует также отметить, что источником терминов индексирования, в большинстве случаев выступает не весь документ, а только отдельные его части: заголовок, гипертекстовые ссылки, подзаголовки, специальные поля. Таким образом, удается контролировать размер словаря и оставаться в рамках линейной модели индексирования и поиска.
  • 30. Синтаксис языка запросов( На примере ИПС «Yandex») Разные поисковые системы используют различные алгоритмы и формулы для вычисления веса и различные способы сопоставления всех этих факторов. Поэтому релевантность документов оценивается по-разному. То есть один и тот же запрос к разным поисковым системам даст разные результаты. Хотя расширенный запрос и предназначен для уточнения критериев поиска, полностью настраиваемый поиск можно обеспечить с помощью применения языка запросов. Язык запросов — это специальные символы и операторы, которые пишутся в ту же строку для поиска, что и ключевые слова, и обрабатываются поисковой машиной. В системе Яндекс существует специальный язык запросов, использовать который более сложно, чем форму расширенного поиска но при его использовании можно получить наилучший результат. Поисковый запрос вводится в поисковое поле, он может содержать ключевые слова и специальные символы, позволяющие установить взаимосвязи между этими словами и ввести дополнительные параметры.
  • 31. Синтаксис языка запросов системы Яндекс (Примеры)  " " - поиск фразы - "красная шапочка« (эквивалентно красная /+1 шапочка)  + - обязательное наличие слова в найденном документе - +быть или +не быть  ~~ или - не должно быть слова в пределах документа (И НЕ) - путеводитель по Парижу ~~ (агентство | тур)  ~ - не должно быть слова в пределах предложения (И НЕ) - банки ~ закон  ! - искать только указанную форму слова - !Путин  пробел или & - логическое И (в пределах предложения) - фабрика звезд && логическое И (в пределах документа) музыка && (фабрика звезд)  | - логическое ИЛИ - рисунок | картинка | фото | коллаж  /(n m) - расстояние между словами (-назад +вперед) - поставщики /2 кофе , музыкальное /(-2 4) образование, вакансии ~ /+1 студентов  &&/(n m) - расстояние в предложениях (-назад +вперед) - банк && /1 налоги  ( ) - группировка слов - (технология | изготовление) (сыра | творога)
  • 32. Основные положения языка запросов: Если ключевые слова являются устойчивым словосочетанием или единой фразой, то заключите их в кавычки. Если слова не объединены кавычками, то каждое слово будет само по себе и перед каждым их них можно поставить знак плюс «+», если слово обязательно должно быть в найденных документах, минус «-», если слово не должно быть в найденных документах (пробел ставится перед знаком, но не после). Если перед словом поставить знак ~ (тильда), то этого слова не должно быть в пределах предложения в совокупности с рядом стоящим в запросе словом. Примечание: по умолчанию будут найдены и те документы, которые удовлетворяют хотя бы одному из ключевых слов. Такие ссылки будут иметь низкую релевантность и будут находиться в конце результатов запроса. Независимо от того, в какой форме вы употребили слово в запросе, Яндекс учитывает все формы этого слова по правилам русского языка. Чтобы этого не происходило, поставьте знак восклицания перед неизменяемым словом.
  • 33. Все слова, написанные через пробел или знак & (логическое И) должны одновременно находиться в найденных документах в пределах предложения. Все слова, написанные через && должны одновременно находиться в найденных документах, но расстояние между ними не оговаривается. Слова, написанные через символ | (логическое ИЛИ) являются заменяющими друг друга (синонимами), и будут найдены документы, удовлетворяющие хотя бы одному из этих слов.
  • 34. Можно указать расстояние между словами. Если пронумеровать слова в предложении, то расстояние между словами – это разность номеров слов. Например, если между двумя словами может находиться только одно слово, то расстояние между ними равно 2 (3 минус 1). Число указывается после знака /, например региональный /2 центр. В этом случае будут найдены документы, в которых эти слова находятся либо вместе, либо между ними есть еще одно слово. Запись /2 эквивалентна записи /(-2 +2), в такой форме можно указать максимальное и минимальное количество слов, например, от 3 до 5 записывается /(3 5). Минус и плюс указывают на порядок слов: минус – обратный порядок. Если перед символом / указать &&, то расстояние будет вычисляться в предложениях. Для группировки отдельных частей запроса используйте круглые скобки.
  • 35. Оценка эффективности наиболее популярных поисковых систем  "Яндекс" - поисковая система по русскому интернету Учёт русской морфологии. Подсветка найденных документов, показ контекстов. Параллельный поиск в "Энциклопедиях", "Новостях", "Маркете". Структурирование поиска по разделам каталога и серверам. www.yandex.ru - Цитируемость: 39000 Регион: Россия  "Апорт" - поисковая система Учёт русской морфологии. Выделение контекстов найденных слов. Уточнение поиска по разделам каталога и серверам. Поиск с переводом запроса на английский язык и наоборот. www.aport.ru - Цитируемость: 20000  Регион: Россия
  • 36.  "Рамблер" - информационно-поисковая система Первая российская поисковая система. Имеет возможность учета морфологии русского языка. www.rambler.ru - Цитируемость: 16000 Регион: Россия  "Google" - поисковая система Система поиска информации в сети интернет (включая русскоязычный интернет). Возможность поиска картинок и новостей в конференциях Usenet.  www.google.ru - Цитируемость: 11000  "Yahoo!" - поисковая система Возможен поиск на русском языке. www.yahoo.com - Цитируемость: 5300
  • 37. Поиск программного обеспечения Удобно искать нужную программу на специальных сайтах, называемых каталогами программ. На данный момент в Интернете существует великое множество каталогов программ. Довольно большую популярность среди российских пользователей снискали СОФТ@Mail.Ru ( http://soft.mail.ru/ ), Freeware ( http://freeware.ru/ ) и Softodrom ( http://www.softodrom.ru/ ). Из зарубежных каталогов программного обеспечения следует отметить Download.com (http://www.download.com/ ) и Tucows Downloads ( http://www.tucows.com/ ).
  • 38. Система поиска FTP файлов (FTP Search) Система поиска FTP-файлов – это особый тип средств поиска в Internet, который позволяет находить файлы, доступные на «анонимных» FTP-серверах. Протокол FTP предназначен для передачи по сети файлов, и в этом смысле он функционально является своеобразным аналогом Gopher.
  • 39. Основным критерием поиска является название файла, задаваемое разными способами (точное соответствие, подстрока, регулярное выражение и т.д.). Данный тип поиска, конечно же, не может соперничать по возможностям с поисковыми машинами, так как содержимое файлов никак не учитывается при поиске, а файлам, как известно, можно давать произвольные имена. Тем не менее, если Вам требуется найти какую-нибудь известную программу или описание стандарта, то с большой долей вероятности файл, его содержащий, будет иметь соответствующее имя, и Вы сможете найти его при помощи одного из серверов FTP Search: FileSearch ищет файлы на FTP-серверах по именам самих файлов и каталогов. Если Вы ищете какую-либо программу или еще что-то, то на WWW-серверах Вы скорее найдете их описание, а с FTP-серверов Вы сможете перекачать их к себе.
  • 40. Системы поиска людей Системы поиска людей – это специальные сервера, которые позволяют осуществлять поиск людей в Интернет, пользователь может указать Ф.И.О. человека и получить его адрес электронной почты и URL-адрес. Однако, следует отметить, что системы поиска людей, в основном, берут информацию об электронных адресах из открытых источников, таких как конференции Usenet. Среди самых известных систем поиска людей можно выделить: WhoWhere? - поиск адресов e-mail в специальные графы поиска контактные данные (First Name. City, Last Name, Phone number), Вы можете найти интересующую Вас информацию. Системы поиска людей - это действительно большие сервера, их базы данных содержат порядка 6 000 000 адресов.
  • 41. Система поиска организаций При розыске организаций, название которых состоит из одного слова или укладывается в односложную аббревиатуру, разумно использовать поиск Web-страниц, в URL (сетевой адрес) которых входит данный термин, поскольку, как известно, односложное название компании, обычно присутствует в доменном имени сервера или названии каталога на нем. В этом случае нужна поисковая машина, поддерживающая поиск по URL, такая как AltaVista (http://altavista.digital.com) или Рамблер (http://rambler.ru). Если название компании двусложное целесообразно искать в поисковых системах те страницы, где это название входит в заголовок (title). В URL такое название тоже может звучать, часто как простое слияние двух слов, слияние слов со вставкой дефиса между ними или слияние с урезанием конечных частей одного из входящих в название слов или обоих. Достаточно эффективным может быть поиск в локальных базах данных отдельных газет и журналов, но обслуживание такой информацией все чаще становится платным.
  • 42. Файлообменные сети Файлообменная сеть — собирательное название одноранговых компьютерных сетей для совместного использования файлов, основанных на равноправии участвующих в обмене файлами, то есть каждый участник одновременно является и клиентом, и сервером. Принципы работы  Основные принципы работы файлообмена заключаются в следующем:  пользователь скачивает программу себе на компьютер;  разрешает доступ другим пользователям к некоторой части своих ресурсов (этот процесс называется «расшариванием» англ. sharing);  в каждой такой программе присутствует поиск, который ищет ресурсы, выложенные на компьютерах других пользователей для свободного скачивания.
  • 43. Любой пользователь, используя поиск, может найти на компьютере любого другого пользователя те ресурсы, которые тот выложил в свободный доступ, и бесплатно скачать их. А так, как количество пользователей таких файлообменных программ исчисляется сотнями тысяч, а иногда даже миллионами, пользователь скорее всего найдет нужный ему файл.
  • 44. Тематические поисковые системы по науке, культуре и искусству Тематические поисковые системы по науке:  http://bukinist.agava.ru Поисковая система "Букинист" предназначена для поиска книг и других электронных текстов, имеющихся в свободном доступе в Интернет.  http://www.scirus.com/srsapp  http://www.scholar.ru - Поиск научных публикаций на русском языке  http://www.allreferats.narod.ru - Поиск рефератов  http://www.referat.ru - Поиск рефератов  http://www.dialogus.ru - Автоматический поиск прямых ответов на вопросы пользователей  http://megalib.com - Поиск в электронных учебниках, журналах, исходниках и даже софте
  • 45. Тематические поисковые системы по культуре и искусству:  http://www.culturefinder.com/ - Aнглоязычная информационная база данных в области культуры;  http://infomine.ucr.edu/search/artssearch.pht ml - База данных по различным видам искусства
  • 46. СПАСИБО ЗА ВНИМАНИЕ!
  • 47. Выполнила: Студентка 508 группы ФКиСКД Покладок Инна