Пошук інформації в Інтернет

Пошук інформації в
інтернет

Крива росту числа сайтів
2006 рік http://news.netcraft.com

В пошуковій системі Яндекс
проіндексовано:
сайтів: 2 832 533,
web-сторінок: 1 058 914 756,
обсяг проіндексованої інформації:
24 778 ГБ.

Виникає проблема:
Надлишок інформації
В США розповсюдився «синдром
інформаційної втоми».
За даними досліджень Reuters 38%
менеджерів «витрачають багато
часу на пошук потрібної
інформації».

Що необхідно для ефективного
пошуку інформації?
Уявлення про структуру інтернета.
Уявлення про способи і методи пошуку
інформації в інтернеті.
Вміння сформулювати запит и обрати
відповідь з результатів пошуку.

Структура
інформаційного
простору інтернета

Завдяки кому в
інтернеті
виникає
інформація?
Як шукати,
враховуючи
ці знання?
Як вона
розташована
в інтернеті?

Джерела інформації
Розглянемо основні джерела
інформації інтернета
Особова увага приділяється таким
критеріям:
тематика,
оперативність,
достовірність.

#1 Компании та організації
(юридичні особи), які створюють
власні сайти в інтернеті.
Тематика, достовірність та
оперативність широко змінюються

#2 Звичайні громадяни (фізичні
особи)
Найчастіше сайти присвячені
захопленню власника
Достовірність і оперативність – на
сумлінні автора

#2 Вони ж виступають як учасники
форумів, конференцій, блогів
Тематика – різноманітна
Оперативність – достатньо висока
Достовірність – на сумлінні авторів

#3 Журналісти та редактори ЗМІ
та інформагентств
Тематика –різноманітна
Оперативність –висока
Об’єктивність інформації залежить
від редакції ЗМІ

#4 Співробітники інформаційних
та консалтингових компаній, що
створюють спеціалізовані бази даних
Тематика –різноманітна
Оперативність та об’єктивність –
высока

Схема інформаційних потоків
Сайти компаній
Особисті сайти
Форуми, блоги
Інформ. агентства
ЗМІ
Компанії та організації
Звичайні користувачі
Журналісти
Редактори
Бази данихІнформаційні
компанії

Схема інформаційних потоків
Сайти компаній
Особисті сайти
Форуми, блоги
Інформ. агентства
ЗМІ
Пошукові
системи
Спеціалізовані
бази данихІнформаційні
компанії

Парадокс інтернета:
Корисної інформації стає все більше,
а знайти щось необхідне – все
складніше.

Модель
web-простору

Для ефективного пошуку в
інтернеті
необхідно враховувати архітектуру
всього інформаційного простору
інтернета.
Гіперпосилання можуть стати
основою для побудови моделі web-
простору.

Модель web-простору
Вперше створена в 1999 році в
Інституті пошуку та аналіза текстів
(США).
Модель спростувала уявлення про
інтернет як про єдиний густий
простір.

Дослідивши за допомогою
пошукового механізму 200 млн. web-
сторінок та декілька міліардів
посилань вчені прийшли до висновку
про неоднорідну структуру інтернету
та створили топологічну модель,
близьку до моделі Bow Tie (краватка-
метелик)

«Вихідні»
web-сторінки
IN
22%
«Кінцеві»
web-сторінки
OUT
22%
Центральне ядро
SCC
28% web-сторінок
«Відростки»
«Перешийки» «Острови»

Центральне ядро – 28% web-сторінок
Компоненти сильної зв'язності (SCC -
The strong components connectivity).
Сюди відносяться web-сторінки,
пов’язані так, що, за
гіперпосиланнями, з будь-якої з них
можна потрапити на будь-яку іншу.

«Вихідні» web-сторінки - 22%
Web-сторінки, що містять
гіперпосилання, які ведуть до ядра.
АЛЕ! З ядра за гіперспосиланнями на
них потрапити не можна!

«Кінцеві» web-сторінки – 22%
До цих web-сторінок можна прийти за
посиланнями з ядра.
АЛЕ! Повернутися за гіперпосиланнями
назад до ядра з цих сторінок не
можливо!

«Відростки» - 22%
Web-сторінки, що повністю ізольовані
від центрального ядра.
Це або «відростки», пов’язані в
односторонньому порядку зі
сторінками іншої категорії.
Або «перешийки», що з’єднують web-
сторінки, які не входять до ядра.

«Острови» - около 10%
Web-сторінки, які взагалі не
перетинаються з рештою ресурсів
інтернет.
Єдиний спосіб знайти ці сторінки –
знати їх адресу.
Ніякі пошукові машини не можуть
знайти «острови», якщо на них не
ведуть гіперпосилання.

Пропорції моделі
Вчені встановили, що пропорції
чотирьох основних категорій web-
сторінок з плином часу лишаються
незмінними, незважаючи на значне
збільшення загального обсягу web-
ресурсів.

Інтернет – це фрактал
Топологія та характеристики моделі
Bow Tie виявилися приблизно
однаковими і для різних підмножин
web-простору!
Це дозволило зробити висновок про
те, що інтернет простір має
властивості фракталу.
(лат. fractus — подрібнений, дробовий) —
нерегулярна, самоподібна структура. В широкому розумінні
фрактал означає фігуру, малі частини якої в довільному
збільшенні є подібними до неї самої.

Зв'язок між ресурсами інтернет
Експеримент виявив складну картину:
значна частина web-простору
відокремлена від інших великих
частин.
З великою ймовірністю випадково
вибрані web-сторінки виявляться ніяк
не пов'язаними.

Зв'язок між web-сторінками
У випадку, якщо між сторінками існує
односторонній шлях, то середня
кількість кліків для переходу між ними
- 16
16

Зв'язок між web-сторінками
Якщо шлях між web-сторінками
двосторонній, то кількість кліків
скоротиться до 7
7

«Острови» - прихований Web
Недолік моделі Bow Tie - недооцінка
розмірів «островів», тобто web-
сторінок, «не видимих» пошуковими
системами.
За оцінкою компанії BrightPlanet
число прихованих ресурсів в
інтернеті в сотні разів більше, ніж
доступних через пошукові системи!

Прихований Web
У 1994 web-ресурси, недоступні
пошуковим системам, отримали
назву deep Web або «прихований
Web».
Інша назва цих ресурсів – invisible
(«невидимий») Web

Прихований Web
Які це web-ресурси?
Сторінки, що динамічно генеруються
Інформація з баз даних
Файли нерозпізнаних форматів
Системи інтерактивної взаємодії з
користувачем
Платні сайти, захищені паролеми
Інше

Платні сайти
Сайти, захищені паролем і беруть
плату за доступ, за деякими оцінками,
складають всього 10% прихованого
Web.
Про матеріали цих сайтів користувачі
нічого не зможуть дізнатися за
допомогою пошукових систем

Найбільші бази даних
Одними з найбільших відомих
ресурсів «прихованого» Web є бази
даних служб Dialog та LexisNexis.

Dialog www.dialog.com
Створена в 1965 году.
Dialog містить 900 баз даних, доступних
700 тыс. користувачів, які тільки за одну
годину прочитують більш ніж 17 млн.
документів!
Послугами Dialog користуються в більш
ніж 100 країнах

LexisNexis www.lexisnexis.com
Заснована в 1973 році.
Надає користувачам юридичну,
політичну, комерційну, новинну та ін.
інформацію.
У першу чергу база даних
призначена для юристів.

LexisNexis www.lexisnexis.com
Служба охоплює 35 000 джерел інформації
4,6 млрд. документів с глибиною
ретроспективи 200 років.
В базе міститься досьє більш ніж на 300
млн. чоловік!
Стверджується, що система накопичує
тільки перевірені документи.

Як шукати в «прихованому» Web?
Найбільший каталог прихованих
ресурсів – www.completeplanet.com.
Він містить більш ніж 100 тис.
посилань
Інші відомі каталоги –
www.bighub.com
www.invisible-web.net

Як шукати в «прихованому» Web?
Найбільша пошукова система для
прихованих ресурсів– SurfWax
www.surfwax.com
Переважна більшість баз даних,
доступних в SurfWax відносяться до
прихованого Web.
Особливість: SurfWax – платна
система

Таким чином,
Ми розглянули уявлення дослідників про
структуру інтернет,
проаналізували джерела інформації
інтернет,
вивчили модель web-простору,
описали сутність «прихованого» web та
можливості пошуку прихованих ресурсів

Пошук інформації в Інтернет

Recommended

Recommended

More Related Content

Similar to Пошук інформації в Інтернет

Similar to Пошук інформації в Інтернет (18)

Пошук інформації в Інтернет