SlideShare a Scribd company logo
1 of 43
Пошук інформації в
інтернет
Крива росту числа сайтів
2006 рік http://news.netcraft.com
В пошуковій системі Яндекс
проіндексовано:
сайтів: 2 832 533,
web-сторінок: 1 058 914 756,
обсяг проіндексованої інформації:
24 778 ГБ.
Виникає проблема:
Надлишок інформації
В США розповсюдився «синдром
інформаційної втоми».
За даними досліджень Reuters 38%
менеджерів «витрачають багато
часу на пошук потрібної
інформації».
Що необхідно для ефективного
пошуку інформації?
Уявлення про структуру інтернета.
Уявлення про способи і методи пошуку
інформації в інтернеті.
Вміння сформулювати запит и обрати
відповідь з результатів пошуку.
Структура
інформаційного
простору інтернета
Завдяки кому в
інтернеті
виникає
інформація?
Як шукати,
враховуючи
ці знання?
Як вона
розташована
в інтернеті?
Джерела інформації
Розглянемо основні джерела
інформації інтернета
Особова увага приділяється таким
критеріям:
тематика,
оперативність,
достовірність.
Джерела інформації
#1 Компании та організації
(юридичні особи), які створюють
власні сайти в інтернеті.
Тематика, достовірність та
оперативність широко змінюються
Джерела інформації
#2 Звичайні громадяни (фізичні
особи)
Найчастіше сайти присвячені
захопленню власника
Достовірність і оперативність – на
сумлінні автора
Джерела інформації
#2 Вони ж виступають як учасники
форумів, конференцій, блогів
Тематика – різноманітна
Оперативність – достатньо висока
Достовірність – на сумлінні авторів
Джерела інформації
#3 Журналісти та редактори ЗМІ
та інформагентств
Тематика –різноманітна
Оперативність –висока
Об’єктивність інформації залежить
від редакції ЗМІ
Джерела інформації
#4 Співробітники інформаційних
та консалтингових компаній, що
створюють спеціалізовані бази даних
Тематика –різноманітна
Оперативність та об’єктивність –
высока
Схема інформаційних потоків
Сайти компаній
Особисті сайти
Форуми, блоги
Інформ. агентства
ЗМІ
Компанії та організації
Звичайні користувачі
Журналісти
Редактори
Бази данихІнформаційні
компанії
Схема інформаційних потоків
Сайти компаній
Особисті сайти
Форуми, блоги
Інформ. агентства
ЗМІ
Пошукові
системи
Спеціалізовані
бази данихІнформаційні
компанії
Парадокс інтернета:
Корисної інформації стає все більше,
а знайти щось необхідне – все
складніше.
Модель
web-простору
Для ефективного пошуку в
інтернеті
необхідно враховувати архітектуру
всього інформаційного простору
інтернета.
Гіперпосилання можуть стати
основою для побудови моделі web-
простору.
Модель web-простору
Вперше створена в 1999 році в
Інституті пошуку та аналіза текстів
(США).
Модель спростувала уявлення про
інтернет як про єдиний густий
простір.
Модель web-простору
Дослідивши за допомогою
пошукового механізму 200 млн. web-
сторінок та декілька міліардів
посилань вчені прийшли до висновку
про неоднорідну структуру інтернету
та створили топологічну модель,
близьку до моделі Bow Tie (краватка-
метелик)
Модель web-простору
«Вихідні»
web-сторінки
IN
22%
«Кінцеві»
web-сторінки
OUT
22%
Центральне ядро
SCC
28% web-сторінок
«Відростки»
«Перешийки» «Острови»
Центральне ядро – 28% web-сторінок
Компоненти сильної зв'язності (SCC -
The strong components connectivity).
Сюди відносяться web-сторінки,
пов’язані так, що, за
гіперпосиланнями, з будь-якої з них
можна потрапити на будь-яку іншу.
«Вихідні» web-сторінки - 22%
Web-сторінки, що містять
гіперпосилання, які ведуть до ядра.
АЛЕ! З ядра за гіперспосиланнями на
них потрапити не можна!
«Кінцеві» web-сторінки – 22%
До цих web-сторінок можна прийти за
посиланнями з ядра.
АЛЕ! Повернутися за гіперпосиланнями
назад до ядра з цих сторінок не
можливо!
«Відростки» - 22%
Web-сторінки, що повністю ізольовані
від центрального ядра.
Це або «відростки», пов’язані в
односторонньому порядку зі
сторінками іншої категорії.
Або «перешийки», що з’єднують web-
сторінки, які не входять до ядра.
«Острови» - около 10%
Web-сторінки, які взагалі не
перетинаються з рештою ресурсів
інтернет.
Єдиний спосіб знайти ці сторінки –
знати їх адресу.
Ніякі пошукові машини не можуть
знайти «острови», якщо на них не
ведуть гіперпосилання.
Пропорції моделі
Вчені встановили, що пропорції
чотирьох основних категорій web-
сторінок з плином часу лишаються
незмінними, незважаючи на значне
збільшення загального обсягу web-
ресурсів.
Інтернет – це фрактал
Топологія та характеристики моделі
Bow Tie виявилися приблизно
однаковими і для різних підмножин
web-простору!
Це дозволило зробити висновок про
те, що інтернет простір має
властивості фракталу.
(лат. fractus — подрібнений, дробовий) —
нерегулярна, самоподібна структура. В широкому розумінні
фрактал означає фігуру, малі частини якої в довільному
збільшенні є подібними до неї самої.
Зв'язок між ресурсами інтернет
Експеримент виявив складну картину:
значна частина web-простору
відокремлена від інших великих
частин.
З великою ймовірністю випадково
вибрані web-сторінки виявляться ніяк
не пов'язаними.
Зв'язок між web-сторінками
У випадку, якщо між сторінками існує
односторонній шлях, то середня
кількість кліків для переходу між ними
- 16
16
Зв'язок між web-сторінками
Якщо шлях між web-сторінками
двосторонній, то кількість кліків
скоротиться до 7
7
Прихований Web
«Острови» - прихований Web
Недолік моделі Bow Tie - недооцінка
розмірів «островів», тобто web-
сторінок, «не видимих» пошуковими
системами.
За оцінкою компанії BrightPlanet
число прихованих ресурсів в
інтернеті в сотні разів більше, ніж
доступних через пошукові системи!
Прихований Web
У 1994 web-ресурси, недоступні
пошуковим системам, отримали
назву deep Web або «прихований
Web».
Інша назва цих ресурсів – invisible
(«невидимий») Web
Прихований Web
Які це web-ресурси?
Сторінки, що динамічно генеруються
Інформація з баз даних
Файли нерозпізнаних форматів
Системи інтерактивної взаємодії з
користувачем
Платні сайти, захищені паролеми
Інше
Платні сайти
Сайти, захищені паролем і беруть
плату за доступ, за деякими оцінками,
складають всього 10% прихованого
Web.
Про матеріали цих сайтів користувачі
нічого не зможуть дізнатися за
допомогою пошукових систем
Найбільші бази даних
Одними з найбільших відомих
ресурсів «прихованого» Web є бази
даних служб Dialog та LexisNexis.
Dialog www.dialog.com
Створена в 1965 году.
Dialog містить 900 баз даних, доступних
700 тыс. користувачів, які тільки за одну
годину прочитують більш ніж 17 млн.
документів!
Послугами Dialog користуються в більш
ніж 100 країнах
LexisNexis www.lexisnexis.com
Заснована в 1973 році.
Надає користувачам юридичну,
політичну, комерційну, новинну та ін.
інформацію.
У першу чергу база даних
призначена для юристів.
LexisNexis www.lexisnexis.com
Служба охоплює 35 000 джерел інформації
4,6 млрд. документів с глибиною
ретроспективи 200 років.
В базе міститься досьє більш ніж на 300
млн. чоловік!
Стверджується, що система накопичує
тільки перевірені документи.
Як шукати в «прихованому» Web?
Найбільший каталог прихованих
ресурсів – www.completeplanet.com.
Він містить більш ніж 100 тис.
посилань
Інші відомі каталоги –
www.bighub.com
www.invisible-web.net
Як шукати в «прихованому» Web?
Найбільша пошукова система для
прихованих ресурсів– SurfWax
www.surfwax.com
Переважна більшість баз даних,
доступних в SurfWax відносяться до
прихованого Web.
Особливість: SurfWax – платна
система
Таким чином,
Ми розглянули уявлення дослідників про
структуру інтернет,
проаналізували джерела інформації
інтернет,
вивчили модель web-простору,
описали сутність «прихованого» web та
можливості пошуку прихованих ресурсів

More Related Content

Similar to Пошук інформації в Інтернет

Web2 3 demkova
Web2 3 demkovaWeb2 3 demkova
Web2 3 demkovainstitut
 
Пошукові машини та пошук інформації
Пошукові машини та пошук інформаціїПошукові машини та пошук інформації
Пошукові машини та пошук інформаціїYevhen Vasylenko
 
автоматизоване створення сайтів урок 2 11 клас
автоматизоване створення сайтів урок 2 11 класавтоматизоване створення сайтів урок 2 11 клас
автоматизоване створення сайтів урок 2 11 класHelen Pata
 
СЕРВІСИ WEB 2.0
СЕРВІСИ  WEB 2.0 СЕРВІСИ  WEB 2.0
СЕРВІСИ WEB 2.0 russoua
 
3 komunkaciya v onlaini v_moroz
3  komunkaciya v onlaini v_moroz3  komunkaciya v onlaini v_moroz
3 komunkaciya v onlaini v_morozInternews Ukraine
 
9 клас . основи інтернету
9 клас . основи інтернету9 клас . основи інтернету
9 клас . основи інтернетуNataKvasha
 
Internet i vozmognosti
Internet i vozmognostiInternet i vozmognosti
Internet i vozmognostivyglinska
 
Автомат розроб сайтів_огляд_web2
Автомат розроб сайтів_огляд_web2Автомат розроб сайтів_огляд_web2
Автомат розроб сайтів_огляд_web2Ирина Слуцкая
 
Назаревич О.Б. (2010-11-18) ВИКОРИСТАННЯ WIKI-ТЕХНОЛОГІЙ У НАУКОВО-ОСВІТНЬОМУ...
Назаревич О.Б. (2010-11-18) ВИКОРИСТАННЯ WIKI-ТЕХНОЛОГІЙ У НАУКОВО-ОСВІТНЬОМУ...Назаревич О.Б. (2010-11-18) ВИКОРИСТАННЯ WIKI-ТЕХНОЛОГІЙ У НАУКОВО-ОСВІТНЬОМУ...
Назаревич О.Б. (2010-11-18) ВИКОРИСТАННЯ WIKI-ТЕХНОЛОГІЙ У НАУКОВО-ОСВІТНЬОМУ...Oleg Nazarevych
 
конспект
конспект конспект
конспект TANYA1512
 
принципи веб аналітики
принципи веб аналітикипринципи веб аналітики
принципи веб аналітикиMax Zalevski
 
Glavcheva information filter_2017
Glavcheva information filter_2017Glavcheva information filter_2017
Glavcheva information filter_2017Julia Glavcheva
 
Social Media in Ukraine: from Geek Paradise to a Business Tool
Social Media in Ukraine: from Geek Paradise to a Business ToolSocial Media in Ukraine: from Geek Paradise to a Business Tool
Social Media in Ukraine: from Geek Paradise to a Business ToolYaryna Klyuchkovska
 
Як ІТ може підвищити ефективність НУО
Як ІТ може підвищити ефективність НУОЯк ІТ може підвищити ефективність НУО
Як ІТ може підвищити ефективність НУОГромадський Сектор
 

Similar to Пошук інформації в Інтернет (18)

Web 2 0
Web 2 0Web 2 0
Web 2 0
 
Web2 3 demkova
Web2 3 demkovaWeb2 3 demkova
Web2 3 demkova
 
Пошукові машини та пошук інформації
Пошукові машини та пошук інформаціїПошукові машини та пошук інформації
Пошукові машини та пошук інформації
 
автоматизоване створення сайтів урок 2 11 клас
автоматизоване створення сайтів урок 2 11 класавтоматизоване створення сайтів урок 2 11 клас
автоматизоване створення сайтів урок 2 11 клас
 
СЕРВІСИ WEB 2.0
СЕРВІСИ  WEB 2.0 СЕРВІСИ  WEB 2.0
СЕРВІСИ WEB 2.0
 
3 komunkaciya v onlaini v_moroz
3  komunkaciya v onlaini v_moroz3  komunkaciya v onlaini v_moroz
3 komunkaciya v onlaini v_moroz
 
9 клас . основи інтернету
9 клас . основи інтернету9 клас . основи інтернету
9 клас . основи інтернету
 
Internet i vozmognosti
Internet i vozmognostiInternet i vozmognosti
Internet i vozmognosti
 
Автомат розроб сайтів_огляд_web2
Автомат розроб сайтів_огляд_web2Автомат розроб сайтів_огляд_web2
Автомат розроб сайтів_огляд_web2
 
Назаревич О.Б. (2010-11-18) ВИКОРИСТАННЯ WIKI-ТЕХНОЛОГІЙ У НАУКОВО-ОСВІТНЬОМУ...
Назаревич О.Б. (2010-11-18) ВИКОРИСТАННЯ WIKI-ТЕХНОЛОГІЙ У НАУКОВО-ОСВІТНЬОМУ...Назаревич О.Б. (2010-11-18) ВИКОРИСТАННЯ WIKI-ТЕХНОЛОГІЙ У НАУКОВО-ОСВІТНЬОМУ...
Назаревич О.Б. (2010-11-18) ВИКОРИСТАННЯ WIKI-ТЕХНОЛОГІЙ У НАУКОВО-ОСВІТНЬОМУ...
 
Web 2.0
Web 2.0Web 2.0
Web 2.0
 
конспект
конспект конспект
конспект
 
30
3030
30
 
принципи веб аналітики
принципи веб аналітикипринципи веб аналітики
принципи веб аналітики
 
Glavcheva information filter_2017
Glavcheva information filter_2017Glavcheva information filter_2017
Glavcheva information filter_2017
 
Social Media in Ukraine: from Geek Paradise to a Business Tool
Social Media in Ukraine: from Geek Paradise to a Business ToolSocial Media in Ukraine: from Geek Paradise to a Business Tool
Social Media in Ukraine: from Geek Paradise to a Business Tool
 
розділ 2.4 8 кл
розділ 2.4  8 клрозділ 2.4  8 кл
розділ 2.4 8 кл
 
Як ІТ може підвищити ефективність НУО
Як ІТ може підвищити ефективність НУОЯк ІТ може підвищити ефективність НУО
Як ІТ може підвищити ефективність НУО
 

Пошук інформації в Інтернет

  • 2. Крива росту числа сайтів 2006 рік http://news.netcraft.com
  • 3. В пошуковій системі Яндекс проіндексовано: сайтів: 2 832 533, web-сторінок: 1 058 914 756, обсяг проіндексованої інформації: 24 778 ГБ.
  • 4. Виникає проблема: Надлишок інформації В США розповсюдився «синдром інформаційної втоми». За даними досліджень Reuters 38% менеджерів «витрачають багато часу на пошук потрібної інформації».
  • 5. Що необхідно для ефективного пошуку інформації? Уявлення про структуру інтернета. Уявлення про способи і методи пошуку інформації в інтернеті. Вміння сформулювати запит и обрати відповідь з результатів пошуку.
  • 7. Завдяки кому в інтернеті виникає інформація? Як шукати, враховуючи ці знання? Як вона розташована в інтернеті?
  • 8. Джерела інформації Розглянемо основні джерела інформації інтернета Особова увага приділяється таким критеріям: тематика, оперативність, достовірність.
  • 9. Джерела інформації #1 Компании та організації (юридичні особи), які створюють власні сайти в інтернеті. Тематика, достовірність та оперативність широко змінюються
  • 10. Джерела інформації #2 Звичайні громадяни (фізичні особи) Найчастіше сайти присвячені захопленню власника Достовірність і оперативність – на сумлінні автора
  • 11. Джерела інформації #2 Вони ж виступають як учасники форумів, конференцій, блогів Тематика – різноманітна Оперативність – достатньо висока Достовірність – на сумлінні авторів
  • 12. Джерела інформації #3 Журналісти та редактори ЗМІ та інформагентств Тематика –різноманітна Оперативність –висока Об’єктивність інформації залежить від редакції ЗМІ
  • 13. Джерела інформації #4 Співробітники інформаційних та консалтингових компаній, що створюють спеціалізовані бази даних Тематика –різноманітна Оперативність та об’єктивність – высока
  • 14. Схема інформаційних потоків Сайти компаній Особисті сайти Форуми, блоги Інформ. агентства ЗМІ Компанії та організації Звичайні користувачі Журналісти Редактори Бази данихІнформаційні компанії
  • 15. Схема інформаційних потоків Сайти компаній Особисті сайти Форуми, блоги Інформ. агентства ЗМІ Пошукові системи Спеціалізовані бази данихІнформаційні компанії
  • 16. Парадокс інтернета: Корисної інформації стає все більше, а знайти щось необхідне – все складніше.
  • 18. Для ефективного пошуку в інтернеті необхідно враховувати архітектуру всього інформаційного простору інтернета. Гіперпосилання можуть стати основою для побудови моделі web- простору.
  • 19. Модель web-простору Вперше створена в 1999 році в Інституті пошуку та аналіза текстів (США). Модель спростувала уявлення про інтернет як про єдиний густий простір.
  • 20. Модель web-простору Дослідивши за допомогою пошукового механізму 200 млн. web- сторінок та декілька міліардів посилань вчені прийшли до висновку про неоднорідну структуру інтернету та створили топологічну модель, близьку до моделі Bow Tie (краватка- метелик)
  • 22. Центральне ядро – 28% web-сторінок Компоненти сильної зв'язності (SCC - The strong components connectivity). Сюди відносяться web-сторінки, пов’язані так, що, за гіперпосиланнями, з будь-якої з них можна потрапити на будь-яку іншу.
  • 23. «Вихідні» web-сторінки - 22% Web-сторінки, що містять гіперпосилання, які ведуть до ядра. АЛЕ! З ядра за гіперспосиланнями на них потрапити не можна!
  • 24. «Кінцеві» web-сторінки – 22% До цих web-сторінок можна прийти за посиланнями з ядра. АЛЕ! Повернутися за гіперпосиланнями назад до ядра з цих сторінок не можливо!
  • 25. «Відростки» - 22% Web-сторінки, що повністю ізольовані від центрального ядра. Це або «відростки», пов’язані в односторонньому порядку зі сторінками іншої категорії. Або «перешийки», що з’єднують web- сторінки, які не входять до ядра.
  • 26. «Острови» - около 10% Web-сторінки, які взагалі не перетинаються з рештою ресурсів інтернет. Єдиний спосіб знайти ці сторінки – знати їх адресу. Ніякі пошукові машини не можуть знайти «острови», якщо на них не ведуть гіперпосилання.
  • 27. Пропорції моделі Вчені встановили, що пропорції чотирьох основних категорій web- сторінок з плином часу лишаються незмінними, незважаючи на значне збільшення загального обсягу web- ресурсів.
  • 28. Інтернет – це фрактал Топологія та характеристики моделі Bow Tie виявилися приблизно однаковими і для різних підмножин web-простору! Це дозволило зробити висновок про те, що інтернет простір має властивості фракталу. (лат. fractus — подрібнений, дробовий) — нерегулярна, самоподібна структура. В широкому розумінні фрактал означає фігуру, малі частини якої в довільному збільшенні є подібними до неї самої.
  • 29. Зв'язок між ресурсами інтернет Експеримент виявив складну картину: значна частина web-простору відокремлена від інших великих частин. З великою ймовірністю випадково вибрані web-сторінки виявляться ніяк не пов'язаними.
  • 30. Зв'язок між web-сторінками У випадку, якщо між сторінками існує односторонній шлях, то середня кількість кліків для переходу між ними - 16 16
  • 31. Зв'язок між web-сторінками Якщо шлях між web-сторінками двосторонній, то кількість кліків скоротиться до 7 7
  • 33. «Острови» - прихований Web Недолік моделі Bow Tie - недооцінка розмірів «островів», тобто web- сторінок, «не видимих» пошуковими системами. За оцінкою компанії BrightPlanet число прихованих ресурсів в інтернеті в сотні разів більше, ніж доступних через пошукові системи!
  • 34. Прихований Web У 1994 web-ресурси, недоступні пошуковим системам, отримали назву deep Web або «прихований Web». Інша назва цих ресурсів – invisible («невидимий») Web
  • 35. Прихований Web Які це web-ресурси? Сторінки, що динамічно генеруються Інформація з баз даних Файли нерозпізнаних форматів Системи інтерактивної взаємодії з користувачем Платні сайти, захищені паролеми Інше
  • 36. Платні сайти Сайти, захищені паролем і беруть плату за доступ, за деякими оцінками, складають всього 10% прихованого Web. Про матеріали цих сайтів користувачі нічого не зможуть дізнатися за допомогою пошукових систем
  • 37. Найбільші бази даних Одними з найбільших відомих ресурсів «прихованого» Web є бази даних служб Dialog та LexisNexis.
  • 38. Dialog www.dialog.com Створена в 1965 году. Dialog містить 900 баз даних, доступних 700 тыс. користувачів, які тільки за одну годину прочитують більш ніж 17 млн. документів! Послугами Dialog користуються в більш ніж 100 країнах
  • 39. LexisNexis www.lexisnexis.com Заснована в 1973 році. Надає користувачам юридичну, політичну, комерційну, новинну та ін. інформацію. У першу чергу база даних призначена для юристів.
  • 40. LexisNexis www.lexisnexis.com Служба охоплює 35 000 джерел інформації 4,6 млрд. документів с глибиною ретроспективи 200 років. В базе міститься досьє більш ніж на 300 млн. чоловік! Стверджується, що система накопичує тільки перевірені документи.
  • 41. Як шукати в «прихованому» Web? Найбільший каталог прихованих ресурсів – www.completeplanet.com. Він містить більш ніж 100 тис. посилань Інші відомі каталоги – www.bighub.com www.invisible-web.net
  • 42. Як шукати в «прихованому» Web? Найбільша пошукова система для прихованих ресурсів– SurfWax www.surfwax.com Переважна більшість баз даних, доступних в SurfWax відносяться до прихованого Web. Особливість: SurfWax – платна система
  • 43. Таким чином, Ми розглянули уявлення дослідників про структуру інтернет, проаналізували джерела інформації інтернет, вивчили модель web-простору, описали сутність «прихованого» web та можливості пошуку прихованих ресурсів