SlideShare a Scribd company logo
1 of 20
‫پورحسینی‬ ‫جواد‬
‫بهار‬95
1
•‫ساز‬ ‫نمایه‬!
•‫سازی‬ ‫نمایه‬‫ماشینی‬
•‫گوگل‬ ‫در‬ ‫سازی‬ ‫نمایه‬
•‫گوگل‬ ‫جستجوی‬ ‫موتور‬ ‫اجزاء‬
•‫شکار‬ ‫داستان‬ ‫و‬ ‫سازی‬ ‫نمایه‬
2
•‫تحلیل‬‫واژه‬ ‫تخصیص‬ ‫و‬ ‫سند‬
‫می‬ ‫فکر‬ ‫که‬ ‫موضوعی‬ ‫های‬‫کند‬
‫آن‬ ‫براساس‬ ‫کننده‬ ‫استفاده‬
‫واژه‬،‫ها‬‫جستجو‬‫کرد‬ ‫خواهد‬.
3
‫و‬ ‫سند‬ ‫یک‬ ِ‫محتوایی‬ ‫تحلیل‬
‫که‬ ‫گرهایی‬ ‫توصیف‬ ‫انتخاب‬
‫آن‬ ‫محتوای‬ ‫نماینده‬‫سند‬
‫رایانه‬ ‫توسط‬ ‫باشند‬‫با‬ ‫و‬
‫از‬ ‫های‬ ‫الگوریتم‬ ‫گیری‬ ‫بکار‬
‫شده‬ ‫تدوین‬ ‫پیش‬.
‫مزایا‬:
4
•‫سال‬ ‫از‬ ‫که‬ ‫جستجویی‬ ‫موتور‬
1998‫کرد‬ ‫بکار‬ ‫شروع‬.
•‫از‬ ‫داده‬ ‫پایگاه‬ ‫بزرگترین‬
‫نمایه‬ ‫های‬ ‫سایت‬ ‫وب‬‫سازی‬
‫شده‬(‫بینگ‬ ‫و‬ ‫یاهو‬ ‫دوبرابر‬)
5
•‫که‬ ‫صفحاتی‬ ‫تمام‬ ‫از‬ ‫لیستی‬
‫گوگل‬ ‫خزنده‬ ‫موتور‬(Crawler)
‫بررسی‬‫سرورهای‬ ‫در‬ ‫و‬ ‫کرده‬
‫کرده‬ ‫ذخیره‬ ‫خود‬.
•‫از‬ ‫بیش‬40‫وب‬ ‫صفحه‬ ‫میلیارد‬
‫شده‬ ‫سازی‬ ‫نمایه‬ ‫گوگل‬ ‫توسط‬
(‫بر‬ ‫بالغ‬ ‫حجمی‬ ‫با‬100
‫گیگابایت‬ ‫میلیون‬).
6
7
•Spider‫یا‬‫عنکبوت‬
•Crawler‫یا‬‫خزنده‬
•Indexer‫یا‬‫کننده‬ ‫بایگانی‬
•Database‫یا‬‫داده‬ ‫پایگاه‬
•Ranker‫یا‬‫بندی‬ ‫رتبه‬ ‫سیستم‬
8
Spider‫یا‬ ‫عنکبوت‬ ‫یا‬Robot
‫یا‬ ‫اسپایدر‬‫روبوت‬،‫نرم‬
‫آوری‬ ‫جمع‬ ‫کار‬ ‫که‬ ‫است‬ ‫افزاری‬
‫موتور‬ ‫یک‬ ‫نیاز‬ ‫مورد‬ ‫اطالعات‬
‫دارد‬ ‫عهده‬ ‫بر‬ ‫را‬ ‫جستجوگر‬
9
‫افزار‬ ‫نرم‬‫کراولر‬Crawler‫یا‬
‫خزنده‬
‫که‬ ‫است‬ ‫افزاری‬ ‫نرم‬ ،‫کراولر‬
‫برای‬ ‫فرمانده‬ ‫یک‬ ‫عنوان‬ ‫به‬
‫می‬ ‫عمل‬ ‫اسپایدر‬‫مشخص‬ ‫و‬ ‫کند‬
‫کدام‬ ‫اسپایدر‬ ‫که‬ ‫کند‬ ‫می‬
‫قرار‬ ‫بازدید‬ ‫مورد‬ ‫را‬ ‫صفحات‬
‫دهد‬.
10
‫افزار‬ ‫نرم‬‫ایندکسر‬Indexer
‫کننده‬ ‫بایگانی‬ ‫یا‬
‫جمع‬ ‫اطالعات‬ ‫تمام‬‫آوری‬‫شده‬
‫اختیار‬ ‫در‬ ‫اسپایدر‬ ‫توسط‬
‫گیرد‬ ‫می‬ ‫قرار‬ ‫ایندکسر‬.‫در‬
‫مورد‬ ‫ارسالی‬ ‫اطالعات‬ ‫بخش‬ ‫این‬
‫می‬ ‫قرار‬ ‫تحلیل‬ ‫و‬ ‫تجزیه‬
‫متفاوتی‬ ‫های‬ ‫بخش‬ ‫به‬ ‫و‬ ‫گیرند‬
11
DataBase‫داده‬ ‫پایگاه‬ ‫یا‬
‫و‬ ‫تجزیه‬ ‫های‬ ‫داده‬ ‫تمام‬
‫به‬ ،‫ایندکسر‬ ‫در‬ ‫شده‬ ‫تحلیل‬
‫گردد‬ ‫می‬ ‫ارسال‬ ‫داده‬ ‫پایگاه‬.
‫گروه‬ ‫ها‬ ‫داده‬ ‫بخش‬ ‫این‬ ‫در‬
‫می‬ ‫ذخیره‬ ‫و‬ ‫کدگذاری‬ ،‫بندی‬
‫شود‬.
12
Ranker‫بندی‬ ‫رتبه‬ ‫سیستم‬ ‫یا‬
‫قبل‬ ‫مراحل‬ ‫تمام‬ ‫آنکه‬ ‫از‬ ‫بعد‬
‫جستجوگر‬ ‫موتور‬ ،‫شد‬ ‫انجام‬
‫سواالت‬ ‫به‬ ‫گویی‬ ‫پاسخ‬ ‫آماده‬
‫است‬ ‫کاربران‬.‫چند‬ ‫کاربران‬
‫جستجوی‬ ‫جعبه‬ ‫در‬ ‫را‬ ‫کلمه‬‫آن‬
‫با‬ ‫سپس‬ ‫و‬ ‫کنند‬ ‫می‬ ‫وارد‬
‫فشردن‬Enter‫منتظر‬‫پــاسخ‬
13
•90‫از‬ ‫که‬ ‫وب‬ ‫صفحات‬ ‫از‬ ‫درصد‬
‫نیستند‬ ‫مخفی‬ ‫هم‬ ‫گوگل‬ ‫دید‬
‫به‬«‫نامرئی‬ ‫وب‬»‫معروف‬‫است‬.
•‫حدود‬ ‫در‬ ‫چیزی‬ ‫نامرئی‬ ‫وب‬
450‫است‬ ‫صفحه‬ ‫میلیارد‬.
14
‫برای‬‫از‬ ‫درسـتی‬ ‫تصـور‬ ‫آنکـه‬
‫جسـتجوگر‬ ‫موتور‬ ‫یک‬ ‫کار‬ ‫نحوه‬
‫داســـتان‬ ‫باشـــید‬ ‫داشـــته‬
‫ـم‬‫هـ‬ ‫ـا‬‫بـ‬ ‫را‬ ‫ـر‬‫زیـ‬ ‫ـارف‬‫نامتعـ‬
‫بررسی‬‫کنیم‬ ‫می‬.
‫داستان‬‫دارد‬ ‫شکارچی‬ ‫یک‬ ‫ما‬.
‫او‬‫می‬ ‫شکار‬ ‫به‬ ‫تصمیم‬‫گیرد‬
15
• InPage Items
oTitle Tag
oMeta Description
oMeta Keyword
oText Headers
oContent
oKeyword density
16
• OffPage Items
oBack Links
oSocial Activities
o…
17
• <html>
• <head>
• <title>Heading Example</title>
• <meta name="DESCRIPTION" content="Description" />
• <meta name="KEYWORDS" content="Keyword1, Keyword2" />
• <meta name="revisit-after" content="30 Days" />
• </head>
• <body>
• <h1>heading 1</h1>
• <h2>heading 2</h2>
• Normal Content
• </body>
• </html>
18
19
20

More Related Content

Viewers also liked

Top 8 water truck driver resume samples
Top 8 water truck driver resume samplesTop 8 water truck driver resume samples
Top 8 water truck driver resume samplesShayneWard678
 
Top 8 rental car agent resume samples
Top 8 rental car agent resume samplesTop 8 rental car agent resume samples
Top 8 rental car agent resume samplesFoolsGarden345
 
Top 8 tour bus driver resume samples
Top 8 tour bus driver resume samplesTop 8 tour bus driver resume samples
Top 8 tour bus driver resume samplesShayneWard678
 
RUP (Rational Unified Process)
RUP (Rational Unified Process)RUP (Rational Unified Process)
RUP (Rational Unified Process)Javad Pourhosaini
 
Top 8 web marketing specialist resume samples
Top 8 web marketing specialist resume samplesTop 8 web marketing specialist resume samples
Top 8 web marketing specialist resume samplesShayneWard678
 
Top 8 research biologist resume samples
Top 8 research biologist resume samplesTop 8 research biologist resume samples
Top 8 research biologist resume samplesFoolsGarden345
 

Viewers also liked (8)

Top 8 water truck driver resume samples
Top 8 water truck driver resume samplesTop 8 water truck driver resume samples
Top 8 water truck driver resume samples
 
Top 8 rental car agent resume samples
Top 8 rental car agent resume samplesTop 8 rental car agent resume samples
Top 8 rental car agent resume samples
 
Top 8 tour bus driver resume samples
Top 8 tour bus driver resume samplesTop 8 tour bus driver resume samples
Top 8 tour bus driver resume samples
 
Board Chair Speech
Board Chair SpeechBoard Chair Speech
Board Chair Speech
 
RUP (Rational Unified Process)
RUP (Rational Unified Process)RUP (Rational Unified Process)
RUP (Rational Unified Process)
 
annual_report_2014_1
annual_report_2014_1annual_report_2014_1
annual_report_2014_1
 
Top 8 web marketing specialist resume samples
Top 8 web marketing specialist resume samplesTop 8 web marketing specialist resume samples
Top 8 web marketing specialist resume samples
 
Top 8 research biologist resume samples
Top 8 research biologist resume samplesTop 8 research biologist resume samples
Top 8 research biologist resume samples
 

Similar to نمایه سازی ماشینی در گوگل

موتور جستجوی درون سازمانی
موتور جستجوی درون سازمانیموتور جستجوی درون سازمانی
موتور جستجوی درون سازمانیHamedSanaei
 
مقدمه ای بر جمع آوری اطلاعات
مقدمه ای بر جمع آوری اطلاعاتمقدمه ای بر جمع آوری اطلاعات
مقدمه ای بر جمع آوری اطلاعاتiuvmtech
 
introduction to Web 2.0
introduction to Web 2.0 introduction to Web 2.0
introduction to Web 2.0 Hossein sharafi
 
طراحی، پیاده‌سازی و ارزیابی رایانش توری تحت وب
طراحی، پیاده‌سازی و ارزیابی رایانش توری تحت وبطراحی، پیاده‌سازی و ارزیابی رایانش توری تحت وب
طراحی، پیاده‌سازی و ارزیابی رایانش توری تحت وبMoEii Hm
 
آموزش مدیریت بانک اطلاعاتی اوراکل - بخش دوم
آموزش مدیریت بانک اطلاعاتی اوراکل - بخش دومآموزش مدیریت بانک اطلاعاتی اوراکل - بخش دوم
آموزش مدیریت بانک اطلاعاتی اوراکل - بخش دومfaradars
 
Big data بزرگ داده ها
Big data بزرگ داده هاBig data بزرگ داده ها
Big data بزرگ داده هاOmid Sohrabi
 
an introduction to Web 3.0 - Semantic Web
an introduction to Web 3.0 - Semantic Weban introduction to Web 3.0 - Semantic Web
an introduction to Web 3.0 - Semantic WebHossein sharafi
 
Big Data Processing in Cloud Computing Environments
Big Data Processing in Cloud Computing EnvironmentsBig Data Processing in Cloud Computing Environments
Big Data Processing in Cloud Computing EnvironmentsFarzad Nozarian
 
Oracle نوشته مهندس اسمعیل دخت
Oracle  نوشته مهندس اسمعیل دختOracle  نوشته مهندس اسمعیل دخت
Oracle نوشته مهندس اسمعیل دختYashar Esmaildokht
 
اسلايد آموزشي هوش تجاري
اسلايد آموزشي هوش تجارياسلايد آموزشي هوش تجاري
اسلايد آموزشي هوش تجاريAli Masoombeigi
 
Bi and data mining with Oracle
Bi and data mining with OracleBi and data mining with Oracle
Bi and data mining with Oracleghanadbashi
 
Digital Publisher
Digital PublisherDigital Publisher
Digital PublisherShad Far
 
عوامل موثر در ایجاد وب سایت موفق
عوامل موثر در ایجاد وب سایت موفقعوامل موثر در ایجاد وب سایت موفق
عوامل موثر در ایجاد وب سایت موفقFixAmooz com
 

Similar to نمایه سازی ماشینی در گوگل (20)

Presentation1
Presentation1Presentation1
Presentation1
 
موتور جستجوی درون سازمانی
موتور جستجوی درون سازمانیموتور جستجوی درون سازمانی
موتور جستجوی درون سازمانی
 
مقدمه ای بر جمع آوری اطلاعات
مقدمه ای بر جمع آوری اطلاعاتمقدمه ای بر جمع آوری اطلاعات
مقدمه ای بر جمع آوری اطلاعات
 
introduction to Web 2.0
introduction to Web 2.0 introduction to Web 2.0
introduction to Web 2.0
 
طراحی، پیاده‌سازی و ارزیابی رایانش توری تحت وب
طراحی، پیاده‌سازی و ارزیابی رایانش توری تحت وبطراحی، پیاده‌سازی و ارزیابی رایانش توری تحت وب
طراحی، پیاده‌سازی و ارزیابی رایانش توری تحت وب
 
seo
seoseo
seo
 
seo
seoseo
seo
 
آموزش مدیریت بانک اطلاعاتی اوراکل - بخش دوم
آموزش مدیریت بانک اطلاعاتی اوراکل - بخش دومآموزش مدیریت بانک اطلاعاتی اوراکل - بخش دوم
آموزش مدیریت بانک اطلاعاتی اوراکل - بخش دوم
 
IranOUG_Oracle_Multitenant
IranOUG_Oracle_MultitenantIranOUG_Oracle_Multitenant
IranOUG_Oracle_Multitenant
 
Big data بزرگ داده ها
Big data بزرگ داده هاBig data بزرگ داده ها
Big data بزرگ داده ها
 
Sharding
ShardingSharding
Sharding
 
Seo part3
Seo part3Seo part3
Seo part3
 
an introduction to Web 3.0 - Semantic Web
an introduction to Web 3.0 - Semantic Weban introduction to Web 3.0 - Semantic Web
an introduction to Web 3.0 - Semantic Web
 
Big Data Processing in Cloud Computing Environments
Big Data Processing in Cloud Computing EnvironmentsBig Data Processing in Cloud Computing Environments
Big Data Processing in Cloud Computing Environments
 
Oracle نوشته مهندس اسمعیل دخت
Oracle  نوشته مهندس اسمعیل دختOracle  نوشته مهندس اسمعیل دخت
Oracle نوشته مهندس اسمعیل دخت
 
اسلايد آموزشي هوش تجاري
اسلايد آموزشي هوش تجارياسلايد آموزشي هوش تجاري
اسلايد آموزشي هوش تجاري
 
Bi and data mining with Oracle
Bi and data mining with OracleBi and data mining with Oracle
Bi and data mining with Oracle
 
Digital Publisher
Digital PublisherDigital Publisher
Digital Publisher
 
عوامل موثر در ایجاد وب سایت موفق
عوامل موثر در ایجاد وب سایت موفقعوامل موثر در ایجاد وب سایت موفق
عوامل موثر در ایجاد وب سایت موفق
 
security of IOT
security of IOTsecurity of IOT
security of IOT
 

نمایه سازی ماشینی در گوگل

  • 2. •‫ساز‬ ‫نمایه‬! •‫سازی‬ ‫نمایه‬‫ماشینی‬ •‫گوگل‬ ‫در‬ ‫سازی‬ ‫نمایه‬ •‫گوگل‬ ‫جستجوی‬ ‫موتور‬ ‫اجزاء‬ •‫شکار‬ ‫داستان‬ ‫و‬ ‫سازی‬ ‫نمایه‬ 2
  • 3. •‫تحلیل‬‫واژه‬ ‫تخصیص‬ ‫و‬ ‫سند‬ ‫می‬ ‫فکر‬ ‫که‬ ‫موضوعی‬ ‫های‬‫کند‬ ‫آن‬ ‫براساس‬ ‫کننده‬ ‫استفاده‬ ‫واژه‬،‫ها‬‫جستجو‬‫کرد‬ ‫خواهد‬. 3
  • 4. ‫و‬ ‫سند‬ ‫یک‬ ِ‫محتوایی‬ ‫تحلیل‬ ‫که‬ ‫گرهایی‬ ‫توصیف‬ ‫انتخاب‬ ‫آن‬ ‫محتوای‬ ‫نماینده‬‫سند‬ ‫رایانه‬ ‫توسط‬ ‫باشند‬‫با‬ ‫و‬ ‫از‬ ‫های‬ ‫الگوریتم‬ ‫گیری‬ ‫بکار‬ ‫شده‬ ‫تدوین‬ ‫پیش‬. ‫مزایا‬: 4
  • 5. •‫سال‬ ‫از‬ ‫که‬ ‫جستجویی‬ ‫موتور‬ 1998‫کرد‬ ‫بکار‬ ‫شروع‬. •‫از‬ ‫داده‬ ‫پایگاه‬ ‫بزرگترین‬ ‫نمایه‬ ‫های‬ ‫سایت‬ ‫وب‬‫سازی‬ ‫شده‬(‫بینگ‬ ‫و‬ ‫یاهو‬ ‫دوبرابر‬) 5
  • 6. •‫که‬ ‫صفحاتی‬ ‫تمام‬ ‫از‬ ‫لیستی‬ ‫گوگل‬ ‫خزنده‬ ‫موتور‬(Crawler) ‫بررسی‬‫سرورهای‬ ‫در‬ ‫و‬ ‫کرده‬ ‫کرده‬ ‫ذخیره‬ ‫خود‬. •‫از‬ ‫بیش‬40‫وب‬ ‫صفحه‬ ‫میلیارد‬ ‫شده‬ ‫سازی‬ ‫نمایه‬ ‫گوگل‬ ‫توسط‬ (‫بر‬ ‫بالغ‬ ‫حجمی‬ ‫با‬100 ‫گیگابایت‬ ‫میلیون‬). 6
  • 7. 7
  • 9. Spider‫یا‬ ‫عنکبوت‬ ‫یا‬Robot ‫یا‬ ‫اسپایدر‬‫روبوت‬،‫نرم‬ ‫آوری‬ ‫جمع‬ ‫کار‬ ‫که‬ ‫است‬ ‫افزاری‬ ‫موتور‬ ‫یک‬ ‫نیاز‬ ‫مورد‬ ‫اطالعات‬ ‫دارد‬ ‫عهده‬ ‫بر‬ ‫را‬ ‫جستجوگر‬ 9
  • 10. ‫افزار‬ ‫نرم‬‫کراولر‬Crawler‫یا‬ ‫خزنده‬ ‫که‬ ‫است‬ ‫افزاری‬ ‫نرم‬ ،‫کراولر‬ ‫برای‬ ‫فرمانده‬ ‫یک‬ ‫عنوان‬ ‫به‬ ‫می‬ ‫عمل‬ ‫اسپایدر‬‫مشخص‬ ‫و‬ ‫کند‬ ‫کدام‬ ‫اسپایدر‬ ‫که‬ ‫کند‬ ‫می‬ ‫قرار‬ ‫بازدید‬ ‫مورد‬ ‫را‬ ‫صفحات‬ ‫دهد‬. 10
  • 11. ‫افزار‬ ‫نرم‬‫ایندکسر‬Indexer ‫کننده‬ ‫بایگانی‬ ‫یا‬ ‫جمع‬ ‫اطالعات‬ ‫تمام‬‫آوری‬‫شده‬ ‫اختیار‬ ‫در‬ ‫اسپایدر‬ ‫توسط‬ ‫گیرد‬ ‫می‬ ‫قرار‬ ‫ایندکسر‬.‫در‬ ‫مورد‬ ‫ارسالی‬ ‫اطالعات‬ ‫بخش‬ ‫این‬ ‫می‬ ‫قرار‬ ‫تحلیل‬ ‫و‬ ‫تجزیه‬ ‫متفاوتی‬ ‫های‬ ‫بخش‬ ‫به‬ ‫و‬ ‫گیرند‬ 11
  • 12. DataBase‫داده‬ ‫پایگاه‬ ‫یا‬ ‫و‬ ‫تجزیه‬ ‫های‬ ‫داده‬ ‫تمام‬ ‫به‬ ،‫ایندکسر‬ ‫در‬ ‫شده‬ ‫تحلیل‬ ‫گردد‬ ‫می‬ ‫ارسال‬ ‫داده‬ ‫پایگاه‬. ‫گروه‬ ‫ها‬ ‫داده‬ ‫بخش‬ ‫این‬ ‫در‬ ‫می‬ ‫ذخیره‬ ‫و‬ ‫کدگذاری‬ ،‫بندی‬ ‫شود‬. 12
  • 13. Ranker‫بندی‬ ‫رتبه‬ ‫سیستم‬ ‫یا‬ ‫قبل‬ ‫مراحل‬ ‫تمام‬ ‫آنکه‬ ‫از‬ ‫بعد‬ ‫جستجوگر‬ ‫موتور‬ ،‫شد‬ ‫انجام‬ ‫سواالت‬ ‫به‬ ‫گویی‬ ‫پاسخ‬ ‫آماده‬ ‫است‬ ‫کاربران‬.‫چند‬ ‫کاربران‬ ‫جستجوی‬ ‫جعبه‬ ‫در‬ ‫را‬ ‫کلمه‬‫آن‬ ‫با‬ ‫سپس‬ ‫و‬ ‫کنند‬ ‫می‬ ‫وارد‬ ‫فشردن‬Enter‫منتظر‬‫پــاسخ‬ 13
  • 14. •90‫از‬ ‫که‬ ‫وب‬ ‫صفحات‬ ‫از‬ ‫درصد‬ ‫نیستند‬ ‫مخفی‬ ‫هم‬ ‫گوگل‬ ‫دید‬ ‫به‬«‫نامرئی‬ ‫وب‬»‫معروف‬‫است‬. •‫حدود‬ ‫در‬ ‫چیزی‬ ‫نامرئی‬ ‫وب‬ 450‫است‬ ‫صفحه‬ ‫میلیارد‬. 14
  • 15. ‫برای‬‫از‬ ‫درسـتی‬ ‫تصـور‬ ‫آنکـه‬ ‫جسـتجوگر‬ ‫موتور‬ ‫یک‬ ‫کار‬ ‫نحوه‬ ‫داســـتان‬ ‫باشـــید‬ ‫داشـــته‬ ‫ـم‬‫هـ‬ ‫ـا‬‫بـ‬ ‫را‬ ‫ـر‬‫زیـ‬ ‫ـارف‬‫نامتعـ‬ ‫بررسی‬‫کنیم‬ ‫می‬. ‫داستان‬‫دارد‬ ‫شکارچی‬ ‫یک‬ ‫ما‬. ‫او‬‫می‬ ‫شکار‬ ‫به‬ ‫تصمیم‬‫گیرد‬ 15
  • 16. • InPage Items oTitle Tag oMeta Description oMeta Keyword oText Headers oContent oKeyword density 16
  • 17. • OffPage Items oBack Links oSocial Activities o… 17
  • 18. • <html> • <head> • <title>Heading Example</title> • <meta name="DESCRIPTION" content="Description" /> • <meta name="KEYWORDS" content="Keyword1, Keyword2" /> • <meta name="revisit-after" content="30 Days" /> • </head> • <body> • <h1>heading 1</h1> • <h2>heading 2</h2> • Normal Content • </body> • </html> 18
  • 19. 19
  • 20. 20

Editor's Notes

  1. برای مقایسه، بینگ، حدود 14 میلیارد صفحه وب را نمایه سازی یا ایندکس کرده که با این حال فقط کمتر از 10 درصد کل وب ران مایه سازی کرده
  2. وقتی کسی در گوگل جستجو می کند، اطلاعات از سرورهای گوگل بازخوانی می گردد نه از وب سایت ها
  3. می توان با ادغام کردن اسپایدر با کراولر و همچنین ایندکسر با پایگاه داده، موتور جستجوگر را شامل سه بخش زیر دانست که این گونه تقسیم بندی هم درست می باشد: • کراولر • بایگانی • سیستم رتبه بندی
  4. اسپایدر به صفحات مختلف سر می زند، محتوای آنها را می خواند، اطلاعات مورد نیاز را جمع آوری می کند و آنرا در اختیار سایر بخش های موتور جستجوگر قرار می دهد.  کار یک اسپایدر، بسیار شبیه کار کاربران وب است. همانطور که کاربران، صفحات مختلف را بازدید می کنند، اسپایدر هم درست این کار را انجام می دهد با این تفاوت که اسپایدر کدهای HTML صفحات را می بیند اما کاربران نتیجه حاصل از کنار هم قرار گرفتن این کدها را اسپایدر، به هنگام مشاهده صفحات، از خود بر روی سرورها رد پا برجای می گذارد. شما اگر اجازه دسترسی به آمار دید و بازدیدهای صورت گرفته از یک سایت و اتفاقات انجام شده در آنرا داشته باشید، می توانید مشخص کنید که اسپایدر کدام یک از موتورهای جستجوگر صفحات سایت را مورد بازدید قرار داده اند.یکی از فعالیتهای اصلی که در SEM انجام می شود تحلیل آمار همین دید و بازدیدها می باشد. اسپایدرها کاربردهای دیگری نیز دارند، به عنوان مثال عده ای از آنها به سایت های مختلف مراجعه می کنند و فقط به بررسی فعال بودن لینک های آنها می پردازند و یا به دنبال آدرس پست الکترونیکی (Email) می گردند. 
  5. کراولر، نرم افزاری است که به عنوان یک فرمانده برای اسپایدر عمل می کند. آن مشخص می کند که اسپایدر کدام صفحات را مورد بازدید قرار دهد. در واقع کراولر تصمیم می گیرد که کدام یک از لینک های صفحه ای که اسپایدر در حال حاضر در آن قرار دارد، دنبال شود. ممکن است همه آنها را دنبال کند، بعضی ها را دنبال کند و یا هیچ کدام را دنبال نکند. کراولر، ممکن است قبلا" برنامه ریزی شده باشد که آدرس های خاصی را طبق برنامه، در اختیار اسپایدر قرار دهد تا از آنها دیدن کند. دنبال کردن لینک های یک صفحه به این بستگی دارد که موتور جستجوگر چه حجمی از اطلاعات یک سایت را می تواند در پایگاه داده اش ذخیره کند و همچنین ممکن است اجازه دسترسی به بعضی از صفحات به موتورهای جستجوگر داده نشده باشد. شما به عنوان دارنده سایت، همان طور که دوست دارید موتورهای جستجوگر اطلاعات سایت شما را با خود ببرند، می توانید آنها را از بعضی از صفحات سایت تان دور کنید و اجازه دسترسی به محتوای آن صفحات را به آنها ندهید. تنظیم میزان دسترسی موتورهای جستجوگر به محتوای یک سایت توسط پروتکل Robots انجام می شود. به عمل کراولر ، خزش (Crawling) می گویند.
  6. جزیه و تحلیل بدین معنی است که مشخص می شود اطلاعات از کدام صفحه ارسال شده است، چه حجمی دارد، کلمات موجود در آن کدام است، کلمات چندبار تکرار شده است، کلمات در کجای صفحه قرار دارند و ... . در حقیقت ایندکسر، صفحه را به پارامترهای آن خرد می کند و تمام این پارامترها را به یک مقیاس عددی تبدیل می کند تا سیستم رتبه بندی بتواند پارامترهای صفحات مختلف را با هم مقایسه کند. در زمان تجزیه و تحلیل اطلاعات، ایندکسر برای کاهش حجم داده ها از بعضی کلمات که بسیار رایج هستند صرفنظر می کند. کلماتی نظیر a ، an ، the ، www ، is و ... . از این گونه کلمات هستند.
  7. داده ها قبل از آنکه ذخیره شوند، طبق تکنیکهای خاصی فشرده می شوند تا حجم کمی ُُاز پایگاه داده را اشغال کنند. یک موتور جستجوگر باید پایگاده داده عظیمی داشته باشد و به طور مداوم حجم محتوای آنرا گسترش دهد و البته اطلاعات قدیمی را هم به روز رسانی نماید. بزرگی و به روز بودن پایگاه داده یک موتور جستجوگر برای آن امتیاز محسوب می گردد. یکی از تفاوتهای اصلی موتورهای جستجوگر در حجم پایگاه داده آنها و همچنین روش ذخیره سازی داده ها در پایگاه داده است.
  8. برای پاسخگویی به درخواست کاربر، ابتدا تمام صفحات موجود در پایگاه داده که به موضوع جستجو شده، مرتبط هستند، مشخص می شوند. پس از آن سیستم رتبه بندی وارد عمل شده، آنها را از بیشترین ارتباط تا کمترین ارتباط مرتب می کند و به عنوان نتایج جستجو به کاربر نمایش می دهد. حتی اگر موتور جستجوگر بهترین و کامل ترین پایگاه داده را داشته باشد اما نتواند پاسخ های مرتبطی را ارایه کند، یک موتور جستجوگر ضعیف خواهد بود. در حقیقت سیستم رتبه بندی قلب تپنده یک موتور جستجوگر است و تفاوت اصلی موتورهای جستجوگر در این بخش قرار دارد. سیستم رتبه بندی برای پاسخ گویی به سوالات کاربران، پارامترهای بسیاری را در نظر می گیرد تا بتواند بهترین پاسخ ها را در اختیار آنها قرار دارد. حرفه ای های دنیای SEM به طور خلاصه از آن به Algo ( الگوریتم) یاد می کنند. الگوریتم، مجموعه ای از دستورالعمل ها است که موتور جستجوگر با اعمال آنها بر پارامترهای صفحات موجود در پایگاه داده اش، تصمیم می گیرد که صفحات مرتبط را چگونه در نتایج جستجو مرتب کند. در حال حاضر قدرتمندترین سیستم رتبه بندی را گوگل در اختیار دارد.
  9. از کل صفحات وب موجود در دنیا، چیزی در حدود 40 میلیارد صفحه توسط گوگل، نمایه سازی شده.
  10. کار کراولر: او قصد دارد برای شکار به منطقه حفاظت شده ابیورد، واقع در شهرستان درگز (شمالی ترین شهر خراسان بزرگ) برود. پروتکل Robots : ابتدا تمام محدودیت های موجود برای شکار در این منطقه را بررسی می کند: • آیا در این منطقه می توان به شکار پرداخت؟ • کدام حیوانات را می توان شکار کرد؟ • حداکثر تعداد شکار چه میزانی است؟ • و ... . فرض می کنیم او مجوز شکار یک اوریال (نوعی آهو) را از شکاربانی منطقه دریافت می کند. کار اسپایدر: او اوریالی رعنا (قوچ یا میش) را شکار می کند و سپس آنرا با خود به منزل می برد. کار ایندکسر : شکار را تکه تکه کرده، گوشت، استخوان، دل و قلوه، کله پاچه و ... آنرا بسته بندی می کند و بخش های زاید شکار را دور می ریزد. کار پایگاه داده : بسته های حاصل را درون فریزر قرار داده، ذخیره می کند. کار سیستم رتبه بندی : مهمانان سراغ او می آیند و همسر او بسته به ذائقه مهمانان برای آنها غذا طبخ می کند. ممکن است عده ای کله پاچه، عده ای آبگوشت، عده ای جگر و ... دوست داشته باشند. پخت غذا طبق سلیقه مهمانان کار سختی است. ممکن است همه آنها آبگوشت بخواهند اما آنها مسلما" بامزه ترین آبگوشت را می خواهند!