SlideShare a Scribd company logo
1 of 28
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
MÔN HỌC
GIỚI THIỆU NGÀNH
BÀI BÁO CÁO
Đồ án: Khảo sát và phân tích một số kĩ thuật trong
hệ thống tìm kiếm dựa trên từ khóa của website
google.com
Lớp: IT009.F24
GVHD: Nguyển Gia Tuấn Anh
SVTH:
- Trần Minh Nhật – 13520583 (Nhóm trưởng) .
- Lê Nhật Tánh – 13520756
- Trần Huỳnh Ngọc Tiên – 14520946
- Lê Quang Phú -14520680
- Đinh Ngọc Tuấn -14521040
TP.Hồ Chí Minh, tháng 03 năm 2015
MỤC LỤC
Chương I: Phần Mở Đầu ……………………………………………………….……….3
Chương II: Lịch Sử Phát Triển Của Google & Hình Thành Của Search Engine
Google……………………………………………………………………………….…….4
1. Giới thiệu chung về Google…………………………………………….….….4
2. Lịch sử phát triển của Google……………………………………….………..4
3. Những chặn đường phát triển của Google.com……………………………...5
3.1. Sự phát triểncủa Google………………………………………….......5
3.2. Những lần thay đổi giaodiện của công cụ tìmkiếm……………...….14
Chương III: Cơ chế tìm kiếm của Google……………………………………………...19
1. Các bộ phận của công cụ tìm kiếm…………………………………………19
1.1. Bộ phận thu thập dữ liệu………………………………………….….19
1.2. Bộ phận lập chỉ mục (index)……………………………………….…20
1.3. Bộ phận xử lí–tínhtoán……………………………………………....21
1.3.1. Thuật toán Google Panda……………………………………...…22
1.3.2. Thuật toán Google Penguin………………………………...…….22
1.3.3. Thuật toán Google Hummingbird…………………………….....23
1.3.4. Thuật toán GoogleZebra……………………………………...….23
1.3.5. Thuật toán Google Pigeon……………………………………..…24
2. Cơ chế hoạt động của GoogleSpider……………………………………......24
3. Tổng kết về cách Googlehoạt động……………………………………….…25
Chương I. Phần Mở Đầu
Internet ra dời mở ra một thời đại công nghệ thông tin và truyền thông vượt trội, đánh
dấu một bước ngoặt lịch sử mang con người đến gần nhau hơn. Với một tốc độ phát triển
chóng mặt từ số lượng đến đường truyền, nội dung phong phú, từ 4 địa điểm kết nối
mạng ở Mỹ, ngày nay internet dường như đã có mặt ở mọi lĩnh vực trong cuộc sống, và
trở thành một xu hướng phát triển tất yếu.
Internet khai sáng một kỷ nguyên mới mà ở đó con ngưởi có thể tìm kiếm khai thác thông
tin, trao đổi, học tập…thông qua một thế giới ảo nhưng vô cùng tiện ích. Cùng với sự
phát triển chung của xã hội loài người, internet cũng không nằm ngoài ngoại lệ đó, con
người luôn yêu cầu về chất lượng nhanh hơn, chính xác hơn từ internet. Tất nhiên có
cung thì ắt có cầu. Với một kho dữ liệu khổng lồ từ các máy chủ và mạng máy tính toàn
cầu, người dùng internet khó lòng tìm được chính xác, hay khai thác được hết thông tin
mà người dùng cần tìm kiếm. Sẽ rất khó khăn cho người sử dụng truy cập vào Internet để
tìm kiếm một website có chủ đề phục vụ cho mục đích của mình vì hàng ngày có khoảng
hơn 100.000 website mới được đưa lên mạng. Số lượng website trên mạng Internet hiện
nay đã lên tới hơn 5 tỷ. Vì vậy, để phục vụ việc tìm kiếm nhanh chóng website của người
sử dụng Internet, các công ty phần mềm trên thế giới đã viết ra những phần mềm mà ta
gọi chung là Search Engine (máy tìm kiếm, hay công cụ tìm kiếm).
Search Engine là phần mềm cung cấp các địa chỉ Web có chứa một hay nhiều thông tin, từ
khoá (keywords) mà người dùng cần tìm kiếm. Hay nói một cách dễ hiểu Search Engine là
các công cụ tìm kiếm như Google.com, Yahoo.com hay Bing.com… Đây là những công
cụ tìm kiếm phổ biến và chiếm thị phần lớn nhất.
Search Engine là một thư viện thông tin khổng lồ về các website, cho phép người sử dụng
có thể tìm kiếm các website cần quan tâm theo một chủ đề nào đó căn cứ vào các từ khóa
(keywords) mà người đó yêu cầu Search Engine tìm kiếm.
Search Engine phổ biến nhất hiện nay chiếm đến 75.2% thị phần tìm kiếm là search engine
Google. Chúng ta sẽ đi sâu và chi tiết về lịch sử và cách thức hoạt động của Search Engine
Google.
Chương II. Lịch Sử Phát Triển Của Google &Hình Thành Của Search Engine Google
1. Giới thiệu chung về Google
Google là một công ty internet có trụ sở tại Mỹ, được thành lập vào năm 1998. Sản phẩm
chính của công ty này là công cụ tìm kiếm Google, được nhiều người đánh giá là công cụ
tìm kiếm hữu ích và mạnh mẽ nhất trên Internet. Trụ sở của Google tên là "Googleplex"
tại Mountain View, California. Giám đốc không người nào khác đó là Larry page, 1 trong
2 người sáng lập ra công ty. Tên "Google" là một lỗi chính tả của từ googol, bằng 10100.
Google chọn tên này để thể hiện sứ mệnh của công ty để sắp xếp số lượng thông tin khổng
lồ trên mạng. Googleplex, tên của trụ sở Google, có nghĩa là 10googol.
2. Lịch sử phát triển của Google
Đầu tiên (1996), Google là một công trình nghiên cứu của Larry Page và Sergey Brin hai
nghiên cứu sinh tại trường Đại Học Stanford. Họ có giả thuyết cho rằng một công cụ tìm
kiếm dựa vào phân tích các liên hệ giữa các website sẽ đem lại kết quả tốt hơn cách đang
được hiện hành lúc bấy giờ (1996). Đầu tiên nó được gọi là BackRub (Gãi lưng) tại vì hệ
thống này dùng các liên kết đến để ước tính tầm quan trọng của trang.
Page và Brin tin rằng những trang có nhiều liên kết đến nhất từ các trang thích hợp khác
sẽ là những trang thích hợp nhất. Họ đã quyết định thử nghiệm giả thuyết trong nghiên
cứu của họ, tạo nền móng cho công cụ Google hiện đại bây giờ (http://www.google.com).
Tên miền www.google.com được đăng ký ngày 15 tháng 9 năm 1997. Họ chính thức
thành lập công tyGoogle, Inc. ngày 7 tháng năm 1998 tại một ga ra của nhà Esther
Wojcicki (cũng là nhân viên thứ 16 của Google, Phó Chủ tịch cấp cao, phụ trách bộ phận
quảng cáo) tại Menlo Park, California. Trong tháng 2 năm 1999, trụ sở dọn đến Palo
Alto, là thành phố có nhiều trụ sở công ty công nghệ khác. Sau khi đổi chỗ hai lần nữa vì
công ty quá lớn, trụ sở nay được đặt tại Mountain View, California, tại địa chỉ 1600
Amphitheater Parkway vào năm 2003.
3. Những chặn đường phát triển của Google
3.1. Sự phát triểncủa Google
Giai đoạn 1996-1997: BackRub
Khi Page và Brin gặp nhau tại đại học Stanford năm 1995 và cùng nhau quyết định tạo ra
1 công cụ tìm kiếm với tên gọi BackRub vào tháng 1/1996.
Sau đó, cả 2 quyết định biến đổi tên gọi công cụ tìm kiếm của mình thành Google, 1 cách
chơi chữ cho từ “gooogol”, với ý nghĩa của số 1 kèm theo 100 số 0 đằng sau, với hàm ý
nhiệm vụ của họ để tạo nên 1 số lượng vô hạn các nguồn tài nguyên trên website. Và thực
sự họ đã làm được.
1998: trang chủ đầu tiêncủa Google rađời
Ngày 16/9, tên miền Google.com chính thức được đăng ký, tuy nhiên đến tận tháng 11,
trang chủ của Google mới được xuất hiện. Vào đầu năm này, 2 nhà đồng sáng lập đã
nhận được khoảng tài trợ đầu tiên giá trị 100.000 USD từ nhà đầu tư Andy Bechtolsheim.
Tháng 9/1998, Larry Page và Sergey Brin từ khoảng đầu tư này đã quyết định thành lập
công ty Google Inc trong gara căn hộ tại Menlo Park, California (Mỹ) và quyết định thuê
nhân viên đầu tiên, Craig Silverstein.
Hình 2.3.1. Giao diện đầu tiên trang chủ Google
Một điều khá thú vị là cả Page lẫn Brin không giỏi trong việc sử dụng ngôn ngữ lập trình
web HTML, do vậy, trang chủ của đầu tiên của Google khá sơ sài. Kèm với đó, cả 2 đã
phải chèn thêm 1 thông điệp phía cuối trang để thông báo cho người dùng được biết nội
dung trang đã được tải hết.
Năm 1999: Chuyển đến văn phòng mới
Sau 1 năm ra đời, Google chuyển đến trụ sở mỡi tại Mountain View (bang California),
chính là trụ sở chính ngày nay của Google. Hãng cũng đã nhận thêm khoảng tiền đầu tư
lên đến 25 triệu USD từ các nhà đầu tư.
Hình 2.3.2. Tính năng tìm kiếm “Uncle Sam”
Cũng trong năm nay, “Uncle Sam” (Chú Sam) là thuật ngữ quen thuộc của người Mỹ và
Google đã đưa thêm thuật ngữ này lên trang chủ của mình vào năm 1999, cho phép người
dùng tìm kiếm các tài liệu liên quan đến chính phủ Mỹ.
Năm 2000: Google trở thành công cụ tìm kiếm mặc định của Yahoo
Google đã dần khẳng định tên tuổi của mình khi hợp tác và trở thành công cụ tìm kiếm
mặc định của Yahoo, là “thế lực hàng đầu” vào thời điểm đó trong làng công nghệ.
Hình 2.3.3.Bắt tay với Yahoo là 1 động thái khẳng định “tên tuổi” của Google
Ngoài sự hợp tác này, Google tuyên bố rằng mình đã đánh dấu được hơn 1 tỷ trang web
và trở thành công cụ tìm kiếm lớn nhất thế giới. Trong năm này, Google cũng lần đầu
tiên ra mắt dịch vụ quảng cáo Adword, dịch vụ cho phép các doanh nghiệp mua quảng
cáo theo từ khóa để xuất hiện nội dung quảng cáo cạnh kết quả tìm kiếm.
Năm 2001: Ra mắt công cụ tìm kiếm hình ảnh
Tính năng tìm kiếm hình ảnh (Image search) được Google công bố vào tháng 7/2001.
Ngay khi ra mắt, Google cho biết đã ghi dấu được hơn 250 triệu hình ảnh.
Hình 2.3.4. Tính năng tìm kiếm hình ảnh vẫn là tính năng hữu ích ngày nay
Năm 2002: Thiết bị Google Search Applicance
Đầu năm 2002, Google giới thiệu thiết bị phần cứng đầu tiên của mình, Google Search
Appliance, thiết bị cho phép kết nối với máy tính và cung cấp các tính năng tìm kiếm
nâng cao cho dữ liệu bên trong.
Hình 2.3.5. Đây là thiết bị phần cứng đầu tiên của Google
Năm 2003: Ra mắt Adsense
Google giới thiệu công cụ quảng cáo trực tuyến lớn nhất thế giới, Adsense. Đây là hình
thức quảng cáo kết hợp cùng Google Adword, cho phép đặt quảng cáo từ các nhà quảng
cáo lên các trang web từ bên thứ 3 để thu hút thêm khách ghé thăm cho các nhà quảng
cáo.
Hình 2.3.6. Adsense là “con gà đẻ trứng vàng” thực sự của Google
Năm 2004: Dịch vụ email Gmail
Google ra mắt Gmail vào đúng ngày “cá tháng tư” 1/4/2004, tuy nhiên phiên bản thử
nghiệm yêu cầu người dùng phải có thư mời mới được phép tham gia. Tuy còn nhiều hạn
chế, tuy nhiên Gmail đã nhanh chóng thu hút được đông đảo người sử dụng nhờ những
ưu điểm vượt trội của nó.
Hình 2.3.7. Gmail hiện là dịch vụ email hàng đầu hiện nay
Ngày nay, Google đã mở cửa để người dùng tham gia Gmail miễn phí và Gmail nhanh
chóng trở thành dịch vụ email hàng đầu thế giới về lượng người dùng.
Năm 2005: Bản đồ trực tuyến Google Maps
Bản đồ trực tuyến được Google giới thiệu vào tháng 2/2005 và được tích hợp lên iPhone
vào năm 2007. Cùng với sự ra mắt của Google Maps, tháng 6/2005, ứng dụng Google
Earth, phiên bản vệ tinh bản đồ trái đất cũng được Google trình làng.
Hình 2.3.8. Google Earth là dịch vụ tra cứu bản đồ hàng đầu hiện nay
Cũng trong năm nay, Google ra mắt công cụ tìm kiếm code.google.com, cho phép các lập
trình viên tìm kiếm mã nguồn lập trình ứng dụng khi cần thiết. Ngoài ra, Google cũng đã
thâu tóm Urchin, dịch vụ tối ưu dữ liệu mà sau này được Google phát triển thành dịch vụ
Google Analytics.
Năm 2006: Thâu tóm Youtube
Với mức giá 1,65 tỷ USD, thương vụ thâu tóm Youtube vào tháng 10/2006 là một trong
những thương vụ lớn nhất trong lịch sử Google và cao nhất vào thời điểm bấy giờ. Ngày
nay, Youtube đã trở thành dịch vụ xem và chia sẻ video trực tuyến lớn nhất thế giới, với
hàng triệu đoạn video được chia sẻ mỗi ngày.
Hình 2.3.9 .Youtube đã nhanh chóng trở thành dịch vụ chia sẻ video hàng đầu thế giới
Cũng trong năm nay, Google cho ra mắt dịch vụ Gchat, dịch vụ chat được tích hợp ngay
bên trong hộp thư Gmail.
Năm 2007: Thâu tóm Android
Tháng 11/2007, Google mua lại công ty Android, mà Google gọi đây là “nền tảng di
động mở đầu tiên trên thế giới”. Mặc dù thương vụ mua lại Android không phải là
thương vụ “bom tấn” thực sự gây chú ý, tuy nhiên đây lại là một trong những thương vụ
thành công nhất của Google.
Hình 2.3.10. Android là một trong các thương vụ thành công nhất của Google
Năm 2008: Trình duyệt web Chrome ra đời
Tháng 9/2008, Google giới thiệu Chrome, trình duyệt web mã nguồn mở của mình và
nhanh chóng chiếm được thị phần trên thị trường trình duyệt web. Tốc độ phát triển của
Chrome là rất nhanh chóng. Tính đến thời điểm hiện tại, Chrome đã trải qua 13 phiên bản
chính thức và phiên bản thử nghiệm thứ 14 cũng vừa được trình làng.
Hình 2.3.11. Trình duyệt Google Chrome ra mắt và có bước phát triển nhanh chóng
Cũng trong năm nay, hãng viễn thông T-Mobile giới thiệu G1, chiếc điện thoại đầu tiên
sử dụng nền tảng Androdi của Google.
Năm 2009: Google Wave - Thất bại của Google
Quá nhiều trông đợi, quá nhiều tính năng được giới thiệu trên nền tảng Wave, Google hy
vọng sẽ mạng đến cho người dùng một “phòng làm việc” và 1 mạng xã hội đúng nghĩa.
Tuy nhiên, tính năng quá phức tạp và rườm rà, chỉ hơn 1 năm sau, Google đã phải thừa
nhận Wave là sự thất bại của mình.
Hình 2.3.12. Đặt quá nhiều kỳ vọng khiến Google Wave nhanh chóng thất bại
Năm 2010: Ra mắt “chợ ứng dụng” Google Apps Marketplace
Google Apps Marketplace là kho ứng dụng được Google mở ra, cho phép các nhà phát
triển đăng tải và bán các ứng dụng do mình tạo nên.
Hình 2.3.13. Google muốn mở rộng kho ứng dụng của mình với Google Apps
Marketplace
Cũng trong năm này, Google tiếp tục “tham vọng” mạng xã hội của mình với Google
Buzz, mạng xã hội tích hợp bên trong hộp thư Gmail, nhưng một lần nữa thất bại.
Năm 2011: Tiếp tục “giấc mơ” mạng xã hội với Google+
Sau thất bại của Wave và Buzz, dường như Google chưa bao giờ muốn từ bỏ giấc mở xây
dựng 1 mạng xã hội của mình. Tháng 6/2011, mạng xã hội Google+, mạng xã hội được
Google đầu tư 1 cách mạnh mẽ được chính thức ra đời. Mặc dù chỉ ở giai đoạn thử
nghiệm và phải có thư mời mới được phép tham gia, Google+ đã nhanh chóng thu hút
được hàng chục triệu người dùng.
Hình 2.3.14. Google+ được đặt nhiều kỳ vọng để trở thành đối thủ của Facebook
Cũng trong năm này, Google đã tạo nên một “bom tấn” khác với thương vụ thâu tóm bộ
phận di động của Motorola với giá 12,5 tỉ USD, thương vụ đắt giá nhất trong lịch sử của
Google.
Trải qua 13 năm, Google đã trở thành 1 điều gì đó không thể thiếu với người dùng
Internet. Cùng với sự phát triển và sáng tạo của mình, chắc hẳn Google sẽ còn tiếp tục
vươn lên những tầm cao mới trong tương lai để tiếp tục là “gã khổng lồ” hàng đầu trong
làng công nghệ thế giới.
3.2. Những lần thay đổi giao diện của công cụ tìm kiếm google
1998 - 2001: Tập trung vào tìm kiếm
Trong những năm đầu xuất hiện, Google.com chỉ đơn thuần là một công cụ tìm kiếm với
hình ảnh cực kì mang tính biểu tượng: logo Google nhiều màu sắc, một hộp nhập văn bản
dài nằm giữa màn hình, một nút thực thi việc tìm kiếm và nút còn lại là "I'm feeling
lucky" để dẫn người dùng đến một trang web ngẫu nhiên cũng thuộc Google.
Hình 2.3.15. Những ngày đầu phát triển
2001 – 2007: Giao diện thẻ
Như tấm ảnh bên trên, bạn có thể thấy rằng trang web Google giờ đây phức tạp hơn một
chút và nó có các thẻ như Web, Images, Groups và Directory. Mỗi một mục như thế nằm
trong một thẻ khác nhau và được bố trí ngay bên trên hộp nhập liệu để việc tìm kiếm của
người dùng được dễ dàng hơn. Trong những năm sau đó vị trí của các tab có thể thay đổi
chỗ này chỗ khác nhưng ban đầu thì tất cả đều nằm bên dưới logo Google.
Hinh 2.3.16 Giao diện thẻ
2006 - 2007: Giao diện thẻ tiếptục được mở rộng
Không dừng lại ở trang chủ tìm kiếm, giao diện thẻ của Google bắt đầu được mang sang
Gmail và Calendar với những đường link nằm ở đầu trang web. Bản thân trang chủ của
Google cũng tiếp tục sử dụng phong cách này.
2007 - 2011: Thanh điều hướng xuất hiện
Ngay trong năm 2007, Google bắt đầu cho triển khai thanh điều hướng mới nằm ở cạnh
trên màn hình. Nó bao gồm các đường link dẫn đến nơi tìm kiếm hình ảnh, video, tin tức,
bản đồ cũng như những nút chuyển sang Gmail, Calendar cũng các dịch vụ khác do công
ty phát triển. Logo Google, hộp tìm kiếm, nút Google Search được trả lại đúng với thiết
kế nguyên thủy của chúng, đơn giản nhưng vẫn đảm bảo tính hiệu quả cao.
Hình 2.3.17 Giao diện thể đầu tiên
2011: Google Menu
Trong nỗ lực dọn dẹp lại thanh điều hướng, Google đã sử dụng một loạt các icon nằm ẩn
trong chữ Google nằm ở góc trên trái của trang tìm kiếm. Chỉ khi nào người dùng nhấn
vào đây thì menu mới sổ xuống nên trang chủ của hãng trông rất gọn gàng và đẹp mắt. Ở
góc trên bên trái thì Google bổ sung thêm một ô hiển thị các thông báo của Google+ và
hình ảnh đại diện cho tài khoản người dùng.
Hình 2.3.18. Google Menu
Chương III. Cơ chế tìm kiếm của Google
Một sự thật cơ bản đầu tiên cần biết đó là công cụ tìm kiếm của Google không phải là
con người. Chính vì thế sẽ có sự khác nhau giữa con người và công cụ tìm kiếm trong
việc đánh giá nội dung của một trang web. Không giống như con người, công cụ tìm
kiếm nội dung theo định hướng. Mặc dù công cụ tìm kiếm được trang bị các công nghệ
rất hiện đại tuy nhiên nó vẫn không đủ thông minh để có thể cảm nhận được vẻ đẹp của
một mẫu thiết kế, thưởng thức âm thanh hoặc thấy được chuyển động của một video nào
đó. Vì vậy khi công cụ tìm kiếm thu thập dữ liệu của trang web nó chỉ nhìn vào các văn
bản cụ thể để cố gắng hiểu được trang web này đang muốn nói về vấn đề gì.
1. Các bộ phận của công cụ tìm kiếm:
1.1 Bộ phận thu thập dữ liệu
Google sử dụng phần mềm có tên “trình thu thập thông tin web” để khám phá các
trang web công khai hiện có. Trình thu thập thông tin nổi tiếng nhất có tên là
“Googlebot” hay “Google spider”. Trình thu thập thông tin xem các trang web và dò theo
liên kết trên các trang đó, giống như khi bạn duyệt nội dung trên web. Chúng đi từ liên
kết này tới liên kết khác và mang dữ liệu về các trang web đó về cho máy chủ của
Google.
Quá trình thu thập thông tin bắt đầu với danh sách các địa chỉ web từ các lần thu
thập thông tin trước đó và sơ đồ trang web do chủ sở hữu trang web cung cấp. Khi các
trình thu thập thông tin của Google truy cập các trang web này, chúng sẽ tìm các liên kết
cho những trang khác để truy cập. Phần mềm đặc biệt chú ý tới các trang web mới, các
thay đổi đối với trang web hiện tại và các liên kết không còn hoạt động.
Các chương trình máy tính xác định những trang web nào cần thu thập thông tin,
tần suất cũng như số lượng trang cần tìm nạp từ mỗi trang web. Google không chấp nhận
khoản thanh toán để thu thập thông tin một trang web thường xuyên hơn cho các kết quả
tìm kiếm trên web của mình. Google quan tâm hơn đến việc có các kết quả tốt nhất có
thể bởi vì về lâu dài, đó là điều tốt nhất cho người dùng và do vậy, cho doanh nghiệp của
Google.
Googlebots có 2 loại : freshbots và deepbots. Mỗi loại có một chức năng khác
nhau:
- Freshbots:
Các spider sẽ đi khắp mạng lưới internet để thu thập những dữ liệu mới. Thông tin
thu thập sẽ được lưu trữ tạm thời trong một database phụ riêng biệt và được cập nhật bất
cứ khi nào spider tìm thấy dữ liệu mới.
- Deepbots:
Còn gọi là “monthly crawler” , loại spider này sẽ đi đến tất cả những trang nằm
sâu nhất của website để thu thập thông tin bằng cách tìm và đi theo bất cứ liên kết nào có
trong cấu trúc của website. Nó có trách nhiệm truy cập các nội dung ẩn sâu bên trong và
lưu trữ những trang mà nó ghé thăm.
Googlebots cũng như các công cụ thu thập dữ liệu khác, rất nhỏ bé nhưng lại có
tác dụng vô cùng to lớn. Nó đóng vai trò quan trọng trong hệ thống thu thập và lưu trữ
thông tin từ hằng trăm, hàng ngàn website trên thế giới.
1.2 Bộ phận lập chỉ mục (index)
Hệ thống web giống như một thư viện công cộng không ngừng phát triển với hàng
tỷ cuốn sách và không có hệ thống quản lý trung tâm. Google về cơ bản gom góp các
trang web trong quá trình thu thập thông tin, sau đó tạo chỉ mục để biết chính xác cách tra
cứu nội dung. Giống như chỉ mục ở phía sau của một cuốn sách, chỉ mục của Google
cũng bao gồm thông tin về các từ và vị trí của chúng. Khi bạn tìm kiếm, ở mức cơ bản
nhất, các thuật toán của Google sẽ tra cứu những cụm từ tìm kiếm của bạn trong chỉ mục
để tìm các trang phù hợp.
Quy trình tìm kiếm trở nên phức tạp hơn kể từ giai đoạn đó. Khi bạn tìm kiếm
từ “chó” bạn không muốn một trang với từ “chó” xuất hiện hàng trăm lần. Bạn có thể
muốn tìm hình ảnh, video hoặc một danh sách các giống chó. Các hệ thống lập chỉ mục
của Google ghi chú nhiều khía cạnh khác nhau của trang, chẳng hạn như thời gian trang
được xuất bản, liệu trang có chứa hình ảnh và video hay không và nhiều hơn thế. Với Đồ
thị tri thức này, Google tiếp tục đi xa hơn việc kết hợp từ khóa để hiểu rõ hơn về con
người, địa điểm và những thứ mà bạn quan tâm.
Hình 3.1.1. Google bot đi qua các website và đánh chỉ mục nó
1.3 Bộ phận xử lí– tínhtoán
Đây là quá trình tính toán của Google nhằm cung cấp các kết quả cho người tìm kiếm.
Theo thống kê, Google sử dụng hơn 200 yếu tố để xếp hạng trang web. Các yếu tố này có
tầm quan trọng khác nhau, tuy nhiên một trong những yếu tố quan trọng nhất để xếp hạng
đó là dựa trên chất lượng nội dung và chất lượng của những liên kết đến trang web của
bạn.
VD:
- Sự mới mẻ của nội dung trong trang web
- Từ ngữ dùng trong trang web
- Từ đồng nghĩa với từ khóa tìm kiếm
- Chất lượng nội dung của trang web
.....
Các thuật toán xếp hạng của Google
1.3.1 Thuật toán Google Panda (gấu trúc)
Google panda (Gấu Trúc) là một trong nhiều thuật toán của Google nhằm giảm thứ hạng
của những Website kém chất lượng trên kết quả tìm kiếm.
Việc copy bài viết từ các nguồn khác nhau paste về website của mình dẫn đến sự bùng nổ
của các website, làm xao nhãng thông tin, tạo ra vô số các website rác, có mật độ từ khóa
không phù hợp, không liên quan.
Trước thời điểm Google Panda ra đời, các website rác này vẫn có thứ hạng cao hơn
những trang có nội dung gốc vì hệ thống xếp hạng của Google trước đây xếp hạng dựa
trên số lượng bài viết, mật độ từ khóa, số lượng liên kết…Những website rác lấn lướt trên
bảng xếp hạng của Google khiến người dùng cảm thấy thông tin bị nhiễu khi tìm thấy
quá nhiều trang không hữu ích và thoát ra ngay sau đó.
Vì sao giảm thứ hạng Website kém chất lượng đó là: Nội dung bài viết kém chất lượng
nội dung, nội dung copy, số lượng quảng cáo lớn, link spam quá nhiều, lượng backlink
tăng một cách đột ngột trong khoảng thời gian ngắn, site không có nội dung mới. Những
Website vi phạm bản quyền sẽ bị phạt nặng.
Google Panda sẽ loại bỏ những nội dung rác, nội dung copy, loại bỏ những website có
thương hiệu kém… Đây là bộ lọc quan trọng để cải tiến các kết quả tìm kiếm mới của
Google
Google Panda ra đời để phục vụ người dùng hiệu quả hơn, cung cấp những website có
nội dung chất lượng hơn.
1.3.2 Thuật toán Google Penguin (chim Cách Cụt)
Google Penguin là thuật toán cập nhật của Google lần đầu tiên được công bố vào ngày 24
tháng 4 năm 2012 . Bản cập nhật là nhằm mục đích giảm thứ hạng các trang web vi phạm
quy định quản trị website của google - sử dụng các kỹ thuật SEO mũ đen như nhồi nhét
backlink, backlink ẩn ,mua bán backlink, backlink trên nội dung trùng lặp, …
1.3.3 Thuật toán Google Hummingbird (chim Ruồi)
Thuật toán Google Hummingbird được công bố chính thức vào ngày 26/09/2013 làmột
trong những thuật toán cực kỳ thông minh và chính xác, có khả năng tìm kiếm bằng
giọng nói của người dùng trên thiết bị di động.
Hiểu được những câu hỏi dài của người dùng:đọc hiểu, giải đáp được những câu hỏi của
người dùng một cách nhanh chóng thông qua công nghệ Knowledge Graph, thuật toán
mệnh danh là nhanh chóng và chính xác ,Google có thể chọn lọc chính xác và cung cấp
câu trả lời cho người dùng nhanh chóng trong một khoảng thời gian rất ngắn. Người dùng
không cần phải mò từng trang để xem kết quả mà dữ liệu hiện sẵn cho nhìn thấy câu trả
lời rất dể tìm.
Công nghệ tìm kiếm bằng giọng nói: Một đột phá lớn của công nghệ Google. Nắm bắt
được thị trường nhu cầu sử dụng thiết bị di động ngày càng nhiều và lớn, Google đã ứng
dụng tìm kiếm bằng giọng nói trên thiết bị di động.
Nội dung website: đưa ra những yêu cầu cao hơn về mặt nội dung gồm những yếu tố sau:
nội dung tập trung và chuyên sâu và độc đáo về một mảng nào đó, từ khóa trong nội
dung, bình luận trên website…
1.3.4 Thuật toán Google Zebra (ngựa Vằn)
Là một thuật toán của Google nhằm phạt các SEOer có những website đi link spam bừa
bãi vào các mạng xã hội, đặt biệt siết chặt hơn ở mạng xã hội Google Plus.
Thuật toán này nhắm đến:
- Spam liên kết lên comment người khác, Spam lên Group không đúng danh mục.
- Mạo danh tài khoản Google+.
- Chia sẻ quá nhiều liên kết trên Google+ của bạn.
- Kết bạn bừa bãi.
- Lạm dụng spam Social Bookmarking.
- Con số ngầm: Con số ngầm là điểm chất lượng mà Google+ dành cho bạn.
1.3.5 Thuật toán Google Pigeon (chim Bồ Câu)
Đây là thuật toán nhằm mục đích để sắp xếp chặt chẽ hơn kết quả tìm kiếm theo địa
phương.
Thuật toán Google Piegon (chim bồ câu) sẽ sắp xếp toàn bộ các Website có liên quan đến
địa phương, tìm các từ đồng nghĩa. Hoạt động dựa theo công nghệ Google PigeonRank
(ra đời vào 2012), công nghệ này xử lý theo kết quả tìm kiếm chính xác và nhanh nhất
theo địa điểm.
2. Cơ chế hoạt động của Google Spider ( Googlebot )
Hình 3.2.1 Cơ chế hoạt động của Google Spider
- Đầu tiên Google Spider sẽ lấy danh sách các máy chủ và trang web phổ biến. Sau đó nó
sẽ bắt đầu tìm kiếm với một site bất kỳ, nó đánh chỉ mục các từ khóa trên trang và theo
các liên kết (link) tìm thấy bên trong trang web này.
- Khi Spider xem xét các trang web (định dạng HTML), nó lưu ý: Các từ bên trong
trang web & nơi nó tìm thấy các từ đó.
Ví dụ: Các từ xuất hiện trong các thẻ tiêu đề, thẻ miêu tả…. nó nhận định đây là phần
quan trọng có liên quan đến sự tìm kiếm của người dùng sau này.
Vì thế đối với mỗi website Google nó sẽ có nhiều phương pháp để index lại chỉ mục, liệt
kê lại các từ khóa chính. Nhưng dù dùng cách nào thì Google cũng luôn cố gắng làm cho
hệ thống tìm kiếm diễn ra nhanh hơn để người dùng có thể tìm kiếm hiệu quả hơn hoặc
cả hai.
- Kế đó Google sẽ xây dựng chỉ mục
Xây dựng chỉ mục sẽ giúp cho các thông tin được tìm thấy một cách nhanh chóng. Sau
khi tìm thông tin trên trang web, Google Spider nhận ra rằng việc tìm kếm thông tin trên
website là một quá trình không bao giờ kết thúc… bởi vì các quản trị trang web luôn thay
đổi thông tin, cập nhật thông tin trên website và điều đó có nghĩa rằng Spider sẽ luôn phải
thực hiện nhiệm vụ thu thập dữ liệu.
Mình có thể lấy ví dụ 1 cách như sau: Giả sử website của bạn làm về ngành du lịch… nó
sẽ lưu các chỉ mục trên website của bạn vào ngành du lịch… Nếu site bạn làm về ca nhạc,
nó sẽ lưu các chỉ mục trên web bạn vào ngành ca nhạc.
Xử lý và tính toán:
- Sau khi lập chỉ mục Google sẽ xử lý, tính toán và mã hóa thông tin để lưu trữ trong cơ
sở dữ liệu. Và khi có một truy vấn tìm kiếm thì hệ thống sẽ trả về các kết quả có chứa
nội dung hữu ích tương ứng với các truy vấn tìm kiếm của người dùng.
3. Tổng kết về cách tìm kiếm của google
Khi người sử dụng gõ một từ khóa vào thanh tìm kiếm của Google, việc đầu tiên
Google thực hiện là đảo qua hàng tỷ trang web trong danh mục và cho hiển thị những kết
quả phù hợp với cụm từ tìm kiếm. sau đó Google sẽ sắp xếp chúng sao cho những kết quả
có chất lượng cao nhất sẽ hiển thị ở vị trí đầu tiên của danh sách và những kết quả có chất
lượng thấp nhất ở vị trí cuối cùng.
Việc xếp hạng dựa trên sự kết hợp của nhiều tiêu chí nhưng cơ bản nhất là hai tiêu
chí: Một là sự liên quan và hai là uy tín.
Sự liên quan là thước đo mức độ phù hợp của trang web với một cụm từ đang được tìm
kiếm. Nó dựa trên các yếu tố như Tiêu đề (đôi khi được gọi là “Tên trang web”), nội
dung, và chuỗi ký tự liên kết (Anchor Text) của đường dẫn đến trang của bạn.
Còn uy tín của trang web được đo lường bằng mức độ quan trọng và sức ảnh hưởng của
trang web đó dưới quan điểm của Google.
Hình 3.3.1 Infographic về cách Google tìm kiếm theo từ khóa
Tài Liệu Tham Khảo
- Google.com.
- sopa.vn, tapchimarketingonline.com.
- vi.wikipedia.org, en.wikipedia.org
- tinhte.vn , vnreview.vn
Bảng phân công công việc:
Tìm hiểu
thông tin
chung về
Google
Tìm hiểu
về
Google
Spider
Tỉm hiểu về
bộ phận thu
thập dữ liệu
Tìm hiểu về
bộ phận lập
chỉ mục
Tìm hiểu về
bộ phận xử
lí tính toán
Tổng hợp
và viết báo
cáo
Trần Minh Nhật -
13520583 (nhóm trưởng)
X X X
Lê Nhật Tánh - 13520756 X
(chặng
đường phát
triển)
X
Trần Huỳnh Ngọc Tiên -
14520946
X
(lịch sử
google)
X
Lê Quang Phú -14520680 X X X
Đinh Ngọc Tuấn -
14521040
X
(chặng
đường phát
triển)
X

More Related Content

Similar to Bao caogtn

Quản lý công nghiệp(hoàn chỉnh) (1)
Quản lý công nghiệp(hoàn chỉnh) (1)Quản lý công nghiệp(hoàn chỉnh) (1)
Quản lý công nghiệp(hoàn chỉnh) (1)Hien Nguyen
 
Google company's culture
Google company's cultureGoogle company's culture
Google company's cultureKate JaeShin
 
Google them google+ vao cong cu tim kiem - va con nhieu thay doi lon hon nua
Google them google+ vao cong cu tim kiem - va con nhieu thay doi lon hon nuaGoogle them google+ vao cong cu tim kiem - va con nhieu thay doi lon hon nua
Google them google+ vao cong cu tim kiem - va con nhieu thay doi lon hon nuaAIT-JSC
 
Google câu chuyện thần kỳ
Google   câu chuyện thần kỳGoogle   câu chuyện thần kỳ
Google câu chuyện thần kỳZamina.vn
 
đồ án luận văn tốt nghiệp khoa công nghệ thông tin SEO website dn24h.com lên ...
đồ án luận văn tốt nghiệp khoa công nghệ thông tin SEO website dn24h.com lên ...đồ án luận văn tốt nghiệp khoa công nghệ thông tin SEO website dn24h.com lên ...
đồ án luận văn tốt nghiệp khoa công nghệ thông tin SEO website dn24h.com lên ...Phòng Khám Sài Gòn
 
Thuyết trình về tìm kiếm thông tin trên internet
Thuyết trình về tìm kiếm thông tin trên internetThuyết trình về tìm kiếm thông tin trên internet
Thuyết trình về tìm kiếm thông tin trên internetvutung21
 
Cẩm nang doanh nhân cẩm nang doanh nhân
Cẩm nang doanh nhân cẩm nang doanh nhânCẩm nang doanh nhân cẩm nang doanh nhân
Cẩm nang doanh nhân cẩm nang doanh nhânbinhlh_
 
Bao cao tong hop
Bao cao tong hopBao cao tong hop
Bao cao tong hopHắc Ảnh
 
12 cong cu phan tich tu khoa hieu qua cho cac chien dich seo
12 cong cu phan tich tu khoa hieu qua cho cac chien dich seo12 cong cu phan tich tu khoa hieu qua cho cac chien dich seo
12 cong cu phan tich tu khoa hieu qua cho cac chien dich seoThiết
 
Tối ưu hoá công cụ tìm kiếm (SEO) cho báo điện tử
Tối ưu hoá công cụ tìm kiếm (SEO) cho báo điện tửTối ưu hoá công cụ tìm kiếm (SEO) cho báo điện tử
Tối ưu hoá công cụ tìm kiếm (SEO) cho báo điện tửluanvantrust
 
Quỳnh anh nag luc va no luc cong nghe
Quỳnh anh  nag luc va no luc cong ngheQuỳnh anh  nag luc va no luc cong nghe
Quỳnh anh nag luc va no luc cong nghequynhbeo93
 
Giao trinh google search (gui hoc sinh)
Giao trinh google search (gui hoc sinh)Giao trinh google search (gui hoc sinh)
Giao trinh google search (gui hoc sinh)Kieu Anh Nguyen
 
Big data là gì và người ta khai thác
Big data là gì và người ta khai thácBig data là gì và người ta khai thác
Big data là gì và người ta khai thácletranganh
 

Similar to Bao caogtn (20)

Quản lý công nghiệp(hoàn chỉnh) (1)
Quản lý công nghiệp(hoàn chỉnh) (1)Quản lý công nghiệp(hoàn chỉnh) (1)
Quản lý công nghiệp(hoàn chỉnh) (1)
 
Google company's culture
Google company's cultureGoogle company's culture
Google company's culture
 
đề TàI 2
đề TàI 2đề TàI 2
đề TàI 2
 
Google them google+ vao cong cu tim kiem - va con nhieu thay doi lon hon nua
Google them google+ vao cong cu tim kiem - va con nhieu thay doi lon hon nuaGoogle them google+ vao cong cu tim kiem - va con nhieu thay doi lon hon nua
Google them google+ vao cong cu tim kiem - va con nhieu thay doi lon hon nua
 
Cau truyen ve google 1
Cau truyen ve google 1Cau truyen ve google 1
Cau truyen ve google 1
 
Thiet ke-web-site-google
Thiet ke-web-site-googleThiet ke-web-site-google
Thiet ke-web-site-google
 
Google câu chuyện thần kỳ
Google   câu chuyện thần kỳGoogle   câu chuyện thần kỳ
Google câu chuyện thần kỳ
 
đồ án luận văn tốt nghiệp khoa công nghệ thông tin SEO website dn24h.com lên ...
đồ án luận văn tốt nghiệp khoa công nghệ thông tin SEO website dn24h.com lên ...đồ án luận văn tốt nghiệp khoa công nghệ thông tin SEO website dn24h.com lên ...
đồ án luận văn tốt nghiệp khoa công nghệ thông tin SEO website dn24h.com lên ...
 
Xây dựng liên kết
Xây dựng liên kếtXây dựng liên kết
Xây dựng liên kết
 
Xây dựng liên kết
Xây dựng liên kếtXây dựng liên kết
Xây dựng liên kết
 
Thuyết trình về tìm kiếm thông tin trên internet
Thuyết trình về tìm kiếm thông tin trên internetThuyết trình về tìm kiếm thông tin trên internet
Thuyết trình về tìm kiếm thông tin trên internet
 
Cẩm nang doanh nhân cẩm nang doanh nhân
Cẩm nang doanh nhân cẩm nang doanh nhânCẩm nang doanh nhân cẩm nang doanh nhân
Cẩm nang doanh nhân cẩm nang doanh nhân
 
Bao cao tong hop
Bao cao tong hopBao cao tong hop
Bao cao tong hop
 
Topic 3 XÂY DỰNG LIÊN KẾT
Topic 3 XÂY DỰNG LIÊN KẾTTopic 3 XÂY DỰNG LIÊN KẾT
Topic 3 XÂY DỰNG LIÊN KẾT
 
12 cong cu phan tich tu khoa hieu qua cho cac chien dich seo
12 cong cu phan tich tu khoa hieu qua cho cac chien dich seo12 cong cu phan tich tu khoa hieu qua cho cac chien dich seo
12 cong cu phan tich tu khoa hieu qua cho cac chien dich seo
 
Tối ưu hoá công cụ tìm kiếm (SEO) cho báo điện tử
Tối ưu hoá công cụ tìm kiếm (SEO) cho báo điện tửTối ưu hoá công cụ tìm kiếm (SEO) cho báo điện tử
Tối ưu hoá công cụ tìm kiếm (SEO) cho báo điện tử
 
Foot printing
Foot printingFoot printing
Foot printing
 
Quỳnh anh nag luc va no luc cong nghe
Quỳnh anh  nag luc va no luc cong ngheQuỳnh anh  nag luc va no luc cong nghe
Quỳnh anh nag luc va no luc cong nghe
 
Giao trinh google search (gui hoc sinh)
Giao trinh google search (gui hoc sinh)Giao trinh google search (gui hoc sinh)
Giao trinh google search (gui hoc sinh)
 
Big data là gì và người ta khai thác
Big data là gì và người ta khai thácBig data là gì và người ta khai thác
Big data là gì và người ta khai thác
 

Recently uploaded

30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection
 
QUẢN LÝ HOẠT ĐỘNG GIÁO DỤC KỸ NĂNG SỐNG CHO HỌC SINH CÁC TRƯỜNG TRUNG HỌC CƠ ...
QUẢN LÝ HOẠT ĐỘNG GIÁO DỤC KỸ NĂNG SỐNG CHO HỌC SINH CÁC TRƯỜNG TRUNG HỌC CƠ ...QUẢN LÝ HOẠT ĐỘNG GIÁO DỤC KỸ NĂNG SỐNG CHO HỌC SINH CÁC TRƯỜNG TRUNG HỌC CƠ ...
QUẢN LÝ HOẠT ĐỘNG GIÁO DỤC KỸ NĂNG SỐNG CHO HỌC SINH CÁC TRƯỜNG TRUNG HỌC CƠ ...ThunTrn734461
 
Sáng kiến Dạy học theo định hướng STEM một số chủ đề phần “vật sống”, Khoa họ...
Sáng kiến Dạy học theo định hướng STEM một số chủ đề phần “vật sống”, Khoa họ...Sáng kiến Dạy học theo định hướng STEM một số chủ đề phần “vật sống”, Khoa họ...
Sáng kiến Dạy học theo định hướng STEM một số chủ đề phần “vật sống”, Khoa họ...Nguyen Thanh Tu Collection
 
Chàm - Bệnh án (da liễu - bvdlct ctump) .pptx
Chàm - Bệnh án (da liễu - bvdlct ctump) .pptxChàm - Bệnh án (da liễu - bvdlct ctump) .pptx
Chàm - Bệnh án (da liễu - bvdlct ctump) .pptxendkay31
 
SÁNG KIẾN “THIẾT KẾ VÀ SỬ DỤNG INFOGRAPHIC TRONG DẠY HỌC ĐỊA LÍ 11 (BỘ SÁCH K...
SÁNG KIẾN “THIẾT KẾ VÀ SỬ DỤNG INFOGRAPHIC TRONG DẠY HỌC ĐỊA LÍ 11 (BỘ SÁCH K...SÁNG KIẾN “THIẾT KẾ VÀ SỬ DỤNG INFOGRAPHIC TRONG DẠY HỌC ĐỊA LÍ 11 (BỘ SÁCH K...
SÁNG KIẾN “THIẾT KẾ VÀ SỬ DỤNG INFOGRAPHIC TRONG DẠY HỌC ĐỊA LÍ 11 (BỘ SÁCH K...Nguyen Thanh Tu Collection
 
Hệ phương trình tuyến tính và các ứng dụng trong kinh tế
Hệ phương trình tuyến tính và các ứng dụng trong kinh tếHệ phương trình tuyến tính và các ứng dụng trong kinh tế
Hệ phương trình tuyến tính và các ứng dụng trong kinh tếngTonH1
 
Tư tưởng Hồ Chí Minh về độc lập dân tộc và CNXH
Tư tưởng Hồ Chí Minh về độc lập dân tộc và CNXHTư tưởng Hồ Chí Minh về độc lập dân tộc và CNXH
Tư tưởng Hồ Chí Minh về độc lập dân tộc và CNXHThaoPhuong154017
 
BỘ ĐỀ KIỂM TRA CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO CẤU TRÚC ĐỀ MIN...
BỘ ĐỀ KIỂM TRA CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO CẤU TRÚC ĐỀ MIN...BỘ ĐỀ KIỂM TRA CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO CẤU TRÚC ĐỀ MIN...
BỘ ĐỀ KIỂM TRA CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO CẤU TRÚC ĐỀ MIN...Nguyen Thanh Tu Collection
 
Thong bao 337-DHPY (24.4.2024) thi sat hach Ngoai ngu dap ung Chuan dau ra do...
Thong bao 337-DHPY (24.4.2024) thi sat hach Ngoai ngu dap ung Chuan dau ra do...Thong bao 337-DHPY (24.4.2024) thi sat hach Ngoai ngu dap ung Chuan dau ra do...
Thong bao 337-DHPY (24.4.2024) thi sat hach Ngoai ngu dap ung Chuan dau ra do...hoangtuansinh1
 
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdfChuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdfhoangtuansinh1
 
Ma trận - định thức và các ứng dụng trong kinh tế
Ma trận - định thức và các ứng dụng trong kinh tếMa trận - định thức và các ứng dụng trong kinh tế
Ma trận - định thức và các ứng dụng trong kinh tếngTonH1
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection
 
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...Nguyen Thanh Tu Collection
 
Bai 1 cong bo mot cong trinh nghien cuu khoa hoc
Bai 1 cong bo mot cong trinh nghien cuu khoa hocBai 1 cong bo mot cong trinh nghien cuu khoa hoc
Bai 1 cong bo mot cong trinh nghien cuu khoa hocVnPhan58
 
Trích dẫn trắc nghiệm tư tưởng HCM5.docx
Trích dẫn trắc nghiệm tư tưởng HCM5.docxTrích dẫn trắc nghiệm tư tưởng HCM5.docx
Trích dẫn trắc nghiệm tư tưởng HCM5.docxnhungdt08102004
 
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection
 
Sáng kiến “Sử dụng ứng dụng Quizizz nhằm nâng cao chất lượng ôn thi tốt nghiệ...
Sáng kiến “Sử dụng ứng dụng Quizizz nhằm nâng cao chất lượng ôn thi tốt nghiệ...Sáng kiến “Sử dụng ứng dụng Quizizz nhằm nâng cao chất lượng ôn thi tốt nghiệ...
Sáng kiến “Sử dụng ứng dụng Quizizz nhằm nâng cao chất lượng ôn thi tốt nghiệ...Nguyen Thanh Tu Collection
 
Slide Webinar Hướng dẫn sử dụng ChatGPT cho người mới bắt đầ...
Slide Webinar Hướng dẫn sử dụng ChatGPT cho người mới bắt đầ...Slide Webinar Hướng dẫn sử dụng ChatGPT cho người mới bắt đầ...
Slide Webinar Hướng dẫn sử dụng ChatGPT cho người mới bắt đầ...Học viện Kstudy
 
Kiểm tra chạy trạm lí thuyết giữa kì giải phẫu sinh lí
Kiểm tra chạy trạm lí thuyết giữa kì giải phẫu sinh líKiểm tra chạy trạm lí thuyết giữa kì giải phẫu sinh lí
Kiểm tra chạy trạm lí thuyết giữa kì giải phẫu sinh líDr K-OGN
 
Sơ đồ tư duy môn sinh học bậc THPT.pdf
Sơ đồ tư duy môn sinh học bậc THPT.pdfSơ đồ tư duy môn sinh học bậc THPT.pdf
Sơ đồ tư duy môn sinh học bậc THPT.pdftohoanggiabao81
 

Recently uploaded (20)

30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
QUẢN LÝ HOẠT ĐỘNG GIÁO DỤC KỸ NĂNG SỐNG CHO HỌC SINH CÁC TRƯỜNG TRUNG HỌC CƠ ...
QUẢN LÝ HOẠT ĐỘNG GIÁO DỤC KỸ NĂNG SỐNG CHO HỌC SINH CÁC TRƯỜNG TRUNG HỌC CƠ ...QUẢN LÝ HOẠT ĐỘNG GIÁO DỤC KỸ NĂNG SỐNG CHO HỌC SINH CÁC TRƯỜNG TRUNG HỌC CƠ ...
QUẢN LÝ HOẠT ĐỘNG GIÁO DỤC KỸ NĂNG SỐNG CHO HỌC SINH CÁC TRƯỜNG TRUNG HỌC CƠ ...
 
Sáng kiến Dạy học theo định hướng STEM một số chủ đề phần “vật sống”, Khoa họ...
Sáng kiến Dạy học theo định hướng STEM một số chủ đề phần “vật sống”, Khoa họ...Sáng kiến Dạy học theo định hướng STEM một số chủ đề phần “vật sống”, Khoa họ...
Sáng kiến Dạy học theo định hướng STEM một số chủ đề phần “vật sống”, Khoa họ...
 
Chàm - Bệnh án (da liễu - bvdlct ctump) .pptx
Chàm - Bệnh án (da liễu - bvdlct ctump) .pptxChàm - Bệnh án (da liễu - bvdlct ctump) .pptx
Chàm - Bệnh án (da liễu - bvdlct ctump) .pptx
 
SÁNG KIẾN “THIẾT KẾ VÀ SỬ DỤNG INFOGRAPHIC TRONG DẠY HỌC ĐỊA LÍ 11 (BỘ SÁCH K...
SÁNG KIẾN “THIẾT KẾ VÀ SỬ DỤNG INFOGRAPHIC TRONG DẠY HỌC ĐỊA LÍ 11 (BỘ SÁCH K...SÁNG KIẾN “THIẾT KẾ VÀ SỬ DỤNG INFOGRAPHIC TRONG DẠY HỌC ĐỊA LÍ 11 (BỘ SÁCH K...
SÁNG KIẾN “THIẾT KẾ VÀ SỬ DỤNG INFOGRAPHIC TRONG DẠY HỌC ĐỊA LÍ 11 (BỘ SÁCH K...
 
Hệ phương trình tuyến tính và các ứng dụng trong kinh tế
Hệ phương trình tuyến tính và các ứng dụng trong kinh tếHệ phương trình tuyến tính và các ứng dụng trong kinh tế
Hệ phương trình tuyến tính và các ứng dụng trong kinh tế
 
Tư tưởng Hồ Chí Minh về độc lập dân tộc và CNXH
Tư tưởng Hồ Chí Minh về độc lập dân tộc và CNXHTư tưởng Hồ Chí Minh về độc lập dân tộc và CNXH
Tư tưởng Hồ Chí Minh về độc lập dân tộc và CNXH
 
BỘ ĐỀ KIỂM TRA CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO CẤU TRÚC ĐỀ MIN...
BỘ ĐỀ KIỂM TRA CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO CẤU TRÚC ĐỀ MIN...BỘ ĐỀ KIỂM TRA CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO CẤU TRÚC ĐỀ MIN...
BỘ ĐỀ KIỂM TRA CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO CẤU TRÚC ĐỀ MIN...
 
Thong bao 337-DHPY (24.4.2024) thi sat hach Ngoai ngu dap ung Chuan dau ra do...
Thong bao 337-DHPY (24.4.2024) thi sat hach Ngoai ngu dap ung Chuan dau ra do...Thong bao 337-DHPY (24.4.2024) thi sat hach Ngoai ngu dap ung Chuan dau ra do...
Thong bao 337-DHPY (24.4.2024) thi sat hach Ngoai ngu dap ung Chuan dau ra do...
 
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdfChuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
 
Ma trận - định thức và các ứng dụng trong kinh tế
Ma trận - định thức và các ứng dụng trong kinh tếMa trận - định thức và các ứng dụng trong kinh tế
Ma trận - định thức và các ứng dụng trong kinh tế
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
 
Bai 1 cong bo mot cong trinh nghien cuu khoa hoc
Bai 1 cong bo mot cong trinh nghien cuu khoa hocBai 1 cong bo mot cong trinh nghien cuu khoa hoc
Bai 1 cong bo mot cong trinh nghien cuu khoa hoc
 
Trích dẫn trắc nghiệm tư tưởng HCM5.docx
Trích dẫn trắc nghiệm tư tưởng HCM5.docxTrích dẫn trắc nghiệm tư tưởng HCM5.docx
Trích dẫn trắc nghiệm tư tưởng HCM5.docx
 
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
Sáng kiến “Sử dụng ứng dụng Quizizz nhằm nâng cao chất lượng ôn thi tốt nghiệ...
Sáng kiến “Sử dụng ứng dụng Quizizz nhằm nâng cao chất lượng ôn thi tốt nghiệ...Sáng kiến “Sử dụng ứng dụng Quizizz nhằm nâng cao chất lượng ôn thi tốt nghiệ...
Sáng kiến “Sử dụng ứng dụng Quizizz nhằm nâng cao chất lượng ôn thi tốt nghiệ...
 
Slide Webinar Hướng dẫn sử dụng ChatGPT cho người mới bắt đầ...
Slide Webinar Hướng dẫn sử dụng ChatGPT cho người mới bắt đầ...Slide Webinar Hướng dẫn sử dụng ChatGPT cho người mới bắt đầ...
Slide Webinar Hướng dẫn sử dụng ChatGPT cho người mới bắt đầ...
 
Kiểm tra chạy trạm lí thuyết giữa kì giải phẫu sinh lí
Kiểm tra chạy trạm lí thuyết giữa kì giải phẫu sinh líKiểm tra chạy trạm lí thuyết giữa kì giải phẫu sinh lí
Kiểm tra chạy trạm lí thuyết giữa kì giải phẫu sinh lí
 
Sơ đồ tư duy môn sinh học bậc THPT.pdf
Sơ đồ tư duy môn sinh học bậc THPT.pdfSơ đồ tư duy môn sinh học bậc THPT.pdf
Sơ đồ tư duy môn sinh học bậc THPT.pdf
 

Bao caogtn

  • 1. TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC MÁY TÍNH MÔN HỌC GIỚI THIỆU NGÀNH BÀI BÁO CÁO Đồ án: Khảo sát và phân tích một số kĩ thuật trong hệ thống tìm kiếm dựa trên từ khóa của website google.com Lớp: IT009.F24 GVHD: Nguyển Gia Tuấn Anh SVTH: - Trần Minh Nhật – 13520583 (Nhóm trưởng) . - Lê Nhật Tánh – 13520756 - Trần Huỳnh Ngọc Tiên – 14520946 - Lê Quang Phú -14520680 - Đinh Ngọc Tuấn -14521040 TP.Hồ Chí Minh, tháng 03 năm 2015
  • 2. MỤC LỤC Chương I: Phần Mở Đầu ……………………………………………………….……….3 Chương II: Lịch Sử Phát Triển Của Google & Hình Thành Của Search Engine Google……………………………………………………………………………….…….4 1. Giới thiệu chung về Google…………………………………………….….….4 2. Lịch sử phát triển của Google……………………………………….………..4 3. Những chặn đường phát triển của Google.com……………………………...5 3.1. Sự phát triểncủa Google………………………………………….......5 3.2. Những lần thay đổi giaodiện của công cụ tìmkiếm……………...….14 Chương III: Cơ chế tìm kiếm của Google……………………………………………...19 1. Các bộ phận của công cụ tìm kiếm…………………………………………19 1.1. Bộ phận thu thập dữ liệu………………………………………….….19 1.2. Bộ phận lập chỉ mục (index)……………………………………….…20 1.3. Bộ phận xử lí–tínhtoán……………………………………………....21 1.3.1. Thuật toán Google Panda……………………………………...…22 1.3.2. Thuật toán Google Penguin………………………………...…….22 1.3.3. Thuật toán Google Hummingbird…………………………….....23 1.3.4. Thuật toán GoogleZebra……………………………………...….23 1.3.5. Thuật toán Google Pigeon……………………………………..…24 2. Cơ chế hoạt động của GoogleSpider……………………………………......24 3. Tổng kết về cách Googlehoạt động……………………………………….…25
  • 3. Chương I. Phần Mở Đầu Internet ra dời mở ra một thời đại công nghệ thông tin và truyền thông vượt trội, đánh dấu một bước ngoặt lịch sử mang con người đến gần nhau hơn. Với một tốc độ phát triển chóng mặt từ số lượng đến đường truyền, nội dung phong phú, từ 4 địa điểm kết nối mạng ở Mỹ, ngày nay internet dường như đã có mặt ở mọi lĩnh vực trong cuộc sống, và trở thành một xu hướng phát triển tất yếu. Internet khai sáng một kỷ nguyên mới mà ở đó con ngưởi có thể tìm kiếm khai thác thông tin, trao đổi, học tập…thông qua một thế giới ảo nhưng vô cùng tiện ích. Cùng với sự phát triển chung của xã hội loài người, internet cũng không nằm ngoài ngoại lệ đó, con người luôn yêu cầu về chất lượng nhanh hơn, chính xác hơn từ internet. Tất nhiên có cung thì ắt có cầu. Với một kho dữ liệu khổng lồ từ các máy chủ và mạng máy tính toàn cầu, người dùng internet khó lòng tìm được chính xác, hay khai thác được hết thông tin mà người dùng cần tìm kiếm. Sẽ rất khó khăn cho người sử dụng truy cập vào Internet để tìm kiếm một website có chủ đề phục vụ cho mục đích của mình vì hàng ngày có khoảng hơn 100.000 website mới được đưa lên mạng. Số lượng website trên mạng Internet hiện nay đã lên tới hơn 5 tỷ. Vì vậy, để phục vụ việc tìm kiếm nhanh chóng website của người sử dụng Internet, các công ty phần mềm trên thế giới đã viết ra những phần mềm mà ta gọi chung là Search Engine (máy tìm kiếm, hay công cụ tìm kiếm). Search Engine là phần mềm cung cấp các địa chỉ Web có chứa một hay nhiều thông tin, từ khoá (keywords) mà người dùng cần tìm kiếm. Hay nói một cách dễ hiểu Search Engine là các công cụ tìm kiếm như Google.com, Yahoo.com hay Bing.com… Đây là những công cụ tìm kiếm phổ biến và chiếm thị phần lớn nhất. Search Engine là một thư viện thông tin khổng lồ về các website, cho phép người sử dụng có thể tìm kiếm các website cần quan tâm theo một chủ đề nào đó căn cứ vào các từ khóa (keywords) mà người đó yêu cầu Search Engine tìm kiếm.
  • 4. Search Engine phổ biến nhất hiện nay chiếm đến 75.2% thị phần tìm kiếm là search engine Google. Chúng ta sẽ đi sâu và chi tiết về lịch sử và cách thức hoạt động của Search Engine Google. Chương II. Lịch Sử Phát Triển Của Google &Hình Thành Của Search Engine Google 1. Giới thiệu chung về Google Google là một công ty internet có trụ sở tại Mỹ, được thành lập vào năm 1998. Sản phẩm chính của công ty này là công cụ tìm kiếm Google, được nhiều người đánh giá là công cụ tìm kiếm hữu ích và mạnh mẽ nhất trên Internet. Trụ sở của Google tên là "Googleplex" tại Mountain View, California. Giám đốc không người nào khác đó là Larry page, 1 trong 2 người sáng lập ra công ty. Tên "Google" là một lỗi chính tả của từ googol, bằng 10100. Google chọn tên này để thể hiện sứ mệnh của công ty để sắp xếp số lượng thông tin khổng lồ trên mạng. Googleplex, tên của trụ sở Google, có nghĩa là 10googol. 2. Lịch sử phát triển của Google Đầu tiên (1996), Google là một công trình nghiên cứu của Larry Page và Sergey Brin hai nghiên cứu sinh tại trường Đại Học Stanford. Họ có giả thuyết cho rằng một công cụ tìm kiếm dựa vào phân tích các liên hệ giữa các website sẽ đem lại kết quả tốt hơn cách đang được hiện hành lúc bấy giờ (1996). Đầu tiên nó được gọi là BackRub (Gãi lưng) tại vì hệ thống này dùng các liên kết đến để ước tính tầm quan trọng của trang. Page và Brin tin rằng những trang có nhiều liên kết đến nhất từ các trang thích hợp khác sẽ là những trang thích hợp nhất. Họ đã quyết định thử nghiệm giả thuyết trong nghiên cứu của họ, tạo nền móng cho công cụ Google hiện đại bây giờ (http://www.google.com). Tên miền www.google.com được đăng ký ngày 15 tháng 9 năm 1997. Họ chính thức thành lập công tyGoogle, Inc. ngày 7 tháng năm 1998 tại một ga ra của nhà Esther Wojcicki (cũng là nhân viên thứ 16 của Google, Phó Chủ tịch cấp cao, phụ trách bộ phận quảng cáo) tại Menlo Park, California. Trong tháng 2 năm 1999, trụ sở dọn đến Palo Alto, là thành phố có nhiều trụ sở công ty công nghệ khác. Sau khi đổi chỗ hai lần nữa vì
  • 5. công ty quá lớn, trụ sở nay được đặt tại Mountain View, California, tại địa chỉ 1600 Amphitheater Parkway vào năm 2003. 3. Những chặn đường phát triển của Google 3.1. Sự phát triểncủa Google Giai đoạn 1996-1997: BackRub Khi Page và Brin gặp nhau tại đại học Stanford năm 1995 và cùng nhau quyết định tạo ra 1 công cụ tìm kiếm với tên gọi BackRub vào tháng 1/1996. Sau đó, cả 2 quyết định biến đổi tên gọi công cụ tìm kiếm của mình thành Google, 1 cách chơi chữ cho từ “gooogol”, với ý nghĩa của số 1 kèm theo 100 số 0 đằng sau, với hàm ý nhiệm vụ của họ để tạo nên 1 số lượng vô hạn các nguồn tài nguyên trên website. Và thực sự họ đã làm được. 1998: trang chủ đầu tiêncủa Google rađời Ngày 16/9, tên miền Google.com chính thức được đăng ký, tuy nhiên đến tận tháng 11, trang chủ của Google mới được xuất hiện. Vào đầu năm này, 2 nhà đồng sáng lập đã nhận được khoảng tài trợ đầu tiên giá trị 100.000 USD từ nhà đầu tư Andy Bechtolsheim. Tháng 9/1998, Larry Page và Sergey Brin từ khoảng đầu tư này đã quyết định thành lập công ty Google Inc trong gara căn hộ tại Menlo Park, California (Mỹ) và quyết định thuê nhân viên đầu tiên, Craig Silverstein. Hình 2.3.1. Giao diện đầu tiên trang chủ Google
  • 6. Một điều khá thú vị là cả Page lẫn Brin không giỏi trong việc sử dụng ngôn ngữ lập trình web HTML, do vậy, trang chủ của đầu tiên của Google khá sơ sài. Kèm với đó, cả 2 đã phải chèn thêm 1 thông điệp phía cuối trang để thông báo cho người dùng được biết nội dung trang đã được tải hết. Năm 1999: Chuyển đến văn phòng mới Sau 1 năm ra đời, Google chuyển đến trụ sở mỡi tại Mountain View (bang California), chính là trụ sở chính ngày nay của Google. Hãng cũng đã nhận thêm khoảng tiền đầu tư lên đến 25 triệu USD từ các nhà đầu tư. Hình 2.3.2. Tính năng tìm kiếm “Uncle Sam” Cũng trong năm nay, “Uncle Sam” (Chú Sam) là thuật ngữ quen thuộc của người Mỹ và Google đã đưa thêm thuật ngữ này lên trang chủ của mình vào năm 1999, cho phép người dùng tìm kiếm các tài liệu liên quan đến chính phủ Mỹ. Năm 2000: Google trở thành công cụ tìm kiếm mặc định của Yahoo Google đã dần khẳng định tên tuổi của mình khi hợp tác và trở thành công cụ tìm kiếm mặc định của Yahoo, là “thế lực hàng đầu” vào thời điểm đó trong làng công nghệ.
  • 7. Hình 2.3.3.Bắt tay với Yahoo là 1 động thái khẳng định “tên tuổi” của Google Ngoài sự hợp tác này, Google tuyên bố rằng mình đã đánh dấu được hơn 1 tỷ trang web và trở thành công cụ tìm kiếm lớn nhất thế giới. Trong năm này, Google cũng lần đầu tiên ra mắt dịch vụ quảng cáo Adword, dịch vụ cho phép các doanh nghiệp mua quảng cáo theo từ khóa để xuất hiện nội dung quảng cáo cạnh kết quả tìm kiếm. Năm 2001: Ra mắt công cụ tìm kiếm hình ảnh Tính năng tìm kiếm hình ảnh (Image search) được Google công bố vào tháng 7/2001. Ngay khi ra mắt, Google cho biết đã ghi dấu được hơn 250 triệu hình ảnh.
  • 8. Hình 2.3.4. Tính năng tìm kiếm hình ảnh vẫn là tính năng hữu ích ngày nay Năm 2002: Thiết bị Google Search Applicance Đầu năm 2002, Google giới thiệu thiết bị phần cứng đầu tiên của mình, Google Search Appliance, thiết bị cho phép kết nối với máy tính và cung cấp các tính năng tìm kiếm nâng cao cho dữ liệu bên trong. Hình 2.3.5. Đây là thiết bị phần cứng đầu tiên của Google Năm 2003: Ra mắt Adsense Google giới thiệu công cụ quảng cáo trực tuyến lớn nhất thế giới, Adsense. Đây là hình thức quảng cáo kết hợp cùng Google Adword, cho phép đặt quảng cáo từ các nhà quảng cáo lên các trang web từ bên thứ 3 để thu hút thêm khách ghé thăm cho các nhà quảng cáo. Hình 2.3.6. Adsense là “con gà đẻ trứng vàng” thực sự của Google
  • 9. Năm 2004: Dịch vụ email Gmail Google ra mắt Gmail vào đúng ngày “cá tháng tư” 1/4/2004, tuy nhiên phiên bản thử nghiệm yêu cầu người dùng phải có thư mời mới được phép tham gia. Tuy còn nhiều hạn chế, tuy nhiên Gmail đã nhanh chóng thu hút được đông đảo người sử dụng nhờ những ưu điểm vượt trội của nó. Hình 2.3.7. Gmail hiện là dịch vụ email hàng đầu hiện nay Ngày nay, Google đã mở cửa để người dùng tham gia Gmail miễn phí và Gmail nhanh chóng trở thành dịch vụ email hàng đầu thế giới về lượng người dùng. Năm 2005: Bản đồ trực tuyến Google Maps Bản đồ trực tuyến được Google giới thiệu vào tháng 2/2005 và được tích hợp lên iPhone vào năm 2007. Cùng với sự ra mắt của Google Maps, tháng 6/2005, ứng dụng Google Earth, phiên bản vệ tinh bản đồ trái đất cũng được Google trình làng.
  • 10. Hình 2.3.8. Google Earth là dịch vụ tra cứu bản đồ hàng đầu hiện nay Cũng trong năm nay, Google ra mắt công cụ tìm kiếm code.google.com, cho phép các lập trình viên tìm kiếm mã nguồn lập trình ứng dụng khi cần thiết. Ngoài ra, Google cũng đã thâu tóm Urchin, dịch vụ tối ưu dữ liệu mà sau này được Google phát triển thành dịch vụ Google Analytics. Năm 2006: Thâu tóm Youtube Với mức giá 1,65 tỷ USD, thương vụ thâu tóm Youtube vào tháng 10/2006 là một trong những thương vụ lớn nhất trong lịch sử Google và cao nhất vào thời điểm bấy giờ. Ngày nay, Youtube đã trở thành dịch vụ xem và chia sẻ video trực tuyến lớn nhất thế giới, với hàng triệu đoạn video được chia sẻ mỗi ngày. Hình 2.3.9 .Youtube đã nhanh chóng trở thành dịch vụ chia sẻ video hàng đầu thế giới Cũng trong năm nay, Google cho ra mắt dịch vụ Gchat, dịch vụ chat được tích hợp ngay bên trong hộp thư Gmail.
  • 11. Năm 2007: Thâu tóm Android Tháng 11/2007, Google mua lại công ty Android, mà Google gọi đây là “nền tảng di động mở đầu tiên trên thế giới”. Mặc dù thương vụ mua lại Android không phải là thương vụ “bom tấn” thực sự gây chú ý, tuy nhiên đây lại là một trong những thương vụ thành công nhất của Google. Hình 2.3.10. Android là một trong các thương vụ thành công nhất của Google Năm 2008: Trình duyệt web Chrome ra đời Tháng 9/2008, Google giới thiệu Chrome, trình duyệt web mã nguồn mở của mình và nhanh chóng chiếm được thị phần trên thị trường trình duyệt web. Tốc độ phát triển của Chrome là rất nhanh chóng. Tính đến thời điểm hiện tại, Chrome đã trải qua 13 phiên bản chính thức và phiên bản thử nghiệm thứ 14 cũng vừa được trình làng.
  • 12. Hình 2.3.11. Trình duyệt Google Chrome ra mắt và có bước phát triển nhanh chóng Cũng trong năm nay, hãng viễn thông T-Mobile giới thiệu G1, chiếc điện thoại đầu tiên sử dụng nền tảng Androdi của Google. Năm 2009: Google Wave - Thất bại của Google Quá nhiều trông đợi, quá nhiều tính năng được giới thiệu trên nền tảng Wave, Google hy vọng sẽ mạng đến cho người dùng một “phòng làm việc” và 1 mạng xã hội đúng nghĩa. Tuy nhiên, tính năng quá phức tạp và rườm rà, chỉ hơn 1 năm sau, Google đã phải thừa nhận Wave là sự thất bại của mình. Hình 2.3.12. Đặt quá nhiều kỳ vọng khiến Google Wave nhanh chóng thất bại Năm 2010: Ra mắt “chợ ứng dụng” Google Apps Marketplace Google Apps Marketplace là kho ứng dụng được Google mở ra, cho phép các nhà phát triển đăng tải và bán các ứng dụng do mình tạo nên.
  • 13. Hình 2.3.13. Google muốn mở rộng kho ứng dụng của mình với Google Apps Marketplace Cũng trong năm này, Google tiếp tục “tham vọng” mạng xã hội của mình với Google Buzz, mạng xã hội tích hợp bên trong hộp thư Gmail, nhưng một lần nữa thất bại. Năm 2011: Tiếp tục “giấc mơ” mạng xã hội với Google+ Sau thất bại của Wave và Buzz, dường như Google chưa bao giờ muốn từ bỏ giấc mở xây dựng 1 mạng xã hội của mình. Tháng 6/2011, mạng xã hội Google+, mạng xã hội được Google đầu tư 1 cách mạnh mẽ được chính thức ra đời. Mặc dù chỉ ở giai đoạn thử nghiệm và phải có thư mời mới được phép tham gia, Google+ đã nhanh chóng thu hút được hàng chục triệu người dùng. Hình 2.3.14. Google+ được đặt nhiều kỳ vọng để trở thành đối thủ của Facebook
  • 14. Cũng trong năm này, Google đã tạo nên một “bom tấn” khác với thương vụ thâu tóm bộ phận di động của Motorola với giá 12,5 tỉ USD, thương vụ đắt giá nhất trong lịch sử của Google. Trải qua 13 năm, Google đã trở thành 1 điều gì đó không thể thiếu với người dùng Internet. Cùng với sự phát triển và sáng tạo của mình, chắc hẳn Google sẽ còn tiếp tục vươn lên những tầm cao mới trong tương lai để tiếp tục là “gã khổng lồ” hàng đầu trong làng công nghệ thế giới. 3.2. Những lần thay đổi giao diện của công cụ tìm kiếm google 1998 - 2001: Tập trung vào tìm kiếm Trong những năm đầu xuất hiện, Google.com chỉ đơn thuần là một công cụ tìm kiếm với hình ảnh cực kì mang tính biểu tượng: logo Google nhiều màu sắc, một hộp nhập văn bản dài nằm giữa màn hình, một nút thực thi việc tìm kiếm và nút còn lại là "I'm feeling lucky" để dẫn người dùng đến một trang web ngẫu nhiên cũng thuộc Google.
  • 15. Hình 2.3.15. Những ngày đầu phát triển 2001 – 2007: Giao diện thẻ Như tấm ảnh bên trên, bạn có thể thấy rằng trang web Google giờ đây phức tạp hơn một chút và nó có các thẻ như Web, Images, Groups và Directory. Mỗi một mục như thế nằm trong một thẻ khác nhau và được bố trí ngay bên trên hộp nhập liệu để việc tìm kiếm của người dùng được dễ dàng hơn. Trong những năm sau đó vị trí của các tab có thể thay đổi chỗ này chỗ khác nhưng ban đầu thì tất cả đều nằm bên dưới logo Google.
  • 16. Hinh 2.3.16 Giao diện thẻ 2006 - 2007: Giao diện thẻ tiếptục được mở rộng Không dừng lại ở trang chủ tìm kiếm, giao diện thẻ của Google bắt đầu được mang sang Gmail và Calendar với những đường link nằm ở đầu trang web. Bản thân trang chủ của Google cũng tiếp tục sử dụng phong cách này. 2007 - 2011: Thanh điều hướng xuất hiện Ngay trong năm 2007, Google bắt đầu cho triển khai thanh điều hướng mới nằm ở cạnh trên màn hình. Nó bao gồm các đường link dẫn đến nơi tìm kiếm hình ảnh, video, tin tức, bản đồ cũng như những nút chuyển sang Gmail, Calendar cũng các dịch vụ khác do công ty phát triển. Logo Google, hộp tìm kiếm, nút Google Search được trả lại đúng với thiết kế nguyên thủy của chúng, đơn giản nhưng vẫn đảm bảo tính hiệu quả cao.
  • 17. Hình 2.3.17 Giao diện thể đầu tiên 2011: Google Menu Trong nỗ lực dọn dẹp lại thanh điều hướng, Google đã sử dụng một loạt các icon nằm ẩn trong chữ Google nằm ở góc trên trái của trang tìm kiếm. Chỉ khi nào người dùng nhấn vào đây thì menu mới sổ xuống nên trang chủ của hãng trông rất gọn gàng và đẹp mắt. Ở góc trên bên trái thì Google bổ sung thêm một ô hiển thị các thông báo của Google+ và hình ảnh đại diện cho tài khoản người dùng.
  • 18. Hình 2.3.18. Google Menu Chương III. Cơ chế tìm kiếm của Google Một sự thật cơ bản đầu tiên cần biết đó là công cụ tìm kiếm của Google không phải là con người. Chính vì thế sẽ có sự khác nhau giữa con người và công cụ tìm kiếm trong việc đánh giá nội dung của một trang web. Không giống như con người, công cụ tìm kiếm nội dung theo định hướng. Mặc dù công cụ tìm kiếm được trang bị các công nghệ rất hiện đại tuy nhiên nó vẫn không đủ thông minh để có thể cảm nhận được vẻ đẹp của một mẫu thiết kế, thưởng thức âm thanh hoặc thấy được chuyển động của một video nào đó. Vì vậy khi công cụ tìm kiếm thu thập dữ liệu của trang web nó chỉ nhìn vào các văn bản cụ thể để cố gắng hiểu được trang web này đang muốn nói về vấn đề gì.
  • 19. 1. Các bộ phận của công cụ tìm kiếm: 1.1 Bộ phận thu thập dữ liệu Google sử dụng phần mềm có tên “trình thu thập thông tin web” để khám phá các trang web công khai hiện có. Trình thu thập thông tin nổi tiếng nhất có tên là “Googlebot” hay “Google spider”. Trình thu thập thông tin xem các trang web và dò theo liên kết trên các trang đó, giống như khi bạn duyệt nội dung trên web. Chúng đi từ liên kết này tới liên kết khác và mang dữ liệu về các trang web đó về cho máy chủ của Google. Quá trình thu thập thông tin bắt đầu với danh sách các địa chỉ web từ các lần thu thập thông tin trước đó và sơ đồ trang web do chủ sở hữu trang web cung cấp. Khi các trình thu thập thông tin của Google truy cập các trang web này, chúng sẽ tìm các liên kết cho những trang khác để truy cập. Phần mềm đặc biệt chú ý tới các trang web mới, các thay đổi đối với trang web hiện tại và các liên kết không còn hoạt động. Các chương trình máy tính xác định những trang web nào cần thu thập thông tin, tần suất cũng như số lượng trang cần tìm nạp từ mỗi trang web. Google không chấp nhận khoản thanh toán để thu thập thông tin một trang web thường xuyên hơn cho các kết quả tìm kiếm trên web của mình. Google quan tâm hơn đến việc có các kết quả tốt nhất có thể bởi vì về lâu dài, đó là điều tốt nhất cho người dùng và do vậy, cho doanh nghiệp của Google. Googlebots có 2 loại : freshbots và deepbots. Mỗi loại có một chức năng khác nhau: - Freshbots: Các spider sẽ đi khắp mạng lưới internet để thu thập những dữ liệu mới. Thông tin thu thập sẽ được lưu trữ tạm thời trong một database phụ riêng biệt và được cập nhật bất cứ khi nào spider tìm thấy dữ liệu mới. - Deepbots:
  • 20. Còn gọi là “monthly crawler” , loại spider này sẽ đi đến tất cả những trang nằm sâu nhất của website để thu thập thông tin bằng cách tìm và đi theo bất cứ liên kết nào có trong cấu trúc của website. Nó có trách nhiệm truy cập các nội dung ẩn sâu bên trong và lưu trữ những trang mà nó ghé thăm. Googlebots cũng như các công cụ thu thập dữ liệu khác, rất nhỏ bé nhưng lại có tác dụng vô cùng to lớn. Nó đóng vai trò quan trọng trong hệ thống thu thập và lưu trữ thông tin từ hằng trăm, hàng ngàn website trên thế giới. 1.2 Bộ phận lập chỉ mục (index) Hệ thống web giống như một thư viện công cộng không ngừng phát triển với hàng tỷ cuốn sách và không có hệ thống quản lý trung tâm. Google về cơ bản gom góp các trang web trong quá trình thu thập thông tin, sau đó tạo chỉ mục để biết chính xác cách tra cứu nội dung. Giống như chỉ mục ở phía sau của một cuốn sách, chỉ mục của Google cũng bao gồm thông tin về các từ và vị trí của chúng. Khi bạn tìm kiếm, ở mức cơ bản nhất, các thuật toán của Google sẽ tra cứu những cụm từ tìm kiếm của bạn trong chỉ mục để tìm các trang phù hợp. Quy trình tìm kiếm trở nên phức tạp hơn kể từ giai đoạn đó. Khi bạn tìm kiếm từ “chó” bạn không muốn một trang với từ “chó” xuất hiện hàng trăm lần. Bạn có thể muốn tìm hình ảnh, video hoặc một danh sách các giống chó. Các hệ thống lập chỉ mục của Google ghi chú nhiều khía cạnh khác nhau của trang, chẳng hạn như thời gian trang được xuất bản, liệu trang có chứa hình ảnh và video hay không và nhiều hơn thế. Với Đồ thị tri thức này, Google tiếp tục đi xa hơn việc kết hợp từ khóa để hiểu rõ hơn về con người, địa điểm và những thứ mà bạn quan tâm.
  • 21. Hình 3.1.1. Google bot đi qua các website và đánh chỉ mục nó 1.3 Bộ phận xử lí– tínhtoán Đây là quá trình tính toán của Google nhằm cung cấp các kết quả cho người tìm kiếm. Theo thống kê, Google sử dụng hơn 200 yếu tố để xếp hạng trang web. Các yếu tố này có tầm quan trọng khác nhau, tuy nhiên một trong những yếu tố quan trọng nhất để xếp hạng đó là dựa trên chất lượng nội dung và chất lượng của những liên kết đến trang web của bạn. VD: - Sự mới mẻ của nội dung trong trang web - Từ ngữ dùng trong trang web - Từ đồng nghĩa với từ khóa tìm kiếm - Chất lượng nội dung của trang web .....
  • 22. Các thuật toán xếp hạng của Google 1.3.1 Thuật toán Google Panda (gấu trúc) Google panda (Gấu Trúc) là một trong nhiều thuật toán của Google nhằm giảm thứ hạng của những Website kém chất lượng trên kết quả tìm kiếm. Việc copy bài viết từ các nguồn khác nhau paste về website của mình dẫn đến sự bùng nổ của các website, làm xao nhãng thông tin, tạo ra vô số các website rác, có mật độ từ khóa không phù hợp, không liên quan. Trước thời điểm Google Panda ra đời, các website rác này vẫn có thứ hạng cao hơn những trang có nội dung gốc vì hệ thống xếp hạng của Google trước đây xếp hạng dựa trên số lượng bài viết, mật độ từ khóa, số lượng liên kết…Những website rác lấn lướt trên bảng xếp hạng của Google khiến người dùng cảm thấy thông tin bị nhiễu khi tìm thấy quá nhiều trang không hữu ích và thoát ra ngay sau đó. Vì sao giảm thứ hạng Website kém chất lượng đó là: Nội dung bài viết kém chất lượng nội dung, nội dung copy, số lượng quảng cáo lớn, link spam quá nhiều, lượng backlink tăng một cách đột ngột trong khoảng thời gian ngắn, site không có nội dung mới. Những Website vi phạm bản quyền sẽ bị phạt nặng. Google Panda sẽ loại bỏ những nội dung rác, nội dung copy, loại bỏ những website có thương hiệu kém… Đây là bộ lọc quan trọng để cải tiến các kết quả tìm kiếm mới của Google Google Panda ra đời để phục vụ người dùng hiệu quả hơn, cung cấp những website có nội dung chất lượng hơn. 1.3.2 Thuật toán Google Penguin (chim Cách Cụt) Google Penguin là thuật toán cập nhật của Google lần đầu tiên được công bố vào ngày 24 tháng 4 năm 2012 . Bản cập nhật là nhằm mục đích giảm thứ hạng các trang web vi phạm
  • 23. quy định quản trị website của google - sử dụng các kỹ thuật SEO mũ đen như nhồi nhét backlink, backlink ẩn ,mua bán backlink, backlink trên nội dung trùng lặp, … 1.3.3 Thuật toán Google Hummingbird (chim Ruồi) Thuật toán Google Hummingbird được công bố chính thức vào ngày 26/09/2013 làmột trong những thuật toán cực kỳ thông minh và chính xác, có khả năng tìm kiếm bằng giọng nói của người dùng trên thiết bị di động. Hiểu được những câu hỏi dài của người dùng:đọc hiểu, giải đáp được những câu hỏi của người dùng một cách nhanh chóng thông qua công nghệ Knowledge Graph, thuật toán mệnh danh là nhanh chóng và chính xác ,Google có thể chọn lọc chính xác và cung cấp câu trả lời cho người dùng nhanh chóng trong một khoảng thời gian rất ngắn. Người dùng không cần phải mò từng trang để xem kết quả mà dữ liệu hiện sẵn cho nhìn thấy câu trả lời rất dể tìm. Công nghệ tìm kiếm bằng giọng nói: Một đột phá lớn của công nghệ Google. Nắm bắt được thị trường nhu cầu sử dụng thiết bị di động ngày càng nhiều và lớn, Google đã ứng dụng tìm kiếm bằng giọng nói trên thiết bị di động. Nội dung website: đưa ra những yêu cầu cao hơn về mặt nội dung gồm những yếu tố sau: nội dung tập trung và chuyên sâu và độc đáo về một mảng nào đó, từ khóa trong nội dung, bình luận trên website… 1.3.4 Thuật toán Google Zebra (ngựa Vằn) Là một thuật toán của Google nhằm phạt các SEOer có những website đi link spam bừa bãi vào các mạng xã hội, đặt biệt siết chặt hơn ở mạng xã hội Google Plus. Thuật toán này nhắm đến: - Spam liên kết lên comment người khác, Spam lên Group không đúng danh mục. - Mạo danh tài khoản Google+.
  • 24. - Chia sẻ quá nhiều liên kết trên Google+ của bạn. - Kết bạn bừa bãi. - Lạm dụng spam Social Bookmarking. - Con số ngầm: Con số ngầm là điểm chất lượng mà Google+ dành cho bạn. 1.3.5 Thuật toán Google Pigeon (chim Bồ Câu) Đây là thuật toán nhằm mục đích để sắp xếp chặt chẽ hơn kết quả tìm kiếm theo địa phương. Thuật toán Google Piegon (chim bồ câu) sẽ sắp xếp toàn bộ các Website có liên quan đến địa phương, tìm các từ đồng nghĩa. Hoạt động dựa theo công nghệ Google PigeonRank (ra đời vào 2012), công nghệ này xử lý theo kết quả tìm kiếm chính xác và nhanh nhất theo địa điểm. 2. Cơ chế hoạt động của Google Spider ( Googlebot ) Hình 3.2.1 Cơ chế hoạt động của Google Spider
  • 25. - Đầu tiên Google Spider sẽ lấy danh sách các máy chủ và trang web phổ biến. Sau đó nó sẽ bắt đầu tìm kiếm với một site bất kỳ, nó đánh chỉ mục các từ khóa trên trang và theo các liên kết (link) tìm thấy bên trong trang web này. - Khi Spider xem xét các trang web (định dạng HTML), nó lưu ý: Các từ bên trong trang web & nơi nó tìm thấy các từ đó. Ví dụ: Các từ xuất hiện trong các thẻ tiêu đề, thẻ miêu tả…. nó nhận định đây là phần quan trọng có liên quan đến sự tìm kiếm của người dùng sau này. Vì thế đối với mỗi website Google nó sẽ có nhiều phương pháp để index lại chỉ mục, liệt kê lại các từ khóa chính. Nhưng dù dùng cách nào thì Google cũng luôn cố gắng làm cho hệ thống tìm kiếm diễn ra nhanh hơn để người dùng có thể tìm kiếm hiệu quả hơn hoặc cả hai. - Kế đó Google sẽ xây dựng chỉ mục Xây dựng chỉ mục sẽ giúp cho các thông tin được tìm thấy một cách nhanh chóng. Sau khi tìm thông tin trên trang web, Google Spider nhận ra rằng việc tìm kếm thông tin trên website là một quá trình không bao giờ kết thúc… bởi vì các quản trị trang web luôn thay đổi thông tin, cập nhật thông tin trên website và điều đó có nghĩa rằng Spider sẽ luôn phải thực hiện nhiệm vụ thu thập dữ liệu. Mình có thể lấy ví dụ 1 cách như sau: Giả sử website của bạn làm về ngành du lịch… nó sẽ lưu các chỉ mục trên website của bạn vào ngành du lịch… Nếu site bạn làm về ca nhạc, nó sẽ lưu các chỉ mục trên web bạn vào ngành ca nhạc. Xử lý và tính toán: - Sau khi lập chỉ mục Google sẽ xử lý, tính toán và mã hóa thông tin để lưu trữ trong cơ sở dữ liệu. Và khi có một truy vấn tìm kiếm thì hệ thống sẽ trả về các kết quả có chứa nội dung hữu ích tương ứng với các truy vấn tìm kiếm của người dùng. 3. Tổng kết về cách tìm kiếm của google
  • 26. Khi người sử dụng gõ một từ khóa vào thanh tìm kiếm của Google, việc đầu tiên Google thực hiện là đảo qua hàng tỷ trang web trong danh mục và cho hiển thị những kết quả phù hợp với cụm từ tìm kiếm. sau đó Google sẽ sắp xếp chúng sao cho những kết quả có chất lượng cao nhất sẽ hiển thị ở vị trí đầu tiên của danh sách và những kết quả có chất lượng thấp nhất ở vị trí cuối cùng. Việc xếp hạng dựa trên sự kết hợp của nhiều tiêu chí nhưng cơ bản nhất là hai tiêu chí: Một là sự liên quan và hai là uy tín. Sự liên quan là thước đo mức độ phù hợp của trang web với một cụm từ đang được tìm kiếm. Nó dựa trên các yếu tố như Tiêu đề (đôi khi được gọi là “Tên trang web”), nội dung, và chuỗi ký tự liên kết (Anchor Text) của đường dẫn đến trang của bạn. Còn uy tín của trang web được đo lường bằng mức độ quan trọng và sức ảnh hưởng của trang web đó dưới quan điểm của Google.
  • 27. Hình 3.3.1 Infographic về cách Google tìm kiếm theo từ khóa
  • 28. Tài Liệu Tham Khảo - Google.com. - sopa.vn, tapchimarketingonline.com. - vi.wikipedia.org, en.wikipedia.org - tinhte.vn , vnreview.vn Bảng phân công công việc: Tìm hiểu thông tin chung về Google Tìm hiểu về Google Spider Tỉm hiểu về bộ phận thu thập dữ liệu Tìm hiểu về bộ phận lập chỉ mục Tìm hiểu về bộ phận xử lí tính toán Tổng hợp và viết báo cáo Trần Minh Nhật - 13520583 (nhóm trưởng) X X X Lê Nhật Tánh - 13520756 X (chặng đường phát triển) X Trần Huỳnh Ngọc Tiên - 14520946 X (lịch sử google) X Lê Quang Phú -14520680 X X X Đinh Ngọc Tuấn - 14521040 X (chặng đường phát triển) X