0571-88026963

您的位置:首頁 >> 觀點 >> 【橙速大講堂】搜索引擎工作原理的幾個基本問題解答

【橙速大講堂】搜索引擎工作原理的幾個基本問題解答

2017.02.18 17:09:22 次瀏覽

【搜索引擎工作原理 】
 
搜索引擎是指根據一定的策略、運用特定的計算機程序從互聯網上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務,將用戶檢索相關的信息展示給用戶的系統。
 
類型:
A.全文檢索搜索引擎(全文索引)
B.目錄搜索引擎(目錄索引)
C.元搜索引擎
E.其他非主流形式

問題1:搜索引擎是怎么樣的


58同城:http://hz.58.com/
新浪網:http://www.sina.com.cn/
             http://search.sina.com.cn/
淘寶網:http://www.taobao.com/
 
A.全文搜索引擎:名副其實的搜索引擎,通過從互聯網上提取的各個網站的信息(以網頁文字為主)而建立的數據庫,檢索與用戶查詢條件匹配的相關記錄,然后按一定的排列順序將結果返回給用戶。如:百度、Google、360
 
B. 目錄搜索引擎:目錄索引雖然有搜索功能,但在嚴格意義上算不上是真正的搜索引擎,以人工方式或半自動方式搜集信息,僅僅是按目錄分類的網站鏈接列表而已。用戶完全可以不用進行關鍵詞查詢,僅靠分類目錄也可找到需要的信息。如:搜狐、新浪、網易。
 
C. 元搜索引擎:是通過一個統一的用戶界面幫助用戶在多個搜索引擎中選擇和利用合適的(甚至是同時利用若干個)搜索引擎來實現檢索操作,并將結果返回給用戶。如:搜星搜索引擎,優客搜索、360綜合搜索。
 
D. 其他:如垂直搜索引擎:不同于通用的網頁搜索引擎,垂直搜索專注于特定的搜索領域和搜索需求(例如:機票搜索、旅游搜索、生活搜索、小說搜索、視頻搜索等等),在其特定的搜索領域有更好的用戶體驗,更加專注、具體和深入。
 
問題2:搜索引擎最重要的是什么?
 

問題3:用戶檢索系信息展示的結果是怎么來的?


A、調用索引庫 

 B、檢索的時候開始處理互聯網信息并展示

 
數據收集

預處理(索引)

排名
l  抓取維護策略
l  鏈接跟蹤
l  地址庫
l  文件存儲
l  提取文字
l  分詞
l  去重
l  建立索引
l  鏈接算法
l  搜索詞的處理
l  文件匹配
l  初使子集選擇
l  計算相關性
l  排名過濾與調整
l  排名顯示

 
SEO搜索引擎優化,是一種利用搜索引擎的搜索規則來提高目的網站在有關搜索引擎內的排名的方式。
 
前提:了解搜索引擎自然排名機制、工作原理。
目的:對網站進行內部和外部的調整優化,改進網站在搜索引擎中關鍵詞的自然排名,獲得更多流量,從而達到網絡營銷及品牌建設的目標。
 
網頁快照:網頁緩存或者備份網頁
 
1,保留網頁修改前的內容信息。
2,體現蜘蛛爬行網站的頻率等分析蜘蛛的信任度
3,當網頁打不開時或者打開速度慢時,可以用網頁快照打開,很快就會打開。以文本方式打開網頁內容,加載速度快。
 
了解搜索引擎的原因:保證用戶體驗的基礎上盡量迎合搜索引擎。搜索引擎要解決什么問題,有哪些技術上的困難,有什么限制,搜索引擎又怎樣取舍。
 
搜索引擎工作首要環節是什么??
 
答案:如何有效的獲取并利用這些信息。
 
數據抓取系統作為整個搜索系統中的上游,主要負責互聯網信息的搜集、保存、更新環節,它像蜘蛛一樣在網絡間爬來爬去,因此通常會被叫做“spider”。
如:Baiduspdier、sosospdier、Googlebot、Sogou Web Spider等。
通過日志能查詢詳細情況。
 
蜘蛛:是搜索引擎用來爬行和訪問頁面的程序。訪問互聯網上的html網頁,建立索引數據庫,使用戶能在百度搜索引擎中搜索到您網站的網頁、圖片、視頻等內容。
 
索引數據庫等簡單說明。
沒有抓取和納入索引數據庫的信息等等詳細說明。
 
問題:搜索引擎是如何抓取網頁???
 
發現某一個鏈接 → 下載這一個網頁 → 加入到臨時庫 → 提取網頁中的鏈接 → 在下載網頁 → 循環。
 
通過頁面上的超鏈接關系,不斷的發現新URL并抓取,盡最大可能抓取到更多的有價值網頁。
 
robots協議,網站時要訪問的第一個文件,用以來確定哪些是被允許抓取的哪些是被禁止抓取的,遵守君子協議。
 
例子:
1. 允許所有SE(搜索引擎)收錄本站:robots.txt為空就可以,什么都不要寫。
2. 禁止所有SE(搜索引擎)收錄網站的某些目錄:
User-agent: *
Disallow: /目錄名1/
Disallow: /目錄名2/
Disallow: /目錄名3/
3. 禁止某個SE(搜索引擎)收錄本站,例如禁止百度:
User-agent: Baiduspider
Disallow: /
User-agent: Googlebot
Disallow: /
 
4. 禁止所有SE(搜索引擎)收錄本站:
User-agent: *
Disallow: /
它的用途是告訴上一子集,確定某個對象用的。
 
問題:
http://www.csu7.com/robots.txt
http://www.taobao.com/robots.txt
 
鏈接:
文本鏈接:www.csu7.com
超鏈接:www.csu7.com
錨文本:SEO優化
 
抓取策略:
 
      
       深度策略                      廣度策略
 
 
1、抓取友好性:抓取壓力調配降低對網站的訪問壓力
2、常用抓取返回碼示意
3、多種url重定向的識別
4、抓取優先級調配
5、重復url的過濾
6、暗網數據的獲取
7、抓取反作弊
8、提高抓取效率,高效利用帶寬
澳门宝马论坛752626com三肖三码