幫助

搜索引擎的數(shù)據(jù)預(yù)處理

2018-12-18 08:34 技術(shù)文檔

我們先來看一下搜索引擎的工作原理。在搜索引擎原理中,搜索引擎工作流程大致有三點(diǎn):數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、查詢服務(wù),今天成都seo在這里和大家分享一下數(shù)據(jù)預(yù)處理,值得注意的是,在我們所述的“數(shù)據(jù)預(yù)處理”就是主要包含四個(gè)方面:關(guān)鍵詞提取,“鏡像網(wǎng)頁”以及“轉(zhuǎn)載網(wǎng)頁”的消除,鏈接分析和網(wǎng)頁重要程度的計(jì)算。

一、關(guān)鍵詞提取

首先要先會(huì)提取關(guān)鍵詞。在每一章網(wǎng)頁,包含了大量的和主題內(nèi)容無關(guān)的內(nèi)容,關(guān)鍵詞提取的任務(wù),就是要提取出網(wǎng)頁源文件的內(nèi)容部分所含的關(guān)鍵詞。提取的方法:根據(jù)百度分詞技術(shù),將內(nèi)容切成多個(gè)詞組成的數(shù)組,再取出“在”“的”等無意義的詞組,確定最終的關(guān)鍵詞。

二、鏈接分析

1)鏈接分析中有提到兩個(gè)概念,詞頻(TF):該關(guān)鍵詞在關(guān)鍵詞提取之后的關(guān)鍵詞集合中的出現(xiàn)頻率

2)文件頻率(DF):該關(guān)鍵詞在所有文件中的出現(xiàn)頻率,在所有文件中,該關(guān)鍵詞在多少文件中出現(xiàn)

3)搜索引擎可以通過HTML文本標(biāo)簽,來確定關(guān)鍵詞的重要性

我們認(rèn)為搜索引擎的數(shù)據(jù)預(yù)處理大致可以從以上幾方面來進(jìn)行。


相關(guān)推薦

QQ在線咨詢
AI智能客服 ×