最近日本中文字幕免费完整,曰韩伦理福利在线观看,国产欧美一区二区精品性色,中文人妻视频

企業(yè)與個人網(wǎng)絡(luò)營銷一站式服務(wù)商
網(wǎng)站建設(shè) / SEO優(yōu)化排名 / 小程序開發(fā) / OA
0731-88571521
136-3748-2004
長沙做網(wǎng)站:如何了解文章與關(guān)鍵詞的相關(guān)性
信息來源:長沙做網(wǎng)站   發(fā)布時間:2015-4-7   瀏覽:

第一:針對提取出的內(nèi)容進(jìn)行分詞處理


  個人認(rèn)為,搜索引擎可能采用了某種算法,對內(nèi)容先進(jìn)行了詞語粗分階段,先得出N個概率最大的切分結(jié)果;然后,利用角色標(biāo)注方法識別未登錄詞,并計(jì)算其概率,將未登錄詞加入到切分詞圖中,之后視其為普通詞處理,最終進(jìn)行動態(tài)規(guī)劃優(yōu)選出N個最大概率切分標(biāo)注結(jié)果。并進(jìn)行記錄。


第二:搜索引擎首先對要要分析的網(wǎng)頁進(jìn)行凈化處理


  網(wǎng)頁凈化主要是去掉網(wǎng)頁中大量無用的廣告、導(dǎo)航欄等網(wǎng)頁模板噪聲以及無意義的內(nèi)容,如Javascript腳本,CSS標(biāo)記等內(nèi)容。至于搜索引擎采用的是何種算法,則不為我們所知,但是個人估計(jì)應(yīng)該是對網(wǎng)頁進(jìn)行劃分為不同的快,通過衡量網(wǎng)頁塊的重要程度來判斷出包含主題內(nèi)容的塊,然后提取出該塊的內(nèi)容,至于搜索引擎如何判別網(wǎng)頁快的重要程度,那是另外一個課題。


第三:對關(guān)鍵詞的權(quán)重進(jìn)行確定分析


  在完成對文章分詞切分和凈化工作之后,就要將文章所有關(guān)鍵詞進(jìn)行分析了,筆者的想法是搜索引擎將文本表示成Ⅳ維特征向量,每一維分量由關(guān)鍵詞及其權(quán)重組成。一般認(rèn)為,關(guān)鍵詞在文中的權(quán)重的確定,主要由三部分組成,詞頻,位置和詞義共同影響決定。而詞頻和位置對詞語或短語的影響可以通過確定的算法加以確定,詞義權(quán)重也有固定的算法進(jìn)行分析計(jì)算。搜索引擎利用設(shè)定好的算法對上述關(guān)鍵詞進(jìn)行了計(jì)算和分析。從而得到最后的結(jié)果。


第四:對初步分詞的結(jié)果進(jìn)行去除無意義的詞語


  搜索引擎通過對第二步的分詞結(jié)果進(jìn)行分析,去除一些語氣詞和形容詞等非實(shí)意詞和一些單詞,同時還考慮到單字詞所表達(dá)的信息不夠完整也應(yīng)當(dāng)濾除。去除停用詞通過建立一個停用詞列表來實(shí)現(xiàn)。這樣,通過去除這些無意義的詞之后,剩下的就是有意義的,值得分析的詞匯了。


 筆者認(rèn)為,搜索引擎通過上面的步驟進(jìn)行分析后,得到最后的結(jié)果,而筆者在這里談?wù)勛约簩λ阉饕婢唧w的分析方式,只是個人見解:


第一:搜索引擎基于關(guān)鍵詞出現(xiàn)的頻率


  網(wǎng)頁中不同關(guān)鍵詞的總數(shù),這是一個很重要的方面。個人認(rèn)為雖然關(guān)鍵詞出現(xiàn)的位置和詞頻大小對關(guān)鍵詞權(quán)重影響很大,但是詞頻大并不能決定該詞語適合作為關(guān)鍵詞。舉個簡單的例子,我們在一篇文章中對“美國’’進(jìn)行優(yōu)化,出現(xiàn)的詞頻很大,出現(xiàn)的位置也很重要,但是這個詞還是不能賦予較高的權(quán)重,因?yàn)椤懊绹矎V泛的出現(xiàn)在其他的文獻(xiàn)中,在這些文獻(xiàn)中,“美國"也存在頻率大和所在位置也比較重要。因此,對那些詞頻較高但又不適合作為關(guān)鍵詞的詞語賦予的權(quán)重應(yīng)該較低。


第二:搜索引擎基于關(guān)鍵詞位置的權(quán)重


  在文檔中,關(guān)鍵字所在的位置對于搜索引擎判斷某個關(guān)鍵字在頁面的權(quán)重起到很重要的作用。比如說域名被搜索引擎認(rèn)為是網(wǎng)站最固定的因素,例如:域名里面含有 DVD關(guān)鍵字的域名,在用戶檢索關(guān)鍵字DVD的時候具有先天的優(yōu)勢。標(biāo)題是網(wǎng)站的最寶貴的資源,搜索引擎認(rèn)為標(biāo)題是在瀏覽器標(biāo)題欄里而顯示,因?yàn)橐@示給用戶,所以它是文件最重要和最簡潔的摘要。適當(dāng)突出關(guān)鍵字在標(biāo)題的比重非常有利于排名的提高。


第三:文檔中重要關(guān)鍵詞之間的距離


  個人分析,文檔中重要關(guān)鍵詞之間的距離應(yīng)該也是衡量關(guān)鍵詞與文章的相關(guān)性的一個重要方面。




上一條: 長沙做網(wǎng)站:如何使外鏈的效率發(fā)揮到極致
下一條: 長沙做網(wǎng)站:判斷網(wǎng)站SEO優(yōu)劣的標(biāo)準(zhǔn)
案例鑒賞
多年的網(wǎng)站建設(shè)經(jīng)驗(yàn),斌網(wǎng)網(wǎng)絡(luò)不斷提升技術(shù)設(shè)計(jì)服務(wù)水平,迎合搜索引擎優(yōu)化規(guī)則
網(wǎng)絡(luò)營銷
多年的網(wǎng)站建設(shè)經(jīng)驗(yàn),網(wǎng)至普不斷提升技術(shù)設(shè)計(jì)服務(wù)水平,迎合搜索引擎優(yōu)化規(guī)則
長沙私人做網(wǎng)站    長沙做網(wǎng)站    深圳網(wǎng)站建設(shè)    株洲做網(wǎng)站    東莞做網(wǎng)站    南京防腐木    湖南大拇指養(yǎng)豬設(shè)備    株洲做網(wǎng)站    
版權(quán)所有 © 長沙市天心區(qū)斌網(wǎng)網(wǎng)絡(luò)技術(shù)服務(wù)部    湘公網(wǎng)安備 43010302000270號  統(tǒng)一社會信用代碼:92430103MA4LAMB24R  網(wǎng)站ICP備案號:湘ICP備13006070號-2