hg0088正网,hg0088备用网址,hg0088,hg0088如何开户,hg0088现金,hg0088皇冠,hg0088如何注册,hg0088注册,皇冠hg0088,hg0088开户,hg0088官网,hg0088投注,新2皇冠hg0088,hg0088体育投注,足球hg0088手机版登陆,手机版皇冠hg0088

TF-IDF關鍵詞加權算法與權重提升

- 編輯:小平SEO -

TF-IDF關鍵詞加權算法與權重提升

 
一、本節知識點
 
1、了解百度一些算法
 
2、什么是TF-IDF算法
 
3、算法與SEO應用
 
 
 
二、概念解析
 
1、TF-IDF(term frequency–inverse document frequency)是一種用于信息檢索與數據挖掘的常用加權技術。TF意思是詞頻(Term Frequency),IDF意思是逆文本頻率指數(Inverse Document Frequency)。
 
 
2、TF-IDF是一種統計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。
 
 
3、TFIDF的主要思想是:如果某個詞或短語在一篇文章中出現的頻率TF高,并且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類。
 
 
4、如果一個詞條在一個類的文檔中頻繁出現,則說明該詞條能夠很好代表這個類的文本的特征,這樣的詞條應該給它們賦予較高的權重,并選來作為該類文本的特征詞以區別與其它類文檔。
 
 
5、對TFIDF算法的假設:對區別文檔最有意義的詞語應該是那些在文檔中出現頻率高,而在整個文檔集合的其他文檔中出現頻率少的詞語,所以如果特征空間坐標系取TF詞頻作為測度,就可以體現同類文本的特點。
 
 
6、一個詞語在一篇文章中出現次數越多,同時在所有的文檔中出現次數越少,越能夠代表該文章相關程度的度量或評級。
 
 
 
7、相關知識閱讀
 
(1)tf-idf是什么意思?  http://www.tfidf.com/
 
 
(2)TF-IDF算法原理解釋資料  https://bbs.moonseo.cn/thread-89998-1-1.html
 
 
(3)什么是TF-IDF及公式  https://bbs.moonseo.cn/thread-90000-1-1.html
 
 
(4)頁面優化與布局設計示例圖  https://bbs.moonseo.cn/thread-90011-1-1.html
 
 
 
三、TF-IDF加權算法
 
1、計算詞頻

計算詞頻


如何計算詞頻

 
 
2、逆文檔頻率


計算逆文檔頻率

 
 
3、計算TF-IDF:詞頻(TF)× 逆文檔頻率(IDF)


詞頻(TF)× 逆文檔頻率(IDF)

 
 
4、簡單總結:詞頻越高,相關性越高;越常見的詞,對相關貢獻越小。
 
5、在線中文分詞,關鍵詞提取,文章關鍵詞提?。篽ttp://life.chacuo.net/convertexportword
 
 
6、百度中文詞法分析(分詞+詞性+專名)系統
 
https://github.com/baidu/lac
 
 
7、百度FAQ自動問答系統
 
https://github.com/baidu/AnyQ
 
 
8、百度情感識別系統
 
https://github.com/baidu/Senta
 
 
 
四、什么是權重?
 
1、權重值哪里來的?
 
 
2、百度官方態度
 
(1)世上本沒有百度pagerank和權重
 
(2)https://ziyuan.baidu.com/wiki/261/
 
(3)權重是如何計算的,可以站長工具查看一下
 
http://rank.chinaz.com/
 
 
(4)百度權重值截圖


百度權重值截圖
 
 
五、百度算法與SEO應用
 
1、詞頻密度問題:重要,但不要刻意;設計出更多的詞頻內容
 
 
2、關鍵詞相關程度:越相關的內容評分越高,不能刻意堆積
 
 
3、切記,關鍵詞不能重復堆砌
 
 
4、文章標題要遵循搜索需求
 
 
5、內容盡可能完善與標題相關匹配
 
 
6、核心詞出現的位置,順序等
 
 
 
六、PageRank算法簡述
 
1、合理的鏈接布局
 
2、內、外鏈的合理性,多樣化
 
3、鏈接的相關性
 
4、網站核心相近
 
 
 
七、提升權重因素
 
1、關鍵詞的指數
 
(1)搜索指數越高,權重越高,流量越高
 
(2)關鍵詞百度指數越高,競爭越大
 
 
 
2、關鍵詞流量
 
(1)權重隨著流量增大而增大
 
(2)長尾詞:大量的長尾詞,行業詞
 
 
3、關鍵詞數量的多少:自然搜索關鍵詞越多,權重會積累
 
 
 
八、頁面優化與布局設計
 
1、搜索需求相關的文章標題
 
 
2、時間因子,提升收錄與抓取
 
 
3、開頭強調核心思想,進行簡單概括
 
 
4、細分段落
 
 
5、做好正文的段落標題,正文要與主題相關,突出重點內容話題
 
 
6、有引薦需求,適合的內、外鏈引導
 
 
7、不要干擾用戶閱讀,JS、廣告、彈窗等
 
 
8、有相關性的相關推薦
 
 
 
十、PageRank算法的簡單舉例
 
1、Google PageRank算法的思想精華在于:將一個網頁級別、重要性的排序問題轉化成了一個公共參與,以群體民主投票的方式求解的問題,網頁之間的鏈接即被認為是投票行為。同時,各個站點投票的權重不同,重要的網站投票具有較大的分量,而該網站是否重要的標準還需要依據其PageRank值.


 

你會喜歡下面的文章? You'll like the following article.
重庆hg0088怎么注册