[webmining] 初步概念
這學期開始上webmining,課堂上專門是要介紹搜尋引擎使用的技術
與提昇rankpage的一些小技巧。
雖然現在課堂上所能介紹的都是已經被大家公認理解的技術,
以google的能力大概已經研發出各式各樣不同的變種來增進效能與計算上得更簡易性。
技術性上得演算法就不介紹了,來介紹一些觀念
搜尋網站會針對所搜尋到的資料將內容區分為以下三個部份
term and url and keyword並分開儲存在不同資料庫中,
當使用者搜尋關鍵字時,則進入term資料庫尋找此關鍵字存放在哪些id
而id則是存放網址與大概此網站前一百個字內的摘要,
再將結果呈現出來,這時就會有個疑問... 查詢出來的資料眾多
哪些資料會出現在越前面,這時候通常有兩個準則
A.判斷文章內容中關鍵字出現的次數,關鍵字出現頻率越高則代表這篇文章跟此關鍵字
的相關性越高,則排序的分數則加高。
B.判斷網站(or網頁)的 rankpage(google針對每個網站會作一個重要性評比) ,
分數越高則出現在越前面。
接下來則針對如何rankpage來作進一步的分析與比較 :)
« [美食] 雲科素之旅 | Main | [webmining] 如何提昇pagerank »
迴響 |
0 引用