N層向量空間模型在Web信息檢索中的實現
出處:劉志為 何丕廉 孫越恒 鄭小慎 發(fā)布于:2011-08-31 14:19:32
隨著互聯(lián)網和萬維網(World Wide Web)的快速繁榮發(fā)展,萬維網逐漸成為人們生活中不可或缺的一種信息獲取來源。萬維網給信息檢索技術帶來了極大的機遇和挑戰(zhàn)。經過近十幾年的發(fā)展,信息檢索已經由一個純粹的學術研究學科轉變成大多數人信息獲取的技術基礎。 隨著Web 2.0概念的普及和發(fā)展,萬維網不再僅僅是一個巨大的信息庫,更逐漸成為一個用戶參與和交流的平臺。Web 2.0應用網站的蓬勃發(fā)展將再次推動信息檢索技術的革新。在Web 2.0時代,信息檢索技術主要有以下三方面的發(fā)展趨勢:1)更加靈活的個性化信息服務。隨著用戶的急劇增加,Web 2.0網站迫切需要滿足用戶的個性化信息需求。然而,傳統(tǒng)的Web信息檢索技術并不擅長處理Web 2.0應用的復雜結構數據。Web 2.0需要更加靈活的個性化信息服務,如信息推薦系統(tǒng)。2)更加有效的多媒體數據檢索技術。隨著Web 2.0的普及,用戶可以很方便地上傳和分享多媒體信息。多媒體數據的迅速增多使得多媒體信息檢索技術成為人們關注的焦點。
本文在傳統(tǒng)向量空間模型的基礎上提出一種新的檢索方法,將N層向量空間模型應用在Web信息檢索上,使之能較好地適應文檔集合的動態(tài)擴充。理論分析和實驗結果表明,此方法能夠進一步提高向量空間模型的性能,節(jié)省存儲空間,加快檢索速度,具有較高的和召回率。
1 向量空間模型
1.1 傳統(tǒng)向量空間模型
向量空間或稱線性空間,是現代數學中的一個基本概念,是線性代數研究的基本對象。 向量空間是線性代數的主體,它是數學中基本又重要的概念,其概念是:設V為n維向量的集合,如果集合V非空,且集合V對于加法及乘數兩種運算封閉,那么就稱集合V為向量空間。其理論和方法已應用到自然科學、工程技術及社會科學的諸多領域。向量空間的一個直觀模型是向量幾何,幾何上的向量及相關的運算即向量加法,標量乘法,以及對運算的一些限制如封閉性,結合律,已大致地描述了"向量空間"這個數學概念的直觀形象。
向量空間模型的出發(fā)點是:每篇文檔和查詢都包含一些用概念詞表達的、揭示其內容的獨立屬性,而每個屬性都可以看成是概念空間的一個維數。因此,文檔和查詢就可以表示為這些屬性的集合,從而忽略了文本結構中段落、句子及詞語之間的復雜關系。這樣,文檔和查詢可以分別用空間的一個點表示,并且文檔矢量與查詢矢量之間就存在空間上的不同距離,而這種距離關系在信息檢索中的意義就是文檔與查詢之間的相似度。所以,文檔與查詢之間的相似度可以用矢量間的距離來衡量。相似度的計算方法有很多種,本文采用余弦系數法,即用二個矢量之間的夾角的余弦來表示文檔與查詢間的相關度。夾角越大,距離越遠,余弦越小,相關度越小,反之相關度越大。下面介紹向量空間模型的量化方法。
tfij為特征項tj在文檔di中出現的頻率;dfj為在整個文檔集中,包含特征項tj的文檔數;idfj為反轉文檔頻數,其值為:

可見,傳統(tǒng)的向量空間模型是以文本特征項的頻率tf和反轉文檔頻率idf作為其量化基礎的。其乘積作為特征項的權重,再通過計算文檔與查詢之間的相似度即可判斷文檔與查詢是否相關。權重值大的特征項是那些在文檔中出現頻率足夠高,但在整個文檔集的其他文檔中出現頻率足夠少的詞語,也是對區(qū)別文檔有意義的詞語。
1.2 N層向量空間模型
將一篇文檔從組織結構上劃分為N層,基于每層的文本內容建立相應的特征項向量和權值。其中特征項抽取和權重計算等同傳統(tǒng)向量空間模型相同。這樣,對于文檔進行N層劃分得到的向量空間模型就成為N層向量空間模型。
本文針對Web信息檢索進行考慮,由于Web頁面的特殊格式,要求一篇文檔少是由指向該文檔的鏈接、文檔標題和文檔正文三部分組成。而這三部分的內容對于這篇文檔的表達能力是不同的。鏈接的文字是吸引別人點擊文檔進行閱讀的通道,所以鏈接的內容表達文檔的能力強,其次是標題,正文的內容表達文檔的能力弱。
因此,將N層向量空間模型應用在Web信息檢索時,可將一篇Web文檔按照指向文檔的鏈接、標題和正文劃分成3層(若Web頁面中有<meta keyword>等標記的關鍵字部分,則可劃分為4層向量空間模型。)。
2 應用N層向量空間模型進行Web信息檢索
2.1 文本向量表示形式的改進
向量空間模型在建完索引以后,要根據每一個特征項求其對于每一篇文檔和查詢的權重值。其計算量非常大,并且每一篇文檔和查詢的向量表示式為
,其中大多數項都為零,所以導致了數據稀疏現象。另外由于Web頁面的超鏈性(hyperlink),頁面上顯示的信息有很多是和本頁內容無關的,例如別的頁面的鏈接、版權信息、欄目導航等,在每個頁面上都有重復出現,這干擾了相似度計算。為解決這些問題,首先引入停用詞表,例如文檔中很多不能說明文檔內容的語法詞,還有虛詞、感嘆詞、連詞等或各個文檔共有的詞,所有這些詞作為描述文檔的向量效率是非常低的。因此可以考慮降維處理,把它們作為停用詞,不計算其權重;其次,采用壓縮矩陣的辦法來解決數據稀疏問題,定義文檔和查詢的向量表示形式為:<……,(ti,ωdi),……>,其中ti為第i個特征項,ωdi為其對應的權重值且ωdi≠0.這樣既減少了計算量,又加快了計算速度,同時節(jié)省了存儲空間。
2.2 特征項頻率統(tǒng)計的改進
在統(tǒng)計每個區(qū)域的特征項頻率得到tfij后,要乘以一個反映其重要程度的比例系數來加以修正和調整,則特征項tj在文檔di中出現的頻率為:
![]()
其中:tfiji為第i個區(qū)域的頻率(i為1、2、3時分別對應鏈接區(qū)域、標題區(qū)域、正文區(qū)域),α>β>γ≥1為比例系數。
同樣,在文檔同一區(qū)域中,不同的特征項所表達文檔內容的能力也是有差別的。例如同在正文區(qū)域的不同的特征項所代表文檔的內容就有可能不同。在計算特征項頻率tfij時再乘以一個比例因子log2(M/mi),其中M為該特征項在本文檔中共出現的次數,mi為該特征項在文檔第i次出現的次數。這樣,特征項tj在文檔di中出現的頻率調整為:

2.3 傳統(tǒng)向量空間模型與N層向量空間模型的算法復雜度比較
表1為傳統(tǒng)向量空間模型與N層向量空間模型的算法復雜度比較結果。

3 實驗設置
?。?)信息檢索實驗系統(tǒng)。信息檢索實驗系統(tǒng)選用了Smart系統(tǒng)。SMArt系統(tǒng)是基于向量空間檢索模型實現的信息檢索系統(tǒng)。在本實驗中,為便于實現對向量空間模型算法的修改,使用的是經過修改的Smart信息檢索系統(tǒng)。
?。?)測試集。測試集分為文檔和查詢(query)二部分:文檔部分采用新浪網站(www.sina.com.cn)的新聞部分Web版(32,145篇)。查詢部分使用新浪網站的新聞討論標題,共50個。
?。?)評價方法。本系統(tǒng)使用和召回率來評價。是檢索出來的相關文檔數和檢索出來的總文檔數的比值;召回率是檢索出來的相關文檔數和總的相關文檔數的比值。通常,召回率越高,越低;反之越高,召回率越低。所以有說服力的是11個點的平均。世界上權威的文本檢索評測會議TREC(Text Retrieval Conference)的評測依據就是這個值。本系統(tǒng)將只提供這個值。
4 實驗結果
這里對傳統(tǒng)的向量空間模型算法和改進后的向量空間算法進行了比較,并統(tǒng)計了對應于每一條查詢的11個點處的平均值。其結果如表2所示。

因為平均值僅僅是11個點處的值的平均值,為了進一步說明問題,圖1給出了這幾次檢索的-召回率曲線。

從圖1中可以看出,改進向量空間模型在索引時間和上都要優(yōu)于傳統(tǒng)向量空間,性能有了很大的提高。
本文提出了一種應用N層向量空間模型算法用于Web信息檢索的辦法。理論分析和實驗結果表明,改進后的方法大大提高了Web信息檢索的性能,節(jié)省了存儲空間,加快了計算速度,具有較高的和召回率。
上一篇:一種分布式查詢處理研究
下一篇:解析數據倉庫在大型超市中的應用
版權與免責聲明
凡本網注明“出處:維庫電子市場網”的所有作品,版權均屬于維庫電子市場網,轉載請必須注明維庫電子市場網,http://www.hbjingang.com,違反者本網將追究相關法律責任。
本網轉載并注明自其它出處的作品,目的在于傳遞更多信息,并不代表本網贊同其觀點或證實其內容的真實性,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網站或個人從本網轉載時,必須保留本網注明的作品出處,并自負版權等法律責任。
如涉及作品內容、版權等問題,請在作品發(fā)表之日起一周內與本網聯(lián)系,否則視為放棄相關權利。
- 工業(yè)5G技術在智能制造中的應用與實踐解析2025/12/31 10:57:21
- 工業(yè)以太網交換機選型與現場應用技術指南2025/12/18 10:48:14
- 無線傳輸電路基礎,射頻前端設計、天線匹配與鏈路預算計算2025/10/27 13:55:50
- ASK 解調的核心要點與實現方式2025/9/5 16:46:17
- 雙偶極子天線:結構、特性與應用全解析2025/9/3 10:29:21









