提高閱讀效率——利用機器學習的網(wǎng)頁正文提取方法

出處：安增文，王超，徐杰鋒發(fā)布于：2011-08-31 09:03:27

互聯(lián)網(wǎng)的普及使得網(wǎng)絡成為人們獲取信息的重要途徑。而互聯(lián)網(wǎng)上的信息量也與日俱增，網(wǎng)頁上的內(nèi)容除了主題內(nèi)容外，通常都會在頁面中放置導航條以方便用戶訪問，還有如廣告、版權信息、歡迎信息等與主題無關的內(nèi)容，我們稱之為“噪音”.

怎樣去除這些噪音，將網(wǎng)頁中的正文內(nèi)容提取出來，從而提高人們的閱讀效率，這在垂直搜索和數(shù)據(jù)挖掘方面具有重要意義。在這個領域已經(jīng)發(fā)表了很多的研究成果，這些研究成果從不同的角度入手，有的只利用網(wǎng)頁本身的特征，有的還與其他技術相結合，使網(wǎng)頁正文抽取的準確性和完整性得到不斷提高，但還沒有一種方法能達到人們期望的程度，還需要不斷地研究和探索。

一、正文抽取相關研究

到目前為止，已經(jīng)發(fā)表的網(wǎng)頁正文內(nèi)容抽取方法有很多種，其分類方式的依據(jù)也不盡相同，下面介紹幾種較為常用的抽取方法。

1、基于模板的方法

這種技術依賴HTML文檔的內(nèi)部結構特征來完成數(shù)據(jù)抽取，需要使用wrapper（包裝器）來抽取網(wǎng)頁中的正文內(nèi)容。包裝器可以通過分析網(wǎng)頁源代碼來手工編寫，也可以通過程序自動或半自動的實現(xiàn)。手工編寫的方法一般都針對特定的網(wǎng)頁模式，其優(yōu)點是實現(xiàn)簡單、準確率高，缺點是對于不同的網(wǎng)頁模式或網(wǎng)頁結構發(fā)生變化時需要重新編寫包裝器，如果包裝器類型很多，包裝器的維護代價會很大，但由于該方法的準確性較高，所以在針對特定網(wǎng)站的抽取中應用很廣。自動或半自動地生成包裝器的方法在一定程度上減輕了維護包裝器的工作量，但是需要樣本學習，對用戶要求較高。

2、基于統(tǒng)計的方法

這種方法從頁面的不同角度分析它的統(tǒng)計特征，采用統(tǒng)計學的算法抽取正文。例如根據(jù)統(tǒng)計的文字數(shù)量、鏈接數(shù)量、標簽字符數(shù)量等計算出文本密度、鏈接密度等，并通過這些值來判斷哪些為正文文本、哪些為噪音內(nèi)容。參考文獻[1]提出一種通過分析頁面文本密度進行正文抽取的方法。這種方法實現(xiàn)簡單，并且不需要編寫包裝器，但提取的準確率有限，有時會將與正文無關的版權聲明等當作正文內(nèi)容提取出來。

3、基于神經(jīng)網(wǎng)絡的方法

由于神經(jīng)網(wǎng)絡具有優(yōu)越的非線性處理能力和泛化能力，因此在很多實際領域中都取得了傳統(tǒng)符號學習機制難以獲得的效果。搜索結點的輸入連接權，通過找出權值之和超過閾值的連接權子集來抽取規(guī)則。利用多層網(wǎng)絡度量輸入之間的接近程度，并利用單層抑制性網(wǎng)絡度量輸入、輸出相關度，從而獲得抽取規(guī)則。

針對新聞類網(wǎng)頁及類似布局的頁面，在對頁面文本密度進行統(tǒng)計之后對文本密度與頁面標題、正文之間的對應關系進行分析，以對傳網(wǎng)絡（CPN）為工具，對文本密度在標題、正文等語義塊中的分布模式進行擬合，從而達到抽取目標信息的目的。

4、基于中文標點符號和HTML樹

結構的網(wǎng)頁正文信息抽取方法HTML（ hyper text markup language）是超文本標記語言，是基于標準通用標記語言（SGML）的一個龐大的文檔處理系統(tǒng)。 SGML 的基本思想是采用描述標記（ Tag）來提供描述文檔結構的附加信息。 HTML 利用SGML 定義了一些標記，如<html>、<title>等，用于描述文本的顯示方式，并對這些標記的使用都做了格式定義，對于實體符號的顯示和標記元素的結構也做了規(guī)范，使得HTML 網(wǎng)頁在文本格式和結構上存在一定的規(guī)律，也為網(wǎng)頁信息的提取提供了方便。

在規(guī)范化之前，可以先刪除<form>、<script>和<style>等用于控制HTML 文件的交互性和顯示的標記，這些標記不包含主題內(nèi)容，剔除后可加快處理速度。使用HTML Tidy 工具對網(wǎng)頁進行規(guī)范化可以實現(xiàn)完整的HTML 樹結構的顯示，但沒有針對性和可操作性，所以編寫了用于本文研究的HTML 規(guī)范化程序，然后通過HTML 樹解析程序?qū)⒁?guī)范的HTML 文件解析成HTML樹，樹中的每個結點包含了一對標記間的所有字符，結點的名字為對應標記的名字。

以行為單位對網(wǎng)頁源代碼中的每一行計算其相關的六個屬性，并以此作為BP神經(jīng)網(wǎng)絡的輸入?yún)?shù)進行學習。由于該算法未對文本內(nèi)容和標題的相關度進行判斷，所以導致會將一些網(wǎng)站的版權聲明當作正文內(nèi)容錯誤地提取出來。所以通過計算文本內(nèi)容和標題的相關度來區(qū)別是否為噪音是合理的。本方法以行為單位對DOM樹進行處理，將每行的文本密度、文本內(nèi)容與標題的相關度作為輸入?yún)?shù)利用BP神經(jīng)網(wǎng)絡進行訓練，從而提高信息抽取的準確度。

二、算法描述

1、BP神經(jīng)網(wǎng)絡模型

BP算法屬于Delta學習規(guī)則，是一種有教師的學習算法，是以網(wǎng)絡誤差平方和為目標函數(shù)，按梯度法（gradient approaches）求其目標函數(shù)達到值的算法。一個典型的BP神經(jīng)網(wǎng)絡包括：（1）由一個輸入層x、一個（或多個）隱藏層y和一個輸出層o組成的三層或多層結構；（2）處理單元（圖1中的圓圈）是網(wǎng)絡的基本組成部分，輸入層的處理單元只是將輸入值轉(zhuǎn)入相鄰的聯(lián)接權重，隱層和輸出層的處理單元將它們的輸入值求和并根據(jù)傳遞函數(shù)計算輸出值；（3）聯(lián)接權重（如圖1中v,w）將神經(jīng)網(wǎng)絡中的處理單元聯(lián)系起來，其值隨各處理單元的連接程度而變化；（4）閾值，其值可為恒值或可變值，它可使網(wǎng)絡能更自由地獲取所要描述的函數(shù)關系；（5）傳遞函數(shù)F,它是將輸入的數(shù)據(jù)轉(zhuǎn)化為輸出的處理單元，通常為非線性函數(shù)。

BP神經(jīng)網(wǎng)絡模型

輸入層和輸出層的結點個數(shù)可以根據(jù)訓練集來確定，而隱藏層的結點卻需要試驗判斷。如果隱藏層結點數(shù)過少，網(wǎng)絡就不能具有必要的學習能力和信息處理能力。如果隱藏層結點數(shù)過多，不僅會大大增加網(wǎng)絡結構的復雜性，網(wǎng)絡在學習過程中更易陷入局部極小值，而且會使網(wǎng)絡的學習速度變得很慢。

2、利用人工神經(jīng)網(wǎng)絡進行正文提取

網(wǎng)頁的類型大體上可以分為三類：

（1）文字多圖片少的內(nèi)容型網(wǎng)頁，如新聞網(wǎng)頁；

（2）以圖片為主文字介紹為輔的圖片型網(wǎng)頁，如圖片新聞；

（3）以超鏈接為主的目錄型網(wǎng)頁，如新浪。試驗中我們以內(nèi)容型網(wǎng)頁作為主要研究對象。

三、網(wǎng)頁源文件預處理

隨著web2.0的發(fā)展，網(wǎng)站為了定制網(wǎng)頁的表現(xiàn)形式和提高網(wǎng)頁視覺效果，在源文件中加入大量Script腳本和CSS代碼。所以在抽取正文之前要對網(wǎng)頁源文件進行預處理，去除與正文內(nèi)容不相關的噪音內(nèi)容。

首先，由于html語言書寫的隨意性，導致有些網(wǎng)頁源代碼的不規(guī)范，例如標簽對缺失、嵌套不準確等。所以要將缺失的html標簽補齊、修改不正確的嵌套關系，并將源代碼轉(zhuǎn)換為DOM樹的形式。本文采用HTML Tidy工具來處理網(wǎng)頁。

其次，要判斷網(wǎng)頁源文件的編碼，否則有可能抽取到亂碼。以源文件頭中的meta里聲明的charset為準，對于編碼為GBK、gb2312等格式的網(wǎng)頁，都將其轉(zhuǎn)為utf8格式。

，Script標簽對之間和CSS內(nèi)容都與正文內(nèi)容無關，要全部刪除。另外，對于<a></a>等無用的空標簽對也一并刪除。

四、神經(jīng)網(wǎng)絡訓練過程

1、頁面主題的提取

<title>中的內(nèi)容一般為文章標題，但現(xiàn)在各大網(wǎng)站一般采用“文章標題+網(wǎng)站名”的形式放在<title>標簽中，且用符號“-”或“_”連接。在此將<title>中的文字內(nèi)容取出，并將“-”或“_”符號后面的文字刪除；若有多個這種符號，則將一個這種符號后面的文字內(nèi)容刪除，剩下的文字內(nèi)容作為文章標題。因為標題中的文字內(nèi)容一般會在正文內(nèi)容中出現(xiàn)，而非正文內(nèi)容一般不會包含標題詞，所以可以將文本內(nèi)容與文章標題的相關度作為判斷文本是否正文的一個因子。

2、統(tǒng)計各項值

以行為單位對DOM樹進行處理，依次統(tǒng)計每行的文本長度y和字符總長度z,用p表示該段的文本密度，則p=y/z,該行的文本內(nèi)容為c.

3、計算相關度

分別對文章標題t和每行取出的文本內(nèi)容c進行分詞，得到對應的標題詞項（t1,t2…tm）和文本詞項（c1,c2…cn），然后將每個標題詞項ti和文本詞項cj進行匹配，統(tǒng)計匹配次數(shù)并進行加權計算，得出其相關度，記相關度為s.為了提高相關度的準確性，本文借鑒搜索引擎中“倒排索引”的經(jīng)驗，對“的”“是”等停止詞放在詞庫中進行分詞，但不對其進行相關度計算。

采用BP神經(jīng)網(wǎng)絡作為訓練模型，各層的激勵函數(shù)均為logsig,目標誤差設為0.05,學習率為0.2.該模型有12個輸入結點、5個隱藏層結點和一個輸出結點。其中12個輸入?yún)?shù)為：每行的文本長度、每行的字符總長度、每行的文本密度、每行文本內(nèi)容與標題的相關度、上一行的這四個值和下一行的這四個值。具體步驟如下：

（1）獲取訓練集并做好標記。

（2）對網(wǎng)頁源文件進行預處理，生成相應的DOM樹。

（3）從DOM樹中讀取一行文字，統(tǒng)計相應值，得出輸入向量和期望輸出。

（4）輸入向量經(jīng)過隱藏層結點和輸出層結點的傳遞函數(shù)得到實際輸出。

（5）計算實際輸出向量和期望輸出向量的誤差，并計算各輸出誤差項和隱藏層結點誤差項。如果誤差在允許范圍內(nèi)，則回到步驟（3），從DOM樹中讀取下一行文字繼續(xù)進行。如果誤差不在允許誤差范圍內(nèi)，則根據(jù)計算出的誤差項計算出各權重的調(diào)整量，并調(diào)整權重。

（6）返回步驟（4），繼續(xù)迭代，直到實際輸出向量和期望輸出向量的誤差滿足要求。返回步驟（3）讀取下一行內(nèi)容，繼續(xù)進行學習。

（7）標簽樹遍歷完畢，訓練結束。

將DOM樹的各個元素偶對的相關值作為神經(jīng)網(wǎng)絡的輸入，樣本標記結果作為輸出，通過學習算法自動生成抽取規(guī)則，對新的頁面應用抽取規(guī)則進行測試。

五、測試結果

采用信息抽取技術中常用的查全率（R）、查準率（P）和F值三個評價指標對測試結果進行評價。查全率表示被正確抽取的信息的比例、查準率表示提取出來的正確信息的比率、F值是查全率和查準率的加權幾何平均值。用公式表示如下：P=（正確抽取出正文內(nèi)容的網(wǎng)頁數(shù)/總網(wǎng)頁數(shù)）*100%,R=（抽取出完整正文內(nèi)容的網(wǎng)頁數(shù)/正確抽取出正文內(nèi)容的網(wǎng)頁數(shù)）*100%,在此將查全率和查準率看的同等重要，得出F=2PR/（P+R）。根據(jù)F值與1的靠近程度來判斷算法的好壞，越靠近1算法越好。

從幾大新聞網(wǎng)站隨機抽取20個網(wǎng)頁進行人工分析和標記，按照以上方法進行訓練。為了測試抽取方法的可行性，再抽取一定量的網(wǎng)頁作為測試集，并利用訓練結果進行測試。測試結果如表1所示。

利用訓練結果進行測試

在本文中通過統(tǒng)計DOM樹每一行的文本長度和字符長度，進而計算文本密度以及文字內(nèi)容與標題的相關度，并將這些數(shù)值作為輸入?yún)?shù)輸入到人工神經(jīng)網(wǎng)絡進行訓練。通過計算內(nèi)容和標題的相關度可以避免將一些標簽字符較少、文字內(nèi)容較多的版權聲明等內(nèi)容提取出來，進而提高正文抽取的準確度。從測試結果看，該方法具有一定的可行性。下一步要尋求更好的相關度計算方法，更準確地計算正文和標題的相關度，進一步提高正文抽取的準確性。

關鍵詞：提高閱讀效率——利用機器學習的網(wǎng)頁正文提取方法

上一篇：全面解讀室外WLAN無線網(wǎng)絡技術應用

下一篇：詳談VoIP協(xié)議不容忽視的安全問題

版權與免責聲明

凡本網(wǎng)注明“出處：維庫電子市場網(wǎng)”的所有作品，版權均屬于維庫電子市場網(wǎng)，轉(zhuǎn)載請必須注明維庫電子市場網(wǎng)，http://www.hbjingang.com，違反者本網(wǎng)將追究相關法律責任。

本網(wǎng)轉(zhuǎn)載并注明自其它出處的作品，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點或證實其內(nèi)容的真實性，不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時，必須保留本網(wǎng)注明的作品出處，并自負版權等法律責任。

如涉及作品內(nèi)容、版權等問題，請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系，否則視為放棄相關權利。

相關技術資料

工業(yè)5G技術在智能制造中的應用與實踐解析2025/12/31 10:57:21
工業(yè)以太網(wǎng)交換機選型與現(xiàn)場應用技術指南2025/12/18 10:48:14
無線傳輸電路基礎，射頻前端設計、天線匹配與鏈路預算計算2025/10/27 13:55:50
ASK 解調(diào)的核心要點與實現(xiàn)方式2025/9/5 16:46:17
雙偶極子天線：結構、特性與應用全解析2025/9/3 10:29:21

技術分類

熱門技術資料

最新技術資料

日韩欧美自拍在线观看-欧美精品在线看片一区二区-高清性视频一区二区播放-欧美日韩女优制服另类-国产精品久久久久久av蜜臀-成人在线黄色av网站-肥臀熟妇一区二区三区-亚洲视频在线播放老色-在线成人激情自拍视频

維庫電子市場網(wǎng)-十六年專注打造電子元器件采購網(wǎng)

提高閱讀效率——利用機器學習的網(wǎng)頁正文提取方法

版權與免責聲明

日韩欧美自拍在线观看-欧美精品在线看片一区二区-高清性视频一区二区播放-欧美日韩女优制服另类-国产精品久久久久久av蜜臀-成人在线黄色av网站-肥臀熟妇一区二区三区-亚洲视频在线播放老色-在线成人激情自拍视频

維庫電子市場網(wǎng)-十六年專注打造電子元器件采購網(wǎng)

提高閱讀效率——利用機器學習的網(wǎng)頁正文提取方法

版權與免責聲明

建議反饋