淺談如何網(wǎng)頁搜索招聘信息
出處:維庫電子市場網(wǎng) 發(fā)布于:2023-06-25 11:06:13
信息檢索(InformatiON Retrieval)是指信息按一定的方式組織起來,并根據(jù)信息用戶的需要找出有關(guān)的信息的過程和技術(shù)。狹義的信息檢索就是信息檢索過程的后半部分,即從信息集合中找出所需要的信息的過程,也就是我們常說的信息查尋(Information Search 或Information Seek)。
1 招聘信息網(wǎng)頁搜索
信息檢索有廣義和狹義的之分。廣義的信息檢索全稱為“信息存儲與檢索”,是指將信息按一定的方式組織和存儲起來,并根據(jù)用戶的需要找出有關(guān)信息的過程。狹義的信息檢索為“信息存儲與檢索”的后半部分,通常稱為“信息查找”或“信息搜索”,是指從信息集合中找出用戶所需要的有關(guān)信息的過程。狹義的信息檢索包括3個方面的含義:了解用戶的信息需求、信息檢索的技術(shù)或方法、滿足信息用戶的需求。
信息檢索起源于圖書館的參考咨詢和文摘索引工作,從19世紀下半葉首先開始發(fā)展,至20世紀40年代,索引和檢索成已為圖書館獨立的工具和用戶服務(wù)項目。 隨著1946年世界上臺電子計算機問世,計算機技術(shù)逐步走進信息檢索領(lǐng)域,并與信息檢索理論緊密結(jié)合起來;脫機批量情報檢索系統(tǒng)、聯(lián)機實時情報檢索系統(tǒng)相繼研制成功并商業(yè)化,20世紀60年代到80年代,在信息處理技術(shù)、通訊技術(shù)、計算機和數(shù)據(jù)庫技術(shù)的推動下,信息檢索在教育、軍事和商業(yè)等各領(lǐng)域高速發(fā)展,得到了廣泛的應(yīng)用。Dialog國際聯(lián)機情報檢索系統(tǒng)是這一時期的信息檢索領(lǐng)域的代表,至今仍是世界上的系統(tǒng)之一。
招聘信息網(wǎng)頁的搜索是從一個公司的開始,搜尋該站點內(nèi)的所有招聘信息網(wǎng)頁。下面將招聘信息網(wǎng)頁簡稱為招聘網(wǎng)頁。招聘信息是指具體的招聘職位、人數(shù)和要求等信息。本文假定存在一個入口頁面,將其稱之為公司招聘。該招聘主頁可能不是招聘頁面,因為它不包含具體的招聘信息,但是通過該頁面可以鏈接到很多招聘頁面,通過擴展這些招聘頁面,可以到達公司的所有招聘頁面。招聘頁面的擴展是帶有啟發(fā)式的,即只擴展招聘頁面,不擴展非招聘頁面。
Spider又叫WebCrawler或者Robot,是一個沿著鏈接漫游Web 文檔集合的程序。它一般駐留在服務(wù)器上,通過給定的一些URL,利用HTTP等標準協(xié)議讀取相應(yīng)文檔,然后以文檔中包括的所有未訪問過的URL作為新的起點,繼續(xù)進行漫游,直到?jīng)]有滿足條件的新URL為止。WebCrawler的主要功能是自動從Internet上的各Web 站點抓取Web文檔并從該Web文檔中提取一些信息來描述該Web文檔,為搜索引擎站點的數(shù)據(jù)庫服務(wù)器追加和更新數(shù)據(jù)提供原始數(shù)據(jù),這些數(shù)據(jù)包括標題、長度、文件建立時間、HTML文件中的各種鏈接數(shù)目等
2 系統(tǒng)介紹
招聘網(wǎng)頁搜索系統(tǒng)由4個模塊組成:入口定位模塊、招聘鏈接識別模塊、招聘頁面識別模塊和頁面搜索模塊。Web招聘信息自動搜索平臺總體結(jié)構(gòu)。
首先,由入口定位模塊找到公司的招聘入口頁面。然后頁面搜索模塊由入口頁面出發(fā),通過不斷擴展招聘頁面來獲得所有的招聘頁面。在擴展過程中,使用招聘頁面識別模塊來判別一個頁面是否是招聘頁面。招聘頁面識別模塊通過統(tǒng)計頁面關(guān)鍵詞詞頻來識別網(wǎng)頁。下面將詳細描述各個模塊的具體算法。
2.1 入口定位模塊
入口定位模塊采用的是自主搜索算法。其原理是基于分步的思想。假設(shè)要查找美國高校計算機方面的論文,首先可以在一個大學(xué)網(wǎng)址中查找計算機系主頁,找到后可以查找相應(yīng)的教員目錄,然后通過每個教員找到論文所在的頁面。
在一步搜索詞表中由樣本得到的有“招聘信息”、“工作機會”、“加入我們”、“招賢納士”等關(guān)鍵詞。在二步搜索中,步得到的有“關(guān)于我們”、“人力資源”、“人才中心”等關(guān)鍵詞,第二步得到的有“工作機會”、“校園招聘”、“社會招聘”、“招聘信息”等關(guān)鍵詞。下面是具體的處理步驟:
SearchOneSite(TermSet,SearchArea,SearchKB,EventLog,WebPageSet){
//根據(jù)搜索知識、各網(wǎng)鏈特征集以及當前搜索路徑,計算各網(wǎng)
//鏈搜索優(yōu)先值
1.URLSet=ComputeURLPriority(TermSet,SearchArea,
SearchKB);
//按照各網(wǎng)鏈搜索優(yōu)先值將其順序壓入棧中,以便進行回溯搜索
2.PushURLSetToSearchSTack(URLSet,SearchStack,SearchArea);
//從當前網(wǎng)鏈集中,彈取出一個候選URL(當前搜索優(yōu)先權(quán)值
//)
3.OneURL=GetNextOneURL(SearchArea,SearchStack);
//若當前網(wǎng)鏈集地址已經(jīng)被搜索完,則進行搜索回溯
4.If(OneURl==NULL){
if(UpdateSearchArea(SearchArea,NULL)==NOBACK)
return FALSE;
goto 3;
}
//從互聯(lián)網(wǎng)上讀取指定URL的網(wǎng)頁判斷讀取是否成功
//若成功
5.If(OneWebPage==FetchOnePage(OneURL,SearchArea);
//記錄當前搜索參數(shù)與結(jié)果
6.RecordEvent(OneURL,SearchArea,EventLog);
//若讀取失敗,則準備讀取下一個網(wǎng)頁
7.If(OneWebPage==NULL) goto 3;
//分析所獲網(wǎng)頁并取得其內(nèi)容特征
8.TermSet=ParseWebPage(OneWebPage,SearchArea);
//根據(jù)當前搜索知識、網(wǎng)頁特征與搜索路徑,確定網(wǎng)頁是否為
//下一基本網(wǎng)頁
9.Result=CheckWebPage(TermSet,SearchArea,SearchKB);
//若是下一個網(wǎng)鏈所在網(wǎng)頁,則更新當前搜索狀態(tài)
10.If(Result==NEXTLINK)
UpdateSearchArea(SearchArea,Result);
//若是下一個基本網(wǎng)頁,則更新當前搜索狀態(tài)
11.If(Result==NEXTPAGE){
//將已搜索到的基本網(wǎng)頁收集在一起,作為搜索結(jié)果
WebPageSet=WebPageSet+{OneWebPage};
//若已獲一個基本網(wǎng)頁,則返回搜索成功信息
if(UpdateSearchArea(SearchArea,Result)==LASTONE)return TRUE;
}
//準備回溯搜索
else goto 3;
//繼續(xù)搜索
goto 1;
}
對于在搜索知識庫中不存在的路徑,即壞情況,也可以達到采用廣度優(yōu)先算法的搜索效率。找到入口頁面后,將交由頁面搜索模塊進行招聘頁面的搜索。
2.2 頁面搜索程序
頁面搜索程序從招聘入口頁面鏈接開始,搜尋該頁面下的所有頁面鏈接,并通過招聘鏈接識別器過濾出候選的招聘網(wǎng)頁鏈接。
在頁面搜索程序的設(shè)計策略中,主要有2方面的工作:對頁面的解析和高效的搜索策略。雖然已經(jīng)有基于XML和Web Server的標準,但要將現(xiàn)存的大量頁面過渡到這些標準還需要相當長的時間。所以對頁面的解析仍需處理大量的不規(guī)則格式。例如在鏈接中就存在著“href= ”、“href =”、“href=" "”以及“href=′ ′”等多種合法的格式,在解析時應(yīng)該充分考慮各種情況。優(yōu)良的搜索策略也是必不可少的,存在著像changhong這樣巨大的站點,本身有著大量的鏈接,采用傳統(tǒng)的廣度優(yōu)先算法也可以完成搜索任務(wù),但耗時多。具體的算法如下:
//EntranceURL是由入口定位模塊給定的入口頁面鏈接
//從EntranceURL開始有限深度遍歷站點內(nèi)的所有網(wǎng)頁。返回
//遍歷到的網(wǎng)頁鏈接
searchAllLinksBeginWith(EntranceURL)
List open=new LinkedList( );//open表,存放待擴展的節(jié)點
List close=new LinkedList( );//close表,存放已遍歷的節(jié)點
startLink=new Link(startURL,″ ″,0);//初始鏈接深度為零
open.add(startLink);
while open不為空
first=open.removeFirst( );
addToClose(first);
expandedLinks=expand(first);
removeVisitedLinks(expandedLinks);
addToOpenAtEnd(expandedLinks);
return close;
2.3 招聘鏈接識別器
招聘鏈接識別器對鏈接進行識別,以過濾出候選的招聘網(wǎng)頁鏈接。
此處需要分析的鏈接包含2個部分:URL和URL對應(yīng)的文字。例如,對于下面的一段HTML代碼片段:
有2個鏈接:
url1=http://www.kingsoft.net/business/
url2=http://www.kingsoft.net/c/2003/04/22/71090.shtml
這2個鏈接對應(yīng)的文字分別為“商業(yè)合作”和“誠聘英才”。
很顯然,實際需要的是“誠聘英才”所對應(yīng)的鏈接,因為“誠聘英才”這4個字往往意味著招聘信息頁面。很自然,可以預(yù)設(shè)一組關(guān)鍵詞,如果鏈接文字中包含其中的某個關(guān)鍵詞,便認為該鏈接對應(yīng)于招聘信息網(wǎng)頁。
但是,僅僅這樣還不夠。因為有些網(wǎng)頁使用圖片來導(dǎo)航,通過圖片來鏈接到招聘信息網(wǎng)頁。對于圖片通常無法識別其具體的含義,也許只能獲得URL,而沒有對應(yīng)的文字。而且,關(guān)鍵詞詞典可能不全面,會遺漏正確的鏈接。因此,需要引入URL關(guān)鍵詞模式。如果URL包含其中的某個關(guān)鍵詞,則認為該鏈接對應(yīng)于招聘信息網(wǎng)頁。
鏈接識別詳細算法如下。
isJobLink(text,url)
//判斷一個鏈接是否為招聘網(wǎng)頁鏈接,text為鏈接文字,url為
//鏈接URL
//令textKeywords為包含文字關(guān)鍵詞的集合,urlKeywords為包
//含URL關(guān)鍵詞的集合
for each word in textKeywords
if (text contain word) return true;
for each word in urlKeywords
if (url contain word) return true;
return false;
2.4 招聘網(wǎng)頁識別器
招聘網(wǎng)頁識別器根據(jù)網(wǎng)頁的內(nèi)容判斷其是否屬于招聘信息網(wǎng)頁。為了避免遺漏,在網(wǎng)頁鏈接識別器中將判斷準則放得較寬,所以根據(jù)網(wǎng)頁鏈接識別器過濾出來的鏈接所對應(yīng)的網(wǎng)頁有可能不是招聘信息網(wǎng)頁。為此,需要再加入一層限制,即對網(wǎng)頁內(nèi)容進行分析,進一步過濾。招聘網(wǎng)頁識別器應(yīng)用由樣本分析模塊得到的頁面判斷知識,從而終找到招聘頁面。
考慮招聘信息的特點,在判斷中并非以某個詞出現(xiàn)多少為依據(jù),而應(yīng)該考慮多個詞同時出現(xiàn)的機會,這也是很直觀的方法。如一條招聘信息中可能同時出現(xiàn)“xx人員”、“要求”、“工作經(jīng)驗”,但幾乎不會同時出現(xiàn)多個“招聘”關(guān)鍵字。
考慮到上述特點,在本模塊的實現(xiàn)中,仍然基于關(guān)鍵詞,統(tǒng)計所有關(guān)鍵詞詞典中的詞出現(xiàn)的頻率的和,如果這個和超過閾值,則認為該網(wǎng)頁屬于招聘信息網(wǎng)頁,否則不是。
3 實驗結(jié)果及結(jié)論
采用上述方法對給定的一定數(shù)量的站點進行了搜索的實驗,得到了比較理想的效果。由于存在一些不能直接由頁面得到鏈接的站點,或者本身鏈接的URL不能提供識別而且對應(yīng)的是圖片信息,而開發(fā)的程序并沒有設(shè)計用于識別這類圖片的模塊,所以在實驗統(tǒng)計中只考慮能得到候選鏈接的情況。終正確率達到了95%,很好地完成了預(yù)定任務(wù)。
本文對于工作頁面的搜索還只是一個初步的嘗試,雖然達到了比較好的效果,但仍然存在著許多可以改進的地方。如在一些特殊的情況下,如何獲得頁面鏈接,如何改進鏈接的搜索策略,如何使頁面識別器的參數(shù)選定。接下來的工作將關(guān)注搜索策略的改進和更全面的鏈接解析,以實現(xiàn)低的遺漏率和高正確率。當然對于招聘頁面識別只是特定搜索的一個方面,將來的工作是將它做成通用性平臺,以滿足用戶更廣泛的要求。
版權(quán)與免責聲明
凡本網(wǎng)注明“出處:維庫電子市場網(wǎng)”的所有作品,版權(quán)均屬于維庫電子市場網(wǎng),轉(zhuǎn)載請必須注明維庫電子市場網(wǎng),http://www.hbjingang.com,違反者本網(wǎng)將追究相關(guān)法律責任。
本網(wǎng)轉(zhuǎn)載并注明自其它出處的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點或證實其內(nèi)容的真實性,不承擔此類作品侵權(quán)行為的直接責任及連帶責任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時,必須保留本網(wǎng)注明的作品出處,并自負版權(quán)等法律責任。
如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。
- 工業(yè)5G技術(shù)在智能制造中的應(yīng)用與實踐解析2025/12/31 10:57:21
- 工業(yè)以太網(wǎng)交換機選型與現(xiàn)場應(yīng)用技術(shù)指南2025/12/18 10:48:14
- 無線傳輸電路基礎(chǔ),射頻前端設(shè)計、天線匹配與鏈路預(yù)算計算2025/10/27 13:55:50
- ASK 解調(diào)的核心要點與實現(xiàn)方式2025/9/5 16:46:17
- 雙偶極子天線:結(jié)構(gòu)、特性與應(yīng)用全解析2025/9/3 10:29:21









