淺談如何網(wǎng)頁搜索招聘信息

出處：維庫電子市場網(wǎng) 發(fā)布于：2023-06-25 11:06:13

　　信息檢索（InformatiON Retrieval）是指信息按一定的方式組織起來，并根據(jù)信息用戶的需要找出有關(guān)的信息的過程和技術(shù)。狹義的信息檢索就是信息檢索過程的后半部分，即從信息集合中找出所需要的信息的過程，也就是我們常說的信息查尋（Information Search 或Information Seek）。

　　1 招聘信息網(wǎng)頁搜索

信息檢索有廣義和狹義的之分。廣義的信息檢索全稱為“信息存儲與檢索”，是指將信息按一定的方式組織和存儲起來，并根據(jù)用戶的需要找出有關(guān)信息的過程。狹義的信息檢索為“信息存儲與檢索”的后半部分，通常稱為“信息查找”或“信息搜索”，是指從信息集合中找出用戶所需要的有關(guān)信息的過程。狹義的信息檢索包括3個方面的含義：了解用戶的信息需求、信息檢索的技術(shù)或方法、滿足信息用戶的需求。

信息檢索起源于圖書館的參考咨詢和文摘索引工作，從19世紀下半葉首先開始發(fā)展，至20世紀40年代，索引和檢索成已為圖書館獨立的工具和用戶服務(wù)項目。隨著1946年世界上臺電子計算機問世，計算機技術(shù)逐步走進信息檢索領(lǐng)域，并與信息檢索理論緊密結(jié)合起來；脫機批量情報檢索系統(tǒng)、聯(lián)機實時情報檢索系統(tǒng)相繼研制成功并商業(yè)化，20世紀60年代到80年代，在信息處理技術(shù)、通訊技術(shù)、計算機和數(shù)據(jù)庫技術(shù)的推動下，信息檢索在教育、軍事和商業(yè)等各領(lǐng)域高速發(fā)展，得到了廣泛的應(yīng)用。Dialog國際聯(lián)機情報檢索系統(tǒng)是這一時期的信息檢索領(lǐng)域的代表，至今仍是世界上的系統(tǒng)之一。

招聘信息網(wǎng)頁的搜索是從一個公司的開始，搜尋該站點內(nèi)的所有招聘信息網(wǎng)頁。下面將招聘信息網(wǎng)頁簡稱為招聘網(wǎng)頁。招聘信息是指具體的招聘職位、人數(shù)和要求等信息。本文假定存在一個入口頁面，將其稱之為公司招聘。該招聘主頁可能不是招聘頁面，因為它不包含具體的招聘信息，但是通過該頁面可以鏈接到很多招聘頁面，通過擴展這些招聘頁面，可以到達公司的所有招聘頁面。招聘頁面的擴展是帶有啟發(fā)式的，即只擴展招聘頁面，不擴展非招聘頁面。

Spider又叫WebCrawler或者Robot，是一個沿著鏈接漫游Web 文檔集合的程序。它一般駐留在服務(wù)器上，通過給定的一些URL，利用HTTP等標準協(xié)議讀取相應(yīng)文檔,然后以文檔中包括的所有未訪問過的URL作為新的起點，繼續(xù)進行漫游，直到?jīng)]有滿足條件的新URL為止。WebCrawler的主要功能是自動從Internet上的各Web 站點抓取Web文檔并從該Web文檔中提取一些信息來描述該Web文檔,為搜索引擎站點的數(shù)據(jù)庫服務(wù)器追加和更新數(shù)據(jù)提供原始數(shù)據(jù),這些數(shù)據(jù)包括標題、長度、文件建立時間、HTML文件中的各種鏈接數(shù)目等

　2 系統(tǒng)介紹

招聘網(wǎng)頁搜索系統(tǒng)由4個模塊組成：入口定位模塊、招聘鏈接識別模塊、招聘頁面識別模塊和頁面搜索模塊。Web招聘信息自動搜索平臺總體結(jié)構(gòu)。

首先，由入口定位模塊找到公司的招聘入口頁面。然后頁面搜索模塊由入口頁面出發(fā)，通過不斷擴展招聘頁面來獲得所有的招聘頁面。在擴展過程中，使用招聘頁面識別模塊來判別一個頁面是否是招聘頁面。招聘頁面識別模塊通過統(tǒng)計頁面關(guān)鍵詞詞頻來識別網(wǎng)頁。下面將詳細描述各個模塊的具體算法。

　2.1 入口定位模塊

入口定位模塊采用的是自主搜索算法。其原理是基于分步的思想。假設(shè)要查找美國高校計算機方面的論文，首先可以在一個大學(xué)網(wǎng)址中查找計算機系主頁，找到后可以查找相應(yīng)的教員目錄，然后通過每個教員找到論文所在的頁面。

在一步搜索詞表中由樣本得到的有“招聘信息”、“工作機會”、“加入我們”、“招賢納士”等關(guān)鍵詞。在二步搜索中，步得到的有“關(guān)于我們”、“人力資源”、“人才中心”等關(guān)鍵詞，第二步得到的有“工作機會”、“校園招聘”、“社會招聘”、“招聘信息”等關(guān)鍵詞。下面是具體的處理步驟：

SearchOneSite(TermSet，SearchArea，SearchKB，EventLog，WebPageSet){

//根據(jù)搜索知識、各網(wǎng)鏈特征集以及當前搜索路徑，計算各網(wǎng)

//鏈搜索優(yōu)先值

1．URLSet=ComputeURLPriority(TermSet，SearchArea，

SearchKB)；

//按照各網(wǎng)鏈搜索優(yōu)先值將其順序壓入棧中，以便進行回溯搜索

2．PushURLSetToSearchSTack(URLSet,SearchStack，SearchArea)；

//從當前網(wǎng)鏈集中，彈取出一個候選URL（當前搜索優(yōu)先權(quán)值

//）

3．OneURL=GetNextOneURL(SearchArea，SearchStack)；

//若當前網(wǎng)鏈集地址已經(jīng)被搜索完，則進行搜索回溯

4．If(OneURl==NULL){

if(UpdateSearchArea(SearchArea，NULL)==NOBACK)

return FALSE；

goto 3；

}

//從互聯(lián)網(wǎng)上讀取指定URL的網(wǎng)頁判斷讀取是否成功

//若成功

5．If(OneWebPage==FetchOnePage(OneURL，SearchArea)；

//記錄當前搜索參數(shù)與結(jié)果

6．RecordEvent(OneURL,SearchArea，EventLog)；

//若讀取失敗，則準備讀取下一個網(wǎng)頁

7．If(OneWebPage==NULL) goto 3；

//分析所獲網(wǎng)頁并取得其內(nèi)容特征

8．TermSet=ParseWebPage(OneWebPage，SearchArea)；

//根據(jù)當前搜索知識、網(wǎng)頁特征與搜索路徑，確定網(wǎng)頁是否為

//下一基本網(wǎng)頁

9．Result=CheckWebPage(TermSet，SearchArea，SearchKB)；

//若是下一個網(wǎng)鏈所在網(wǎng)頁，則更新當前搜索狀態(tài)

10．If(Result==NEXTLINK)

UpdateSearchArea(SearchArea，Result)；

//若是下一個基本網(wǎng)頁，則更新當前搜索狀態(tài)

11．If(Result==NEXTPAGE){

//將已搜索到的基本網(wǎng)頁收集在一起，作為搜索結(jié)果

WebPageSet=WebPageSet+{OneWebPage}；

//若已獲一個基本網(wǎng)頁，則返回搜索成功信息

if(UpdateSearchArea(SearchArea，Result)==LASTONE)return TRUE；

}

//準備回溯搜索

else goto 3；

//繼續(xù)搜索

goto 1；

}

對于在搜索知識庫中不存在的路徑，即壞情況，也可以達到采用廣度優(yōu)先算法的搜索效率。找到入口頁面后，將交由頁面搜索模塊進行招聘頁面的搜索。

　2.2 頁面搜索程序

頁面搜索程序從招聘入口頁面鏈接開始，搜尋該頁面下的所有頁面鏈接，并通過招聘鏈接識別器過濾出候選的招聘網(wǎng)頁鏈接。

在頁面搜索程序的設(shè)計策略中，主要有2方面的工作：對頁面的解析和高效的搜索策略。雖然已經(jīng)有基于XML和Web Server的標準，但要將現(xiàn)存的大量頁面過渡到這些標準還需要相當長的時間。所以對頁面的解析仍需處理大量的不規(guī)則格式。例如在鏈接中就存在著“href= ”、“href =”、“href=" "”以及“href=′ ′”等多種合法的格式，在解析時應(yīng)該充分考慮各種情況。優(yōu)良的搜索策略也是必不可少的，存在著像changhong這樣巨大的站點，本身有著大量的鏈接，采用傳統(tǒng)的廣度優(yōu)先算法也可以完成搜索任務(wù)，但耗時多。具體的算法如下：

//EntranceURL是由入口定位模塊給定的入口頁面鏈接

//從EntranceURL開始有限深度遍歷站點內(nèi)的所有網(wǎng)頁。返回

//遍歷到的網(wǎng)頁鏈接

searchAllLinksBeginWith(EntranceURL)

List open=new LinkedList( )；//open表，存放待擴展的節(jié)點

List close=new LinkedList( )；//close表，存放已遍歷的節(jié)點

startLink=new Link(startURL，″ ″，0)；//初始鏈接深度為零

open.add(startLink)；

while open不為空

first=open.removeFirst( )；

addToClose(first)；

expandedLinks=expand(first)；

removeVisitedLinks(expandedLinks)；

addToOpenAtEnd(expandedLinks)；

return close；

　2.3 招聘鏈接識別器

招聘鏈接識別器對鏈接進行識別，以過濾出候選的招聘網(wǎng)頁鏈接。

此處需要分析的鏈接包含2個部分：URL和URL對應(yīng)的文字。例如，對于下面的一段HTML代碼片段：

有2個鏈接：

url1=http：//www.kingsoft.net/business/

url2=http：//www.kingsoft.net/c/2003/04/22/71090.shtml

這2個鏈接對應(yīng)的文字分別為“商業(yè)合作”和“誠聘英才”。

很顯然，實際需要的是“誠聘英才”所對應(yīng)的鏈接，因為“誠聘英才”這4個字往往意味著招聘信息頁面。很自然，可以預(yù)設(shè)一組關(guān)鍵詞，如果鏈接文字中包含其中的某個關(guān)鍵詞，便認為該鏈接對應(yīng)于招聘信息網(wǎng)頁。

但是，僅僅這樣還不夠。因為有些網(wǎng)頁使用圖片來導(dǎo)航，通過圖片來鏈接到招聘信息網(wǎng)頁。對于圖片通常無法識別其具體的含義，也許只能獲得URL，而沒有對應(yīng)的文字。而且，關(guān)鍵詞詞典可能不全面，會遺漏正確的鏈接。因此，需要引入URL關(guān)鍵詞模式。如果URL包含其中的某個關(guān)鍵詞，則認為該鏈接對應(yīng)于招聘信息網(wǎng)頁。

鏈接識別詳細算法如下。

isJobLink(text，url)

//判斷一個鏈接是否為招聘網(wǎng)頁鏈接，text為鏈接文字，url為

//鏈接URL

//令textKeywords為包含文字關(guān)鍵詞的集合，urlKeywords為包

//含URL關(guān)鍵詞的集合

for each word in textKeywords

if (text contain word) return true；

for each word in urlKeywords

if (url contain word) return true；

return false；

2.4 招聘網(wǎng)頁識別器

招聘網(wǎng)頁識別器根據(jù)網(wǎng)頁的內(nèi)容判斷其是否屬于招聘信息網(wǎng)頁。為了避免遺漏，在網(wǎng)頁鏈接識別器中將判斷準則放得較寬，所以根據(jù)網(wǎng)頁鏈接識別器過濾出來的鏈接所對應(yīng)的網(wǎng)頁有可能不是招聘信息網(wǎng)頁。為此，需要再加入一層限制，即對網(wǎng)頁內(nèi)容進行分析，進一步過濾。招聘網(wǎng)頁識別器應(yīng)用由樣本分析模塊得到的頁面判斷知識，從而終找到招聘頁面。

考慮招聘信息的特點，在判斷中并非以某個詞出現(xiàn)多少為依據(jù)，而應(yīng)該考慮多個詞同時出現(xiàn)的機會，這也是很直觀的方法。如一條招聘信息中可能同時出現(xiàn)“xx人員”、“要求”、“工作經(jīng)驗”，但幾乎不會同時出現(xiàn)多個“招聘”關(guān)鍵字。

考慮到上述特點，在本模塊的實現(xiàn)中，仍然基于關(guān)鍵詞，統(tǒng)計所有關(guān)鍵詞詞典中的詞出現(xiàn)的頻率的和，如果這個和超過閾值，則認為該網(wǎng)頁屬于招聘信息網(wǎng)頁，否則不是。

　3 實驗結(jié)果及結(jié)論

采用上述方法對給定的一定數(shù)量的站點進行了搜索的實驗，得到了比較理想的效果。由于存在一些不能直接由頁面得到鏈接的站點，或者本身鏈接的URL不能提供識別而且對應(yīng)的是圖片信息，而開發(fā)的程序并沒有設(shè)計用于識別這類圖片的模塊，所以在實驗統(tǒng)計中只考慮能得到候選鏈接的情況。終正確率達到了95%，很好地完成了預(yù)定任務(wù)。

本文對于工作頁面的搜索還只是一個初步的嘗試，雖然達到了比較好的效果，但仍然存在著許多可以改進的地方。如在一些特殊的情況下，如何獲得頁面鏈接，如何改進鏈接的搜索策略，如何使頁面識別器的參數(shù)選定。接下來的工作將關(guān)注搜索策略的改進和更全面的鏈接解析，以實現(xiàn)低的遺漏率和高正確率。當然對于招聘頁面識別只是特定搜索的一個方面，將來的工作是將它做成通用性平臺，以滿足用戶更廣泛的要求。

上一篇：解析單卡在線自助圈存系統(tǒng)的應(yīng)用

下一篇：MVC架構(gòu)在Web應(yīng)用系統(tǒng)的應(yīng)用

版權(quán)與免責聲明

凡本網(wǎng)注明“出處：維庫電子市場網(wǎng)”的所有作品，版權(quán)均屬于維庫電子市場網(wǎng)，轉(zhuǎn)載請必須注明維庫電子市場網(wǎng)，http://www.hbjingang.com，違反者本網(wǎng)將追究相關(guān)法律責任。

本網(wǎng)轉(zhuǎn)載并注明自其它出處的作品，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點或證實其內(nèi)容的真實性，不承擔此類作品侵權(quán)行為的直接責任及連帶責任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時，必須保留本網(wǎng)注明的作品出處，并自負版權(quán)等法律責任。

如涉及作品內(nèi)容、版權(quán)等問題，請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系，否則視為放棄相關(guān)權(quán)利。

相關(guān)技術(shù)資料

工業(yè)5G技術(shù)在智能制造中的應(yīng)用與實踐解析2025/12/31 10:57:21
工業(yè)以太網(wǎng)交換機選型與現(xiàn)場應(yīng)用技術(shù)指南2025/12/18 10:48:14
無線傳輸電路基礎(chǔ)，射頻前端設(shè)計、天線匹配與鏈路預(yù)算計算2025/10/27 13:55:50
ASK 解調(diào)的核心要點與實現(xiàn)方式2025/9/5 16:46:17
雙偶極子天線：結(jié)構(gòu)、特性與應(yīng)用全解析2025/9/3 10:29:21

技術(shù)分類

熱門技術(shù)資料

最新技術(shù)資料

日韩欧美自拍在线观看-欧美精品在线看片一区二区-高清性视频一区二区播放-欧美日韩女优制服另类-国产精品久久久久久av蜜臀-成人在线黄色av网站-肥臀熟妇一区二区三区-亚洲视频在线播放老色-在线成人激情自拍视频

維庫電子市場網(wǎng)-十六年專注打造電子元器件采購網(wǎng)

淺談如何網(wǎng)頁搜索招聘信息

版權(quán)與免責聲明

日韩欧美自拍在线观看-欧美精品在线看片一区二区-高清性视频一区二区播放-欧美日韩女优制服另类-国产精品久久久久久av蜜臀-成人在线黄色av网站-肥臀熟妇一区二区三区-亚洲视频在线播放老色-在线成人激情自拍视频

維庫電子市場網(wǎng)-十六年專注打造電子元器件采購網(wǎng)

淺談如何網(wǎng)頁搜索招聘信息

版權(quán)與免責聲明

建議反饋