日韩欧美自拍在线观看-欧美精品在线看片一区二区-高清性视频一区二区播放-欧美日韩女优制服另类-国产精品久久久久久av蜜臀-成人在线黄色av网站-肥臀熟妇一区二区三区-亚洲视频在线播放老色-在线成人激情自拍视频

淺談如何網(wǎng)頁搜索招聘信息

出處:維庫電子市場網(wǎng) 發(fā)布于:2023-06-25 11:06:13

  信息檢索(InformatiON Retrieval)是指信息按一定的方式組織起來,并根據(jù)信息用戶的需要找出有關(guān)的信息的過程和技術(shù)。狹義的信息檢索就是信息檢索過程的后半部分,即從信息集合中找出所需要的信息的過程,也就是我們常說的信息查尋(Information Search 或Information Seek)。

  1  招聘信息網(wǎng)頁搜索

信息檢索有廣義和狹義的之分。廣義的信息檢索全稱為“信息存儲與檢索”,是指將信息按一定的方式組織和存儲起來,并根據(jù)用戶的需要找出有關(guān)信息的過程。狹義的信息檢索為“信息存儲與檢索”的后半部分,通常稱為“信息查找”或“信息搜索”,是指從信息集合中找出用戶所需要的有關(guān)信息的過程。狹義的信息檢索包括3個方面的含義:了解用戶的信息需求、信息檢索的技術(shù)或方法、滿足信息用戶的需求。

信息檢索起源于圖書館的參考咨詢和文摘索引工作,從19世紀下半葉首先開始發(fā)展,至20世紀40年代,索引和檢索成已為圖書館獨立的工具和用戶服務(wù)項目。 隨著1946年世界上臺電子計算機問世,計算機技術(shù)逐步走進信息檢索領(lǐng)域,并與信息檢索理論緊密結(jié)合起來;脫機批量情報檢索系統(tǒng)、聯(lián)機實時情報檢索系統(tǒng)相繼研制成功并商業(yè)化,20世紀60年代到80年代,在信息處理技術(shù)、通訊技術(shù)、計算機和數(shù)據(jù)庫技術(shù)的推動下,信息檢索在教育、軍事和商業(yè)等各領(lǐng)域高速發(fā)展,得到了廣泛的應(yīng)用。Dialog國際聯(lián)機情報檢索系統(tǒng)是這一時期的信息檢索領(lǐng)域的代表,至今仍是世界上的系統(tǒng)之一。

招聘信息網(wǎng)頁的搜索是從一個公司的開始,搜尋該站點內(nèi)的所有招聘信息網(wǎng)頁。下面將招聘信息網(wǎng)頁簡稱為招聘網(wǎng)頁。招聘信息是指具體的招聘職位、人數(shù)和要求等信息。本文假定存在一個入口頁面,將其稱之為公司招聘。該招聘主頁可能不是招聘頁面,因為它不包含具體的招聘信息,但是通過該頁面可以鏈接到很多招聘頁面,通過擴展這些招聘頁面,可以到達公司的所有招聘頁面。招聘頁面的擴展是帶有啟發(fā)式的,即只擴展招聘頁面,不擴展非招聘頁面。

Spider又叫WebCrawler或者Robot,是一個沿著鏈接漫游Web 文檔集合的程序。它一般駐留在服務(wù)器上,通過給定的一些URL,利用HTTP等標準協(xié)議讀取相應(yīng)文檔,然后以文檔中包括的所有未訪問過的URL作為新的起點,繼續(xù)進行漫游,直到?jīng)]有滿足條件的新URL為止。WebCrawler的主要功能是自動從Internet上的各Web 站點抓取Web文檔并從該Web文檔中提取一些信息來描述該Web文檔,為搜索引擎站點的數(shù)據(jù)庫服務(wù)器追加和更新數(shù)據(jù)提供原始數(shù)據(jù),這些數(shù)據(jù)包括標題、長度、文件建立時間、HTML文件中的各種鏈接數(shù)目等

 2  系統(tǒng)介紹

招聘網(wǎng)頁搜索系統(tǒng)由4個模塊組成:入口定位模塊、招聘鏈接識別模塊、招聘頁面識別模塊和頁面搜索模塊。Web招聘信息自動搜索平臺總體結(jié)構(gòu)。


首先,由入口定位模塊找到公司的招聘入口頁面。然后頁面搜索模塊由入口頁面出發(fā),通過不斷擴展招聘頁面來獲得所有的招聘頁面。在擴展過程中,使用招聘頁面識別模塊來判別一個頁面是否是招聘頁面。招聘頁面識別模塊通過統(tǒng)計頁面關(guān)鍵詞詞頻來識別網(wǎng)頁。下面將詳細描述各個模塊的具體算法。

 2.1 入口定位模塊

入口定位模塊采用的是自主搜索算法。其原理是基于分步的思想。假設(shè)要查找美國高校計算機方面的論文,首先可以在一個大學(xué)網(wǎng)址中查找計算機系主頁,找到后可以查找相應(yīng)的教員目錄,然后通過每個教員找到論文所在的頁面。


在一步搜索詞表中由樣本得到的有“招聘信息”、“工作機會”、“加入我們”、“招賢納士”等關(guān)鍵詞。在二步搜索中,步得到的有“關(guān)于我們”、“人力資源”、“人才中心”等關(guān)鍵詞,第二步得到的有“工作機會”、“校園招聘”、“社會招聘”、“招聘信息”等關(guān)鍵詞。下面是具體的處理步驟:

SearchOneSite(TermSet,SearchArea,SearchKB,EventLog,WebPageSet){

//根據(jù)搜索知識、各網(wǎng)鏈特征集以及當前搜索路徑,計算各網(wǎng)

//鏈搜索優(yōu)先值

1.URLSet=ComputeURLPriority(TermSet,SearchArea,

SearchKB);

//按照各網(wǎng)鏈搜索優(yōu)先值將其順序壓入棧中,以便進行回溯搜索

2.PushURLSetToSearchSTack(URLSet,SearchStack,SearchArea);

//從當前網(wǎng)鏈集中,彈取出一個候選URL(當前搜索優(yōu)先權(quán)值

//)

3.OneURL=GetNextOneURL(SearchArea,SearchStack);

//若當前網(wǎng)鏈集地址已經(jīng)被搜索完,則進行搜索回溯

4.If(OneURl==NULL){

if(UpdateSearchArea(SearchArea,NULL)==NOBACK)

return FALSE;

goto 3;

}

//從互聯(lián)網(wǎng)上讀取指定URL的網(wǎng)頁判斷讀取是否成功

//若成功

5.If(OneWebPage==FetchOnePage(OneURL,SearchArea);

//記錄當前搜索參數(shù)與結(jié)果

6.RecordEvent(OneURL,SearchArea,EventLog);

//若讀取失敗,則準備讀取下一個網(wǎng)頁

7.If(OneWebPage==NULL) goto 3;

//分析所獲網(wǎng)頁并取得其內(nèi)容特征

8.TermSet=ParseWebPage(OneWebPage,SearchArea);

//根據(jù)當前搜索知識、網(wǎng)頁特征與搜索路徑,確定網(wǎng)頁是否為

//下一基本網(wǎng)頁

9.Result=CheckWebPage(TermSet,SearchArea,SearchKB);

//若是下一個網(wǎng)鏈所在網(wǎng)頁,則更新當前搜索狀態(tài)

10.If(Result==NEXTLINK)

UpdateSearchArea(SearchArea,Result);

//若是下一個基本網(wǎng)頁,則更新當前搜索狀態(tài)

11.If(Result==NEXTPAGE){

//將已搜索到的基本網(wǎng)頁收集在一起,作為搜索結(jié)果

WebPageSet=WebPageSet+{OneWebPage};

//若已獲一個基本網(wǎng)頁,則返回搜索成功信息

if(UpdateSearchArea(SearchArea,Result)==LASTONE)return TRUE;

}

//準備回溯搜索

else goto 3;

//繼續(xù)搜索

goto 1;

}

對于在搜索知識庫中不存在的路徑,即壞情況,也可以達到采用廣度優(yōu)先算法的搜索效率。找到入口頁面后,將交由頁面搜索模塊進行招聘頁面的搜索。

 2.2 頁面搜索程序

頁面搜索程序從招聘入口頁面鏈接開始,搜尋該頁面下的所有頁面鏈接,并通過招聘鏈接識別器過濾出候選的招聘網(wǎng)頁鏈接。

在頁面搜索程序的設(shè)計策略中,主要有2方面的工作:對頁面的解析和高效的搜索策略。雖然已經(jīng)有基于XML和Web Server的標準,但要將現(xiàn)存的大量頁面過渡到這些標準還需要相當長的時間。所以對頁面的解析仍需處理大量的不規(guī)則格式。例如在鏈接中就存在著“href= ”、“href =”、“href=" "”以及“href=′ ′”等多種合法的格式,在解析時應(yīng)該充分考慮各種情況。優(yōu)良的搜索策略也是必不可少的,存在著像changhong這樣巨大的站點,本身有著大量的鏈接,采用傳統(tǒng)的廣度優(yōu)先算法也可以完成搜索任務(wù),但耗時多。具體的算法如下:

//EntranceURL是由入口定位模塊給定的入口頁面鏈接

//從EntranceURL開始有限深度遍歷站點內(nèi)的所有網(wǎng)頁。返回

//遍歷到的網(wǎng)頁鏈接

searchAllLinksBeginWith(EntranceURL)

List open=new LinkedList( );//open表,存放待擴展的節(jié)點

List close=new LinkedList( );//close表,存放已遍歷的節(jié)點

startLink=new Link(startURL,″ ″,0);//初始鏈接深度為零

open.add(startLink);

while open不為空

first=open.removeFirst( );

addToClose(first);

expandedLinks=expand(first);

removeVisitedLinks(expandedLinks);

addToOpenAtEnd(expandedLinks);

return close;

 2.3 招聘鏈接識別器

招聘鏈接識別器對鏈接進行識別,以過濾出候選的招聘網(wǎng)頁鏈接。

此處需要分析的鏈接包含2個部分:URL和URL對應(yīng)的文字。例如,對于下面的一段HTML代碼片段:

有2個鏈接:

url1=http://www.kingsoft.net/business/

url2=http://www.kingsoft.net/c/2003/04/22/71090.shtml

這2個鏈接對應(yīng)的文字分別為“商業(yè)合作”和“誠聘英才”。

很顯然,實際需要的是“誠聘英才”所對應(yīng)的鏈接,因為“誠聘英才”這4個字往往意味著招聘信息頁面。很自然,可以預(yù)設(shè)一組關(guān)鍵詞,如果鏈接文字中包含其中的某個關(guān)鍵詞,便認為該鏈接對應(yīng)于招聘信息網(wǎng)頁。

但是,僅僅這樣還不夠。因為有些網(wǎng)頁使用圖片來導(dǎo)航,通過圖片來鏈接到招聘信息網(wǎng)頁。對于圖片通常無法識別其具體的含義,也許只能獲得URL,而沒有對應(yīng)的文字。而且,關(guān)鍵詞詞典可能不全面,會遺漏正確的鏈接。因此,需要引入URL關(guān)鍵詞模式。如果URL包含其中的某個關(guān)鍵詞,則認為該鏈接對應(yīng)于招聘信息網(wǎng)頁。

鏈接識別詳細算法如下。

isJobLink(text,url)

//判斷一個鏈接是否為招聘網(wǎng)頁鏈接,text為鏈接文字,url為

//鏈接URL

//令textKeywords為包含文字關(guān)鍵詞的集合,urlKeywords為包

//含URL關(guān)鍵詞的集合

for each word in textKeywords

if (text contain word) return true;

for each word in urlKeywords

if (url contain word) return true;

return false;

2.4 招聘網(wǎng)頁識別器

招聘網(wǎng)頁識別器根據(jù)網(wǎng)頁的內(nèi)容判斷其是否屬于招聘信息網(wǎng)頁。為了避免遺漏,在網(wǎng)頁鏈接識別器中將判斷準則放得較寬,所以根據(jù)網(wǎng)頁鏈接識別器過濾出來的鏈接所對應(yīng)的網(wǎng)頁有可能不是招聘信息網(wǎng)頁。為此,需要再加入一層限制,即對網(wǎng)頁內(nèi)容進行分析,進一步過濾。招聘網(wǎng)頁識別器應(yīng)用由樣本分析模塊得到的頁面判斷知識,從而終找到招聘頁面。

考慮招聘信息的特點,在判斷中并非以某個詞出現(xiàn)多少為依據(jù),而應(yīng)該考慮多個詞同時出現(xiàn)的機會,這也是很直觀的方法。如一條招聘信息中可能同時出現(xiàn)“xx人員”、“要求”、“工作經(jīng)驗”,但幾乎不會同時出現(xiàn)多個“招聘”關(guān)鍵字。

考慮到上述特點,在本模塊的實現(xiàn)中,仍然基于關(guān)鍵詞,統(tǒng)計所有關(guān)鍵詞詞典中的詞出現(xiàn)的頻率的和,如果這個和超過閾值,則認為該網(wǎng)頁屬于招聘信息網(wǎng)頁,否則不是。

 3  實驗結(jié)果及結(jié)論

采用上述方法對給定的一定數(shù)量的站點進行了搜索的實驗,得到了比較理想的效果。由于存在一些不能直接由頁面得到鏈接的站點,或者本身鏈接的URL不能提供識別而且對應(yīng)的是圖片信息,而開發(fā)的程序并沒有設(shè)計用于識別這類圖片的模塊,所以在實驗統(tǒng)計中只考慮能得到候選鏈接的情況。終正確率達到了95%,很好地完成了預(yù)定任務(wù)。

本文對于工作頁面的搜索還只是一個初步的嘗試,雖然達到了比較好的效果,但仍然存在著許多可以改進的地方。如在一些特殊的情況下,如何獲得頁面鏈接,如何改進鏈接的搜索策略,如何使頁面識別器的參數(shù)選定。接下來的工作將關(guān)注搜索策略的改進和更全面的鏈接解析,以實現(xiàn)低的遺漏率和高正確率。當然對于招聘頁面識別只是特定搜索的一個方面,將來的工作是將它做成通用性平臺,以滿足用戶更廣泛的要求。

版權(quán)與免責聲明

凡本網(wǎng)注明“出處:維庫電子市場網(wǎng)”的所有作品,版權(quán)均屬于維庫電子市場網(wǎng),轉(zhuǎn)載請必須注明維庫電子市場網(wǎng),http://www.hbjingang.com,違反者本網(wǎng)將追究相關(guān)法律責任。

本網(wǎng)轉(zhuǎn)載并注明自其它出處的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點或證實其內(nèi)容的真實性,不承擔此類作品侵權(quán)行為的直接責任及連帶責任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時,必須保留本網(wǎng)注明的作品出處,并自負版權(quán)等法律責任。

如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

廣告
OEM清單文件: OEM清單文件
*公司名:
*聯(lián)系人:
*手機號碼:
QQ:
有效期:

掃碼下載APP,
一鍵連接廣大的電子世界。

在線人工客服

買家服務(wù):
賣家服務(wù):
技術(shù)客服:

0571-85317607

網(wǎng)站技術(shù)支持

13606545031

客服在線時間周一至周五
9:00-17:30

關(guān)注官方微信號,
第一時間獲取資訊。

建議反饋

聯(lián)系人:

聯(lián)系方式:

按住滑塊,拖拽到最右邊
>>
感謝您向阿庫提出的寶貴意見,您的參與是維庫提升服務(wù)的動力!意見一經(jīng)采納,將有感恩紅包奉上哦!