聚類技術在安全傳真服務器設計中的應用
出處:于洪濤,黃 海,馮曉磊 發(fā)布于:2011-08-29 17:54:08
傳真服務器是隨著通信技術的發(fā)展,針對大中型企業(yè)、機關需求推出的一種集團傳真通信解決方案。它的基本原理是通過軟硬件集成,實現(xiàn)多路傳真的并發(fā)收發(fā),并在此基礎上,與辦公流程相結合,實現(xiàn)更復雜的自動化管理。
傳真作為一種能同時傳送圖像、文字的通信手段,已被廣泛地應用,傳真機以其設備簡單,操作方便,通信快捷等特點深受人們歡迎。但是,隨著社會的發(fā)展,使用傳真機也出現(xiàn)了種種不便,例如:傳真機需專人負責,辦公效率低;同一資料要發(fā)送到多個目的地,費時費力,工作量大;傳真機無法和單位的局域網(wǎng)(LAN)相連,實現(xiàn)從計算機上發(fā)送和接收傳真;計算機中的一些文字或圖像必須先打印出來,才能從傳真機中發(fā)送,即造成紙張的浪費,也不利于無紙辦公的發(fā)展。
正是基于以上的考慮,我們在深入了解用戶需求,借鑒了傳真服務器的一些概念,并參考國外同類的優(yōu)質(zhì)產(chǎn)品的基礎上,開發(fā)了HK2000 F3000 傳真處理中心系統(tǒng),該系統(tǒng)包含了傳真回復、傳真接收、傳真發(fā)送、傳真廣播、傳真服務器、語音信箱、語音布告等多項功能,為貴單位傳真自動處理提供了解決方案,為您展示了電腦與傳真相結合所創(chuàng)造的奇妙世界。
針對上述問題,本文提出一種安全傳真服務器的概念,在傳真服務器上增加垃圾傳真的自動檢測功能,從而使分發(fā)或打印的傳真都是安全有效的。
1 安全傳真服務器模型
為實現(xiàn)安全傳真服務器,需要在原來的傳真服務器上增加傳真自動分類功能,只對無害的傳真進行分發(fā),而將垃圾傳真剔除。一種直觀的方法是在分發(fā)之前增加內(nèi)容的機器識別功能,如對傳真圖像進行OCR(光學字符識別)識別,得到傳真圖像的文本字符信息,在此基礎上進行文本分類。但是受限于傳真的實際情況,如手工發(fā)送造成的版面傾斜、手寫字體等,如果直接對其進行OCR識別,較低的準確率會嚴重影響系統(tǒng)的可用性,為此,需要對垃圾傳真的特征進行全面研究及利用,確保分類方法的有效性。
垃圾傳真通常是將一份傳真進行廣播式發(fā)送,因此在傳真服務器的接收端,垃圾傳真重復嚴重,而正常業(yè)務傳真則沒有此特征。所以本文的方法是對接收到的傳真進行聚類處理,能夠聚類的認為是垃圾傳真,不能聚類的認為是正常業(yè)務傳真。根據(jù)上述分析,得到安全傳真服務器的系統(tǒng)模型,如圖1所示。與傳統(tǒng)的傳真服務器相比,本服務器在傳真分發(fā)前,增加了對垃圾傳真的聚類檢測功能。為達到的檢測效果,且避免垃圾傳真因數(shù)量少而不能聚類,增加了垃圾傳真的歷史特征庫。

2 垃圾傳真檢測算法
由安全傳真服務器系統(tǒng)模型可見,調(diào)制解調(diào)、編碼解碼、傳真收集與分發(fā)等都屬于普通傳真服務器具有的功能,相關資料中已有說明,本文不再重復,這里只詳細介紹其中的垃圾傳真檢測算法。
本文中的應用對度要求很高,不允許將正常業(yè)務傳真識別為垃圾傳真,所以需要選取一種能夠表達傳真內(nèi)容的特征進行聚類,本文采用傳真的游程特征。
每幅傳真圖片的黑白像素分布不同,從每一掃描行的圖像數(shù)據(jù)上看,這種不同體現(xiàn)在黑像素和白像素的分布上,即交替的次數(shù)不同,且連續(xù)黑白像素點的長度也不同。將此特征以游程數(shù)M和游程值L來描述,游程數(shù)是指每個掃描行黑白像素變化的次數(shù),游程值是指每個連續(xù)像素段的像素個數(shù)。假如某一行的像素為00001111110011000,則該掃描行的游程特征為:M=4,L0,…,M=(4,6,2,2,3)。將所有的傳真圖像以此特征來描述,并進行比較,即可實現(xiàn)相同傳真圖像的聚類。傳真圖像與游程特征的對比如圖2、圖3所示。

正常業(yè)務傳真在聚類過程中可以認為是孤立點或者噪聲點,大量重復的垃圾傳真或者廣告?zhèn)髡媸潜疚木垲惖膶ο?。基于密度的DBSCAN[6]聚類算法能夠?qū)构铝Ⅻc,并且能夠處理任意形狀和大小的類,因此這里選擇DBSCAN算法。DBSCAN算法提出了一些新的定義:

?。?)如果一個對象的?著-近鄰中至少包含MinPts個對象,則稱這個對象為核對象。
?。?)如果對象P為另一個對象q的ε-近鄰且q是核對象,則稱p是從q可“直接密度可達”(Density-Reachable)。
?。?)如果存在一系列對象p1,p2,…,pn,其中p1=q,pn=p,而且pi+1(1≤i≤n-1)是從pi“直接密度可達”的,則稱p是從q可“密度可達”。
?。?)若存在一個對象z,使得p和q都是從z“密度可達”的,則稱對象p“密度連接”對象q。
DBSCAN聚類算法就是檢查數(shù)據(jù)庫中每一個點的ε-近鄰。若一個對象p的ε-近鄰包含MinPts多于個對象,則創(chuàng)建包含p的聚類。然后DBSCAN根據(jù)這些核對象,循環(huán)搜索“直接密度可達”的對象,當各聚類中再無新對象加入時,聚類結束。
聚類算法的具體實現(xiàn)需要考慮如下因素:
?。?)要判斷兩個圖像是否相同,只需要判斷有限個掃描行數(shù)據(jù)相似度大小即可。如果對整個圖片進行特征比對,會嚴重增加存儲和計算開支。
?。?)正常情況下傳真都含有頁眉,頁眉涉及時間、主叫等信息,即使重復發(fā)送的垃圾傳真,頁眉顯示的時間也不相同,所以比較傳真時應當避開頁眉。
?。?)在聚類處理的時段內(nèi),垃圾傳真如果數(shù)量少就會因為不能聚類而漏檢,為此,應該建立已知垃圾傳真特征庫,供后續(xù)檢測使用。
基于上述考慮,聚類算法實現(xiàn)過程如下:
?。?)分類器訓練:利用訓練數(shù)據(jù),采用方差準則對?著、MinPts等聚類參數(shù)進行確定。
?。?)提取每個傳真圖片的游程特征C[i]:設定起始行Srow(如Srow=20),從此行向下搜索,找到有效圖像掃描行,作為新的起始行,從起始行開始,提取有限行Mrow(如Mrow=80)游程特征。
?。?)確定垃圾傳真類:遍歷所有傳真,若一個傳真的ε-近鄰中至少包含MinPts個傳真,就創(chuàng)建包含這個傳真的類,該類中的所有傳真為垃圾傳真。
?。?)確定類代表特征:設dij表示某傳真數(shù)為n的類中點i到點j的距離,di表示點i到該類所有點的距離和,如果di=min(d1,d1,…,dn),則點i為該類的中心點,其游程特征作為該類的代表特征,加入垃圾傳真特征庫。
(5)確定孤立垃圾傳真:集合M={m1,m2,…}為垃圾傳真模版庫,G={g1,g2,…}為不能聚類的傳真的集合,若d(gi,mj}<?著,則gi為垃圾傳真。
3 仿真測試
上述方法通過MATLAB完成了仿真實現(xiàn)。通過該方法實現(xiàn)的傳真服務器,不但具有一般傳真服務器的功能,而且能夠?qū)Υ职l(fā)的傳真進行判別,確保終用戶收到的傳真不是垃圾傳真。
本文進行了性能測試。測試過程如下:
?。?)從某公司傳真服務器處收集得到2 000份傳真數(shù)據(jù),隨機取其中400份作為訓練集,另外1 600份作為測試集。
(2)建立傳真特征表,用來記錄傳真的特征數(shù)據(jù)。字段包括:文件名、屬性(垃圾傳真為0,其他為1)、可聚類性(在訓練集中能夠聚類為1,否則為0)、聚類類別(人工對訓練集中能夠聚類的傳真進行分類,并標以不同的類別值)。
(3)對訓練集傳真進行人工辨認,并將特征記入傳真特征表。
?。?)根據(jù)方差準則,用訓練集中傳真對分類器參數(shù)進行訓練,使分類器輸出結果與傳真特征數(shù)據(jù)具有擬合度,從而得到分類器參數(shù)。
?。?)對測試集中的傳真進行人工辨認,并將特征記入傳真特征表。
?。?)用訓練得到的分類器對測試集中的1 600份傳真進行分類,并將分類結果自動記入數(shù)據(jù)庫。
(7)比對識別結果與人工辨認數(shù)據(jù)。
測試結果如表1所示。

從表1中結果可知:
?。?)沒有正常的業(yè)務傳真被檢測為垃圾傳真,說明本文的方法不會影響正常的傳真業(yè)務。
?。?)垃圾傳真可能被誤識為正常傳真,這是因為本方法中,為了確保正常傳真不會被聚類,聚類的條件設置得比較苛刻,造成了部分垃圾傳真由于數(shù)量少不能聚類。
?。?)在沒有影響正常傳真業(yè)務的情況下,本文方法對垃圾傳真的檢出率為92.5%,說明了本文方法的有效性。
在實際應用中,能夠聚類的部分傳真可能包含用戶感興趣的資訊,用戶希望對此正常接收,所以在后續(xù)的工作中,應該在聚類的基礎上,從用戶的感知和體驗角度出發(fā),深入研究垃圾傳真的本質(zhì),使垃圾傳真的分類更加合理,進一步提高安全傳真服務器的可用性。
版權與免責聲明
凡本網(wǎng)注明“出處:維庫電子市場網(wǎng)”的所有作品,版權均屬于維庫電子市場網(wǎng),轉載請必須注明維庫電子市場網(wǎng),http://www.hbjingang.com,違反者本網(wǎng)將追究相關法律責任。
本網(wǎng)轉載并注明自其它出處的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點或證實其內(nèi)容的真實性,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉載時,必須保留本網(wǎng)注明的作品出處,并自負版權等法律責任。
如涉及作品內(nèi)容、版權等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關權利。
- 工業(yè)5G技術在智能制造中的應用與實踐解析2025/12/31 10:57:21
- 工業(yè)以太網(wǎng)交換機選型與現(xiàn)場應用技術指南2025/12/18 10:48:14
- 無線傳輸電路基礎,射頻前端設計、天線匹配與鏈路預算計算2025/10/27 13:55:50
- ASK 解調(diào)的核心要點與實現(xiàn)方式2025/9/5 16:46:17
- 雙偶極子天線:結構、特性與應用全解析2025/9/3 10:29:21









