聚類技術在安全傳真服務器設計中的應用

出處：于洪濤，黃海，馮曉磊發(fā)布于：2011-08-29 17:54:08

　　傳真服務器是隨著通信技術的發(fā)展，針對大中型企業(yè)、機關需求推出的一種集團傳真通信解決方案。它的基本原理是通過軟硬件集成，實現(xiàn)多路傳真的并發(fā)收發(fā)，并在此基礎上，與辦公流程相結合，實現(xiàn)更復雜的自動化管理。

　　傳真作為一種能同時傳送圖像、文字的通信手段，已被廣泛地應用，傳真機以其設備簡單，操作方便，通信快捷等特點深受人們歡迎。但是，隨著社會的發(fā)展，使用傳真機也出現(xiàn)了種種不便，例如：傳真機需專人負責，辦公效率低；同一資料要發(fā)送到多個目的地，費時費力，工作量大；傳真機無法和單位的局域網(wǎng)（LAN）相連，實現(xiàn)從計算機上發(fā)送和接收傳真；計算機中的一些文字或圖像必須先打印出來，才能從傳真機中發(fā)送，即造成紙張的浪費，也不利于無紙辦公的發(fā)展。

　　正是基于以上的考慮，我們在深入了解用戶需求，借鑒了傳真服務器的一些概念，并參考國外同類的優(yōu)質(zhì)產(chǎn)品的基礎上，開發(fā)了HK2000 F3000 傳真處理中心系統(tǒng)，該系統(tǒng)包含了傳真回復、傳真接收、傳真發(fā)送、傳真廣播、傳真服務器、語音信箱、語音布告等多項功能，為貴單位傳真自動處理提供了解決方案，為您展示了電腦與傳真相結合所創(chuàng)造的奇妙世界。

　　針對上述問題，本文提出一種安全傳真服務器的概念，在傳真服務器上增加垃圾傳真的自動檢測功能，從而使分發(fā)或打印的傳真都是安全有效的。

　　1 安全傳真服務器模型

　　為實現(xiàn)安全傳真服務器，需要在原來的傳真服務器上增加傳真自動分類功能，只對無害的傳真進行分發(fā)，而將垃圾傳真剔除。一種直觀的方法是在分發(fā)之前增加內(nèi)容的機器識別功能，如對傳真圖像進行OCR（光學字符識別）識別，得到傳真圖像的文本字符信息，在此基礎上進行文本分類。但是受限于傳真的實際情況，如手工發(fā)送造成的版面傾斜、手寫字體等，如果直接對其進行OCR識別，較低的準確率會嚴重影響系統(tǒng)的可用性，為此，需要對垃圾傳真的特征進行全面研究及利用，確保分類方法的有效性。

　　垃圾傳真通常是將一份傳真進行廣播式發(fā)送，因此在傳真服務器的接收端，垃圾傳真重復嚴重，而正常業(yè)務傳真則沒有此特征。所以本文的方法是對接收到的傳真進行聚類處理，能夠聚類的認為是垃圾傳真，不能聚類的認為是正常業(yè)務傳真。根據(jù)上述分析，得到安全傳真服務器的系統(tǒng)模型，如圖1所示。與傳統(tǒng)的傳真服務器相比，本服務器在傳真分發(fā)前，增加了對垃圾傳真的聚類檢測功能。為達到的檢測效果，且避免垃圾傳真因數(shù)量少而不能聚類，增加了垃圾傳真的歷史特征庫。

　　2 垃圾傳真檢測算法

　　由安全傳真服務器系統(tǒng)模型可見，調(diào)制解調(diào)、編碼解碼、傳真收集與分發(fā)等都屬于普通傳真服務器具有的功能，相關資料中已有說明，本文不再重復，這里只詳細介紹其中的垃圾傳真檢測算法。

　　本文中的應用對度要求很高，不允許將正常業(yè)務傳真識別為垃圾傳真，所以需要選取一種能夠表達傳真內(nèi)容的特征進行聚類，本文采用傳真的游程特征。

　　每幅傳真圖片的黑白像素分布不同，從每一掃描行的圖像數(shù)據(jù)上看，這種不同體現(xiàn)在黑像素和白像素的分布上，即交替的次數(shù)不同，且連續(xù)黑白像素點的長度也不同。將此特征以游程數(shù)M和游程值L來描述，游程數(shù)是指每個掃描行黑白像素變化的次數(shù)，游程值是指每個連續(xù)像素段的像素個數(shù)。假如某一行的像素為00001111110011000，則該掃描行的游程特征為：M=4，L0，…，M=（4，6，2，2，3）。將所有的傳真圖像以此特征來描述，并進行比較，即可實現(xiàn)相同傳真圖像的聚類。傳真圖像與游程特征的對比如圖2、圖3所示。

　　正常業(yè)務傳真在聚類過程中可以認為是孤立點或者噪聲點，大量重復的垃圾傳真或者廣告?zhèn)髡媸潜疚木垲惖膶ο?。基于密度的DBSCAN[6]聚類算法能夠?qū)构铝Ⅻc，并且能夠處理任意形狀和大小的類，因此這里選擇DBSCAN算法。DBSCAN算法提出了一些新的定義：

　?。?）如果一個對象的？著-近鄰中至少包含MinPts個對象，則稱這個對象為核對象。

　?。?）如果對象P為另一個對象q的ε-近鄰且q是核對象，則稱p是從q可“直接密度可達”（Density-Reachable）。

　?。?）如果存在一系列對象p1，p2，…，pn，其中p1=q，pn=p，而且pi+1（1≤i≤n-1）是從pi“直接密度可達”的，則稱p是從q可“密度可達”。

　?。?）若存在一個對象z，使得p和q都是從z“密度可達”的，則稱對象p“密度連接”對象q。

　　DBSCAN聚類算法就是檢查數(shù)據(jù)庫中每一個點的ε-近鄰。若一個對象p的ε-近鄰包含MinPts多于個對象，則創(chuàng)建包含p的聚類。然后DBSCAN根據(jù)這些核對象，循環(huán)搜索“直接密度可達”的對象，當各聚類中再無新對象加入時，聚類結束。

　　聚類算法的具體實現(xiàn)需要考慮如下因素：

　?。?）要判斷兩個圖像是否相同，只需要判斷有限個掃描行數(shù)據(jù)相似度大小即可。如果對整個圖片進行特征比對，會嚴重增加存儲和計算開支。

　?。?）正常情況下傳真都含有頁眉，頁眉涉及時間、主叫等信息，即使重復發(fā)送的垃圾傳真，頁眉顯示的時間也不相同，所以比較傳真時應當避開頁眉。

　?。?）在聚類處理的時段內(nèi)，垃圾傳真如果數(shù)量少就會因為不能聚類而漏檢，為此，應該建立已知垃圾傳真特征庫，供后續(xù)檢測使用。

　　基于上述考慮，聚類算法實現(xiàn)過程如下：

　?。?）分類器訓練：利用訓練數(shù)據(jù)，采用方差準則對？著、MinPts等聚類參數(shù)進行確定。

　?。?）提取每個傳真圖片的游程特征C[i]：設定起始行Srow（如Srow=20），從此行向下搜索，找到有效圖像掃描行，作為新的起始行，從起始行開始，提取有限行Mrow（如Mrow=80）游程特征。

　?。?）確定垃圾傳真類：遍歷所有傳真，若一個傳真的ε-近鄰中至少包含MinPts個傳真，就創(chuàng)建包含這個傳真的類，該類中的所有傳真為垃圾傳真。

　?。?）確定類代表特征：設dij表示某傳真數(shù)為n的類中點i到點j的距離，di表示點i到該類所有點的距離和，如果di=min（d1，d1，…，dn），則點i為該類的中心點，其游程特征作為該類的代表特征，加入垃圾傳真特征庫。

　　（5）確定孤立垃圾傳真：集合M={m1，m2，…}為垃圾傳真模版庫，G={g1，g2，…}為不能聚類的傳真的集合，若d（gi，mj}<?著，則gi為垃圾傳真。

　　3 仿真測試

　　上述方法通過MATLAB完成了仿真實現(xiàn)。通過該方法實現(xiàn)的傳真服務器，不但具有一般傳真服務器的功能，而且能夠?qū)Υ职l(fā)的傳真進行判別，確保終用戶收到的傳真不是垃圾傳真。

　　本文進行了性能測試。測試過程如下：

　?。?）從某公司傳真服務器處收集得到2 000份傳真數(shù)據(jù)，隨機取其中400份作為訓練集，另外1 600份作為測試集。

　　（2）建立傳真特征表，用來記錄傳真的特征數(shù)據(jù)。字段包括：文件名、屬性（垃圾傳真為0，其他為1）、可聚類性（在訓練集中能夠聚類為1，否則為0）、聚類類別（人工對訓練集中能夠聚類的傳真進行分類，并標以不同的類別值）。

　　（3）對訓練集傳真進行人工辨認，并將特征記入傳真特征表。

　?。?）根據(jù)方差準則，用訓練集中傳真對分類器參數(shù)進行訓練，使分類器輸出結果與傳真特征數(shù)據(jù)具有擬合度，從而得到分類器參數(shù)。

　?。?）對測試集中的傳真進行人工辨認，并將特征記入傳真特征表。

　?。?）用訓練得到的分類器對測試集中的1 600份傳真進行分類，并將分類結果自動記入數(shù)據(jù)庫。

　　（7）比對識別結果與人工辨認數(shù)據(jù)。

　　測試結果如表1所示。

　　從表1中結果可知：

　?。?）沒有正常的業(yè)務傳真被檢測為垃圾傳真，說明本文的方法不會影響正常的傳真業(yè)務。

　?。?）垃圾傳真可能被誤識為正常傳真，這是因為本方法中，為了確保正常傳真不會被聚類，聚類的條件設置得比較苛刻，造成了部分垃圾傳真由于數(shù)量少不能聚類。

　?。?）在沒有影響正常傳真業(yè)務的情況下，本文方法對垃圾傳真的檢出率為92.5%，說明了本文方法的有效性。

　　在實際應用中，能夠聚類的部分傳真可能包含用戶感興趣的資訊，用戶希望對此正常接收，所以在后續(xù)的工作中，應該在聚類的基礎上，從用戶的感知和體驗角度出發(fā)，深入研究垃圾傳真的本質(zhì)，使垃圾傳真的分類更加合理，進一步提高安全傳真服務器的可用性。

關鍵詞：聚類技術安全傳真服務器

上一篇：淺談網(wǎng)絡傳輸信息加密解密系統(tǒng)研制的方法

下一篇：Lucene全文檢索引擎在商業(yè)網(wǎng)站中的應用

版權與免責聲明

凡本網(wǎng)注明“出處：維庫電子市場網(wǎng)”的所有作品，版權均屬于維庫電子市場網(wǎng)，轉載請必須注明維庫電子市場網(wǎng)，http://www.hbjingang.com，違反者本網(wǎng)將追究相關法律責任。

本網(wǎng)轉載并注明自其它出處的作品，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點或證實其內(nèi)容的真實性，不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉載時，必須保留本網(wǎng)注明的作品出處，并自負版權等法律責任。

如涉及作品內(nèi)容、版權等問題，請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系，否則視為放棄相關權利。

相關技術資料

工業(yè)5G技術在智能制造中的應用與實踐解析2025/12/31 10:57:21
工業(yè)以太網(wǎng)交換機選型與現(xiàn)場應用技術指南2025/12/18 10:48:14
無線傳輸電路基礎，射頻前端設計、天線匹配與鏈路預算計算2025/10/27 13:55:50
ASK 解調(diào)的核心要點與實現(xiàn)方式2025/9/5 16:46:17
雙偶極子天線：結構、特性與應用全解析2025/9/3 10:29:21

技術分類

熱門技術資料

最新技術資料

日韩欧美自拍在线观看-欧美精品在线看片一区二区-高清性视频一区二区播放-欧美日韩女优制服另类-国产精品久久久久久av蜜臀-成人在线黄色av网站-肥臀熟妇一区二区三区-亚洲视频在线播放老色-在线成人激情自拍视频

維庫電子市場網(wǎng)-十六年專注打造電子元器件采購網(wǎng)

聚類技術在安全傳真服務器設計中的應用

版權與免責聲明

日韩欧美自拍在线观看-欧美精品在线看片一区二区-高清性视频一区二区播放-欧美日韩女优制服另类-国产精品久久久久久av蜜臀-成人在线黄色av网站-肥臀熟妇一区二区三区-亚洲视频在线播放老色-在线成人激情自拍视频

維庫電子市場網(wǎng)-十六年專注打造電子元器件采購網(wǎng)

聚類技術在安全傳真服務器設計中的應用

版權與免責聲明

建議反饋