日韩欧美自拍在线观看-欧美精品在线看片一区二区-高清性视频一区二区播放-欧美日韩女优制服另类-国产精品久久久久久av蜜臀-成人在线黄色av网站-肥臀熟妇一区二区三区-亚洲视频在线播放老色-在线成人激情自拍视频

解析數(shù)據(jù)倉(cāng)庫在大型超市中的應(yīng)用

出處:呂維先 陳紅藝 帥 赟 發(fā)布于:2011-08-31 14:21:57

  現(xiàn)代社會(huì)的發(fā)展在某種意義上取決于信息的獲取與處理技術(shù)。信息的價(jià)值在于用戶通過使用這些信息從中得到收益。信息工作者所面對(duì)的問題不是簡(jiǎn)單地處理數(shù)據(jù),而是如何使用數(shù)據(jù),即從數(shù)據(jù)中挖掘出有用的信息。就超市而言,各種商品的銷售情況實(shí)際上蘊(yùn)藏著某種規(guī)律性。如果能夠把它挖掘出來,無疑對(duì)今后的工作有很大的幫助。

  1  數(shù)據(jù)倉(cāng)庫的概念和特征

  數(shù)據(jù)倉(cāng)庫數(shù)據(jù)倉(cāng)庫是決策支持系統(tǒng)(dss)和聯(lián)機(jī)分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉(cāng)庫研究和解決從數(shù)據(jù)庫中獲取信息的問題。數(shù)據(jù)倉(cāng)庫的特征在于面向主題、集成性、穩(wěn)定性和時(shí)變性。數(shù)據(jù)的存儲(chǔ)與管理是整個(gè)數(shù)據(jù)倉(cāng)庫系統(tǒng)的。數(shù)據(jù)倉(cāng)庫的真正關(guān)鍵是數(shù)據(jù)的存儲(chǔ)和管理。數(shù)據(jù)倉(cāng)庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時(shí)也決定了其對(duì)外部數(shù)據(jù)的表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉(cāng)庫的,則需要從數(shù)據(jù)倉(cāng)庫的技術(shù)特點(diǎn)著手分析。針對(duì)現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)行抽取、清理,并有效集成,按照主題進(jìn)行組織。數(shù)據(jù)倉(cāng)庫按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫和部門級(jí)數(shù)據(jù)倉(cāng)庫。其目標(biāo)是通過收集、過濾和存儲(chǔ)數(shù)據(jù),尋找數(shù)據(jù)的趨勢(shì),幫助企業(yè)制定有關(guān)經(jīng)營(yíng)方面的決策。

  這里給數(shù)據(jù)倉(cāng)庫一個(gè)比較完整的定義:數(shù)據(jù)倉(cāng)庫是面向主題的、一致的、不同時(shí)間的、穩(wěn)定的數(shù)據(jù)集合,用于支持經(jīng)營(yíng)管理中的決策支持過程。數(shù)據(jù)倉(cāng)庫有以下四個(gè)特征。

 ?。?)數(shù)據(jù)倉(cāng)庫是面向主題的。傳統(tǒng)的數(shù)據(jù)倉(cāng)庫是面向應(yīng)用設(shè)計(jì)的,而主題是在一個(gè)較高層次將數(shù)據(jù)歸類的標(biāo)準(zhǔn)。例如,在一個(gè)大型超市里,如果只記錄原始的銷售數(shù)據(jù),則使用原始的數(shù)據(jù)庫技術(shù)即可。但是如果希望對(duì)這些數(shù)據(jù)加以分析,找出哪些年齡段的人喜歡某類產(chǎn)品,什么時(shí)間段某類產(chǎn)品銷量以及產(chǎn)品與銷量的關(guān)系,則需要借助于數(shù)據(jù)倉(cāng)庫技術(shù)。

  (2)數(shù)據(jù)倉(cāng)庫是一致的數(shù)據(jù)的集合。應(yīng)用程序常常以不同的格式使用類似的數(shù)據(jù)。例如:超級(jí)市場(chǎng)可能表示為“超市”、“超級(jí)市場(chǎng)”、“supper market”等。這些數(shù)據(jù)的值必須統(tǒng)一才能更好地使用。

  (3)存儲(chǔ)在OLTP系統(tǒng)中的數(shù)據(jù)可以正確地表示任何時(shí)間的任何值。On-Line Transaction Processing聯(lián)機(jī)事務(wù)處理系統(tǒng)(OLTP)也稱為面向交易的處理系統(tǒng),其基本特征是顧客的原始數(shù)據(jù)可以立即傳送到計(jì)算中心進(jìn)行處理,并在很短的時(shí)間內(nèi)給出處理結(jié)果。這樣做的優(yōu)點(diǎn)是可以即時(shí)地處理輸入的數(shù)據(jù),及時(shí)地回答。也稱為實(shí)時(shí)系統(tǒng)(Real time System)。衡量聯(lián)機(jī)事務(wù)處理系統(tǒng)的一個(gè)重要性能指標(biāo)是系統(tǒng)性能,具體體現(xiàn)為實(shí)時(shí)響應(yīng)時(shí)間(Response Time),即用戶在終端上送入數(shù)據(jù)之后,到計(jì)算機(jī)對(duì)這個(gè)請(qǐng)求給出答復(fù)所需要的時(shí)間。它一般表示過了一段比較長(zhǎng)的時(shí)間的數(shù)據(jù),通常是5~10年。這些數(shù)據(jù)一般是不改變的。而數(shù)據(jù)庫通常只把有用的數(shù)據(jù)保存30~90天。

  (4)數(shù)據(jù)倉(cāng)庫是比較穩(wěn)定的。當(dāng)數(shù)據(jù)移動(dòng)到數(shù)據(jù)倉(cāng)庫后,就不再改變,除非存儲(chǔ)的數(shù)據(jù)不正確。一般情況下,在數(shù)據(jù)倉(cāng)庫中發(fā)生的操作是建立數(shù)據(jù)倉(cāng)庫時(shí)的加載數(shù)據(jù)和查詢數(shù)據(jù)。

  2  建立數(shù)據(jù)倉(cāng)庫的過程

  建立數(shù)據(jù)倉(cāng)庫的過程實(shí)際上是從傳統(tǒng)的以數(shù)據(jù)庫為中心的操作型系統(tǒng)結(jié)構(gòu)轉(zhuǎn)移到以數(shù)據(jù)倉(cāng)庫為中心的體系結(jié)構(gòu)的過程。具體實(shí)現(xiàn)過程如下。

 ?。?)建立企業(yè)模型,并且選取主題。企業(yè)模型是從企業(yè)用戶的角度對(duì)企業(yè)所需數(shù)據(jù)的內(nèi)容以及數(shù)據(jù)間關(guān)系的抽象。企業(yè)模型對(duì)大型企業(yè)是有重要意義的。有了企業(yè)模型,可以比較完整地了解企業(yè)中各方面、各階層人員對(duì)數(shù)據(jù)的需要程度。

  企業(yè)模型建立后,可以根據(jù)企業(yè)模型和用戶需求確定系統(tǒng)中存在的主題。大型數(shù)據(jù)倉(cāng)庫涉及的系統(tǒng)眾多、功能復(fù)雜,因此往往采取螺旋式的開發(fā)方式。將龐大的目標(biāo)劃分成若干個(gè)實(shí)施階段,實(shí)際上是將一個(gè)復(fù)雜、困難的問題轉(zhuǎn)化為多個(gè)比較簡(jiǎn)單明確的小問題,然后分而治之。主題選取的原則包括:優(yōu)先實(shí)施企業(yè)管理者關(guān)心的問題,優(yōu)先選擇在短時(shí)間內(nèi)能見效的決策,優(yōu)先實(shí)施投資風(fēng)險(xiǎn)低的決策。

  (2)選擇數(shù)據(jù)顆粒度。對(duì)于不同的數(shù)據(jù)量,將選擇不同的數(shù)據(jù)顆粒度策略。小數(shù)據(jù)量可以采用單一的數(shù)據(jù)粒度,即直接存儲(chǔ)細(xì)節(jié)數(shù)據(jù)并定期在細(xì)節(jié)數(shù)據(jù)基礎(chǔ)上進(jìn)行數(shù)據(jù)綜合。而大數(shù)據(jù)量需要采用雙重粒度,數(shù)據(jù)倉(cāng)庫只保留在細(xì)節(jié)數(shù)據(jù)保留周期之內(nèi)的數(shù)據(jù),對(duì)于該周期之后的信息只保留其綜合信息。就超市而言,可以保存近一個(gè)月中每天的營(yíng)業(yè)額數(shù)據(jù)。對(duì)于更早時(shí)間段內(nèi)的營(yíng)業(yè)額數(shù)據(jù),可以只保存周營(yíng)業(yè)額之和,或者月營(yíng)業(yè)額之和。典型的粒度定義包括:顧客的購(gòu)物券上掃描設(shè)備拾取的分列項(xiàng)內(nèi)容,倉(cāng)庫中每種產(chǎn)品庫存水平的日快照,每個(gè)銀行帳號(hào)的月快照。

 ?。?)表的分割與劃分。通常按照時(shí)間進(jìn)行分割。細(xì)節(jié)數(shù)據(jù)時(shí)間短,而綜合數(shù)據(jù)的時(shí)間稍長(zhǎng)。分割表之后要為各個(gè)表增加合適的時(shí)間字段,同時(shí)去掉分析過程中不會(huì)用到的字段。在實(shí)際應(yīng)用中,字段被訪問的頻率有差別。將所有的字段放在一起會(huì)影響訪問的效率。所以有必要對(duì)表中的內(nèi)容進(jìn)行合理的劃分。

  (4)數(shù)據(jù)抽取和數(shù)據(jù)加載。將數(shù)據(jù)資源從外部抽取到數(shù)據(jù)倉(cāng)庫中,在此過程中應(yīng)該依據(jù)元數(shù)據(jù)中定義的標(biāo)準(zhǔn)數(shù)據(jù)格式處理數(shù)據(jù)。在數(shù)據(jù)被抽取后,對(duì)準(zhǔn)備進(jìn)行加載的數(shù)據(jù)進(jìn)行清理,然后就可以把它們加載到數(shù)據(jù)倉(cāng)庫中。

 ?。?)OLAP模型設(shè)計(jì)。OLAP是針對(duì)某個(gè)特定的主題進(jìn)行的聯(lián)機(jī)數(shù)據(jù)訪問、處理和分析,通過直觀的方式從多個(gè)維度、多種數(shù)據(jù)綜合程度將系統(tǒng)的運(yùn)營(yíng)情況展現(xiàn)給使用者。當(dāng)今的數(shù)據(jù)處理大致可以分成兩大類:聯(lián)機(jī)事務(wù)處理OLTP聯(lián)機(jī)分析處理OLAP(On-Line Analytical Processing)。OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,例如銀行交易。OLAP是數(shù)據(jù)倉(cāng)庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。OLAP模型設(shè)計(jì)包括維表設(shè)計(jì)和事實(shí)表設(shè)計(jì)。維表通過記錄因素的屬性描述事件中包含的諸多因素,例如,員工維表中通過員工標(biāo)識(shí)號(hào)、姓名、電話、年齡、地址等信息用來刻畫員工的屬性。維表屬性有星型模型和雪花型模型二種類型。通常,星型模型用來處理一對(duì)一和一對(duì)多關(guān)系,雪花型模型用來處理多對(duì)多關(guān)系。雪花型模型用中間表連接事實(shí)表和維表,使事實(shí)表不至于迅速膨脹。在設(shè)計(jì)事實(shí)表時(shí)要著重考慮數(shù)據(jù)的粒度。如果決策者不斷向下觀察細(xì)節(jié)數(shù)據(jù),則事實(shí)表會(huì)記錄很多的細(xì)節(jié),其長(zhǎng)度會(huì)增大。反之其長(zhǎng)度會(huì)減小。圖2為銷售主題的星型模型和雪花模型。

 ?。?)數(shù)據(jù)挖掘模型設(shè)計(jì)。在進(jìn)行數(shù)據(jù)挖掘的時(shí)候,將數(shù)據(jù)寬表劃分成訓(xùn)練集合和驗(yàn)證集合。在沒有挖掘模型時(shí)可以使用訓(xùn)練集合對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,逐漸確定模型中的參數(shù)。在模型建立后,利用驗(yàn)證集合對(duì)模型進(jìn)行評(píng)價(jià)。數(shù)據(jù)挖掘(Data Mining),就是從存放在數(shù)據(jù)庫,數(shù)據(jù)倉(cāng)庫或其他信息庫中的大量的數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、終可理解的模式的非平凡過程。數(shù)據(jù)挖掘,在人工智能領(lǐng)域,習(xí)慣上又稱為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in DATAbase, KDD), 也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)過程的一個(gè)基本步驟。知識(shí)發(fā)現(xiàn)過程由以下三個(gè)階段組成:(1)數(shù)據(jù)準(zhǔn)備,(2)數(shù)據(jù)挖掘,(3)結(jié)果表達(dá)和解釋。數(shù)據(jù)挖掘可以與用戶或知識(shí)庫交互。

  在模型確定后,需要將進(jìn)行預(yù)測(cè)的數(shù)據(jù)輸入挖掘引擎,挖掘引擎將利用模型得到預(yù)測(cè)結(jié)果。數(shù)據(jù)挖掘的部分預(yù)測(cè)結(jié)果輸入到OLAP子系統(tǒng)中,另一些結(jié)果輸入界面子系統(tǒng),以便將數(shù)據(jù)挖掘的結(jié)果呈現(xiàn)給終用戶。

  (7)同客戶交流。以上工作完成以后,需要同用戶進(jìn)行深入的交流,使用戶對(duì)以上系統(tǒng)有更加深入的認(rèn)識(shí),獲取用戶的想法,以便于下一步工作的開展。

 ?。?)重新開始循環(huán)。重新進(jìn)入以上循環(huán),直到取得滿意的結(jié)果。

  3  結(jié)束語

  大型超市每天都要進(jìn)行成千上萬筆交易。對(duì)這些交易進(jìn)行分析,找出它們之間的關(guān)聯(lián)關(guān)系,有利于超市管理層進(jìn)行正確決策,及時(shí)調(diào)整經(jīng)營(yíng)策略,更好地適應(yīng)市場(chǎng)的挑戰(zhàn)。


  

版權(quán)與免責(zé)聲明

凡本網(wǎng)注明“出處:維庫電子市場(chǎng)網(wǎng)”的所有作品,版權(quán)均屬于維庫電子市場(chǎng)網(wǎng),轉(zhuǎn)載請(qǐng)必須注明維庫電子市場(chǎng)網(wǎng),http://www.hbjingang.com,違反者本網(wǎng)將追究相關(guān)法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明自其它出處的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品出處,并自負(fù)版權(quán)等法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

廣告
OEM清單文件: OEM清單文件
*公司名:
*聯(lián)系人:
*手機(jī)號(hào)碼:
QQ:
有效期:

掃碼下載APP,
一鍵連接廣大的電子世界。

在線人工客服

買家服務(wù):
賣家服務(wù):
技術(shù)客服:

0571-85317607

網(wǎng)站技術(shù)支持

13606545031

客服在線時(shí)間周一至周五
9:00-17:30

關(guān)注官方微信號(hào),
第一時(shí)間獲取資訊。

建議反饋

聯(lián)系人:

聯(lián)系方式:

按住滑塊,拖拽到最右邊
>>
感謝您向阿庫提出的寶貴意見,您的參與是維庫提升服務(wù)的動(dòng)力!意見一經(jīng)采納,將有感恩紅包奉上哦!