前言:本站為你精心整理了詮釋數(shù)據(jù)倉庫及數(shù)據(jù)運用范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
摘要:本文闡述了數(shù)據(jù)倉庫及數(shù)據(jù)挖掘的有關(guān)概念,簡述了數(shù)據(jù)倉庫、數(shù)據(jù)挖掘的實施過程,介紹了如何應(yīng)用數(shù)據(jù)挖掘。并對數(shù)據(jù)倉庫與挖掘技術(shù)結(jié)合應(yīng)用的發(fā)展做了展望。
關(guān)鍵詞:數(shù)據(jù)倉庫;數(shù)據(jù)挖掘;
1數(shù)據(jù)倉庫
數(shù)據(jù)倉庫的含義:“數(shù)據(jù)倉庫是用于支持企業(yè)或組織的決策分析處理的,面向主題的、集成的、不可更新的、且隨著時間不斷變化的數(shù)據(jù)集合?!被ヂ?lián)網(wǎng)中的數(shù)據(jù)浩如煙海,如果用戶在其中搜尋的話,基本上是大海撈針。而數(shù)據(jù)倉庫便解決了此類問題,它把龐大的數(shù)據(jù)及信息從互聯(lián)網(wǎng)中收集起來,并進行適當(dāng)?shù)奶幚怼⒓庸ず头诸?,把這些凌亂的數(shù)據(jù)轉(zhuǎn)換成公共的數(shù)學(xué)模型,這樣便能夠解決數(shù)據(jù)與數(shù)據(jù)之間的沖突、表達不一致等問題,同時還方便用戶查詢自己所需要的信息,這樣便使得數(shù)據(jù)和信息在決策查詢上理便捷。
2數(shù)據(jù)挖掘
互聯(lián)網(wǎng)中,實際的應(yīng)用操作數(shù)據(jù)往往都是數(shù)量很大,不完整且具有模糊性和隨機性。而數(shù)據(jù)挖掘所要做的便是提取這類數(shù)據(jù)中隱含的、不為人知的,但對人們又有潛在用途的信息和知識。并把提取的知識和信息存放于數(shù)據(jù)倉庫或其他信息庫中,所以說,數(shù)據(jù)挖掘是運用統(tǒng)計學(xué)、人工智能、機器學(xué)習(xí)、數(shù)據(jù)庫技術(shù)等方法發(fā)現(xiàn)數(shù)據(jù)的模型和結(jié)構(gòu)、發(fā)現(xiàn)有價值的關(guān)系或知識的一門交叉學(xué)科。另一個角度來講,數(shù)據(jù)倉庫中的數(shù)據(jù),利用挖掘技術(shù)的算法,將源數(shù)據(jù)收集起來,并進行適當(dāng)?shù)暮Y選及過濾變成相應(yīng)信息。數(shù)據(jù)挖掘基于的數(shù)據(jù)庫類型有:關(guān)系、面向?qū)ο?、事?wù)、演繹、時間和時間序列、多媒體、空間、遺產(chǎn)、文本、Web型以及新興的數(shù)據(jù)倉庫等。對于數(shù)據(jù)庫的描述,通常是指面向?qū)ο蟮臄?shù)據(jù)庫在面向?qū)ο蟮某绦驗橐?guī)范的程序設(shè)計標(biāo)準(zhǔn)。其描述對象可以是一定時期的人口、流量等數(shù)據(jù)。而關(guān)于一個對象的代碼在一個單元中的封裝,對象可以與其他對象或數(shù)據(jù)庫系統(tǒng)通信??臻g數(shù)據(jù)庫涉及空間的信息,如地理、醫(yī)療和衛(wèi)星圖像數(shù)據(jù)庫等,通過數(shù)據(jù)挖掘可以發(fā)現(xiàn),描述各個地區(qū)的人口或者可以根據(jù)現(xiàn)有的關(guān)于某小區(qū)距離中心主要道路的距離的描述來表達這個小區(qū)低價的變化程度。通過縱軸和橫軸的序列數(shù)據(jù)庫我們可以看出,數(shù)據(jù)挖掘可以根據(jù)數(shù)據(jù)庫中的數(shù)據(jù)的變化隨時隨地的進行調(diào)整,從而發(fā)現(xiàn)數(shù)據(jù)的變化特點和變化趨勢,通過對這種變化的趨勢和特點的變化,幫助人們處理計劃,制定發(fā)展策略等。在文本數(shù)據(jù)庫中大部分是高度化的長句和短文,數(shù)據(jù)挖掘的作用是發(fā)現(xiàn)、描述對象和類的特征,進行關(guān)鍵詞和內(nèi)容關(guān)聯(lián)性分析以及文本對整理象的聚類。多媒體數(shù)據(jù)庫存儲的是圖像、音頻、視頻數(shù)據(jù),在其上進行數(shù)據(jù)挖掘,這是存儲和搜索技術(shù)相結(jié)合的新興技術(shù),這種技術(shù)中,進行多媒體數(shù)據(jù)的特征的提取和基于相似性的模式匹配等。
數(shù)據(jù)庫的建設(shè)是以程序設(shè)計為標(biāo)準(zhǔn)的。無論何種先進的技術(shù)都有它的局限性,數(shù)據(jù)挖掘也亦如此,它只能對信息進行初期處理,也就是說,如果收集的數(shù)據(jù)中出現(xiàn)丟失或沖突的現(xiàn)象,用數(shù)據(jù)挖掘的算法是不可行的。
3數(shù)據(jù)挖掘技術(shù)
3.1數(shù)據(jù)挖掘分析方法數(shù)據(jù)挖掘的分析方法可分為兩類:直接數(shù)據(jù)挖掘和間接數(shù)據(jù)挖掘。直接數(shù)據(jù)挖掘指:L在指定的數(shù)據(jù)中,按照某一法則,提取其中可用數(shù)據(jù),建立一個數(shù)學(xué)模型,并用此模型對余下的數(shù)據(jù),或是對有的數(shù)據(jù)進行描述。直接數(shù)據(jù)挖掘有:分類、估值、預(yù)言。間接數(shù)據(jù)挖掘指:目標(biāo)中的數(shù)據(jù)都是沒有規(guī)則的,因而不能確定某一具體的變量,所以不能用模型來對其進行系統(tǒng)上的描述,只能通過數(shù)據(jù)之間聯(lián)系,將彼此組合起來。間接數(shù)據(jù)挖掘有:相關(guān)性分組或關(guān)聯(lián)規(guī)則、聚集、描述和可視化。下面本文將對分類和預(yù)測、關(guān)聯(lián)分析和聚類分析三種數(shù)據(jù)挖掘方法介紹。
3.1.1分類和預(yù)測數(shù)據(jù)分析一般分為分類和預(yù)測兩種形式,如果想要知道某種數(shù)據(jù)未來的走向,或是提取某種模型中重要的數(shù)據(jù),可以利用數(shù)據(jù)分析形式的屬性對其進行描述,然后得到自己想要的模型,并把數(shù)據(jù)合理的分類,以便使用原有數(shù)據(jù)對新數(shù)據(jù)進行預(yù)測。數(shù)據(jù)分析的兩種形式,在信譽證實、醫(yī)療診斷、性能預(yù)測和選擇購物等方面的用途也十分廣泛。如在金融證券領(lǐng)域,想要在銀行貸款,必須要分析貸款是否有足夠安全性,風(fēng)險性是否很高,如此便要建立一個分類模型,對其進行預(yù)測,例如想要成功銷售一批計算機設(shè)備,我們必須要預(yù)測、分析哪類人可能是潛在的用戶。
3.1.2關(guān)聯(lián)分析關(guān)聯(lián)分析在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)以及其他信息載體中應(yīng)用較為廣泛,可以查找有關(guān)于某一個項目集合或者對象集合之間存在的頻繁模式、關(guān)聯(lián)、相關(guān)性、或因果結(jié)構(gòu)。當(dāng)然這種關(guān)聯(lián)分析也可以用最小置信度和支持度找出所選范圍內(nèi)所有感興趣的規(guī)則。其中最為著名的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法常用的是Apriori算法。關(guān)聯(lián)分析大多應(yīng)用在消費者一次購物時同時購買锪商品購物分析、某些商品和另外一些物品次序推銷或促銷以及大型工廠、制造廠里生產(chǎn)的產(chǎn)品目錄設(shè)計等。如某所大學(xué),所有學(xué)生記錄中,有2%的人專業(yè)是會計且選修了數(shù)據(jù)庫且成績?yōu)锳;在專業(yè)是計算機科學(xué)CS且選修了數(shù)據(jù)庫DB的學(xué)生中有75%的人成績?yōu)锳。
3.1.3聚類分析聚類分析的方式就按照某種程度的度量方式來進行度量方法,這種方法中將用戶的數(shù)據(jù)根據(jù)需要分解成相應(yīng)有意義子集合。通過能否用于大數(shù)據(jù)量和不同的數(shù)據(jù)類型,能夠發(fā)現(xiàn)不同開關(guān)和類型的聚集;對領(lǐng)域知識的要求晝少;對噪聲或數(shù)據(jù)不同的順序不敏感,來判斷優(yōu)劣,根據(jù)模型可解釋。如:①一些特定癥狀的聚集可能預(yù)示了一個特定的疾病。②租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群。
3.2數(shù)據(jù)挖掘的一般步驟
3.2.1數(shù)據(jù)準(zhǔn)備在數(shù)據(jù)挖掘初期,我們的目的是要完成初始數(shù)據(jù)的項目。而建模人員的工作要務(wù)就是在這些收集的現(xiàn)有數(shù)據(jù)中,提取與客戶提供的主題相關(guān)的數(shù)據(jù)項,然后初步分析數(shù)據(jù),首選用已有的程序去提取收集好的數(shù)據(jù),然后進一步收集好的數(shù)據(jù)。然后進一步衍生變量,重復(fù)進行若干次(直到我們所要的數(shù)據(jù)變量都變成合格。)最后把這些數(shù)據(jù)整理,分類成一個文件,存于數(shù)據(jù)集市中。
3.2.2取樣工作人員在上步的數(shù)據(jù)集中隨機抽取樣本。
3.2.3建立模型取樣后,建模人員要對所取的樣本進行逐個分析,并將數(shù)據(jù)分為兩類:訓(xùn)練數(shù)據(jù)集體和驗證數(shù)據(jù)集體,然后選用最佳方案來建立模型或規(guī)則集。一般來說,有多種方法來出庫數(shù)據(jù)挖掘的問題的類型,而這些方法通常也是與數(shù)據(jù)在形式上一一壓的。因此,在建立模型的工程中,經(jīng)常需要返回到初級準(zhǔn)備階段。
3.2.4驗證模型模型確立后,建設(shè)人員還應(yīng)該根據(jù)驗證前后模型的準(zhǔn)確性。
3.2.5模型評估模型評估的標(biāo)準(zhǔn)是根據(jù)上面三個步驟的模型來作為評分的。挖掘主機評分的主程序中的數(shù)據(jù)都是由已建立的模型通過循環(huán)的方式獲得的。
3.2.6執(zhí)行如若要運用模型對新的數(shù)據(jù)進行處理,可以保留或改善模型。數(shù)據(jù)挖掘的步驟并不是一個流水線,所以它不可能一次性做完所有任務(wù)。過程中有許多乃至全部的步驟需要循環(huán)進行,所以每一個階段不是一成不變的。
3.3數(shù)據(jù)挖掘工具的新的技術(shù)和應(yīng)用熱點介紹文本挖掘、網(wǎng)絡(luò)挖掘兩種。
3.3.1文本挖掘文本挖掘,顧名思義,就是從非結(jié)構(gòu)化的文本中發(fā)現(xiàn)潛在的概念以及概念間的相互關(guān)系。在這項技術(shù)中,是分詞技術(shù)中的關(guān)鍵部分,詞典的運行。只有讓計算機依據(jù)詞典完成正確之后,才可以實現(xiàn)將非結(jié)構(gòu)化信息轉(zhuǎn)化為結(jié)構(gòu)化信息,然后就可以進一步研究文本之間的關(guān)系。目前,像IBM、微軟等主流挖掘工具以及google和SNS網(wǎng)站都已經(jīng)在使用廣西挖掘技術(shù)。但遺憾的是,目前這些工具大多只支持英文,還不支持中文挖掘。
3.3.2網(wǎng)絡(luò)挖掘網(wǎng)絡(luò)挖掘從主體上來看,可分為三種挖掘:文本挖掘、結(jié)構(gòu)挖掘以及點擊挖掘。
4數(shù)據(jù)挖掘(DM)實際應(yīng)用
DM工具和軟件已經(jīng)在各個領(lǐng)域中得到廣泛的應(yīng)用,收到的效益顯著。
4.1金融方面為了讓市場經(jīng)理以及業(yè)務(wù)員能夠更好的融入到公司活動和設(shè)計新的市場活動中,可以整理用DM對不同的業(yè)務(wù),不同的信息走向,以及一些決策進行合理的劃分。
4.2客戶關(guān)系管理方面DM不僅可以協(xié)助了解客戶的行為,還可以找出產(chǎn)品的使用模式,從而一定程度上改變通道管理的程序,就好比只有理解顧客的作息周期性規(guī)律,才能更好的進行銷售。
4.3在過程控制/質(zhì)量監(jiān)督保證方面大量變量之間的相互作用是通過DM來協(xié)調(diào)的,某些異常數(shù)據(jù),DM會自動識別,并進行相應(yīng)的處理措施,從而讓技術(shù)人員能夠發(fā)現(xiàn)問題所在的范圍,并及時處理。
4.4遠(yuǎn)程通訊部門基于DM的分析協(xié)助組織策略變更以適應(yīng)外部世界的變化,根據(jù)市場要求進行模式化的該百年來知道市場行為。在網(wǎng)絡(luò)容量利用方面,DM客戶在服務(wù)使用的結(jié)構(gòu)和模式的了解,從而指導(dǎo)容量計劃人員對網(wǎng)絡(luò)設(shè)施作出最佳投資決策。
4.5使用DM進行軍號事信息系統(tǒng)中的目標(biāo)特征提取、態(tài)勢關(guān)聯(lián)規(guī)則挖掘等。
5總結(jié)
發(fā)展數(shù)據(jù)倉庫可以促進數(shù)據(jù)挖掘越來越成熟,但是數(shù)據(jù)挖掘并不一定要有數(shù)據(jù)倉庫的支持。因為數(shù)據(jù)倉庫并不是數(shù)據(jù)挖掘的必要條件,有很多數(shù)據(jù)挖掘可直接從操作數(shù)據(jù)源中挖掘信息,而且數(shù)據(jù)挖掘仍然經(jīng)常被看做是數(shù)據(jù)的后期市場產(chǎn)品。數(shù)據(jù)倉庫平臺的數(shù)據(jù)挖掘的構(gòu)造具有很強的實用性,效率很高,節(jié)省資源。