1. 引言
隨著計(jì)算機(jī)系統(tǒng)的廣泛應(yīng)用,社會各領(lǐng)域都積累了大量的過程數(shù)據(jù)。這些數(shù)據(jù)中蘊(yùn)藏著許多以前不為人所知的規(guī)律,可以為企業(yè)帶來巨大的財(cái)富。過去由于技術(shù)方面的限制,很難處理這些海量數(shù)據(jù),人們面對一座金山卻無從下手。直到上個(gè)世紀(jì)末,計(jì)算技術(shù)的發(fā)展終于將來自多領(lǐng)域的技術(shù)整合在一起,形成了數(shù)據(jù)挖掘技術(shù)(或者說知識發(fā)現(xiàn))。概括地講,數(shù)據(jù)挖掘可以看作是一個(gè)從大量數(shù)據(jù)中提取出可信的、新穎的、有效的、具有潛在價(jià)值的并能被人理解的模式的非平凡的處理過程[1]。各行各業(yè)通過數(shù)據(jù)挖掘獲取了對自己極具價(jià)值的知識,提升了企業(yè)的價(jià)值和競爭力。
同樣在冶金工業(yè)中也年復(fù)一年的積累著各種數(shù)據(jù),從每一爐鋼到每一塊板坯到每一個(gè)鋼卷,各級計(jì)算機(jī)系統(tǒng)可以把這些數(shù)據(jù)完整地收集起來。但是收集數(shù)據(jù)本身并不是目的,從“信息化帶動工業(yè)化”的角度來看,更重要的是把這些數(shù)據(jù)利用起來,利用數(shù)據(jù)中蘊(yùn)藏的知識來指導(dǎo)生產(chǎn),形成企業(yè)的核心競爭力。
另一方面,在冶金工業(yè)的運(yùn)營過程中還有許多問題需要解決,例如全流程的質(zhì)量控制和供應(yīng)鏈管理等。由于它們固有的多變量和非線性特點(diǎn),用傳統(tǒng)的局部優(yōu)化的方法很難達(dá)到企業(yè)級的最優(yōu)。現(xiàn)在通過把分散在各個(gè)生產(chǎn)過程的實(shí)際生產(chǎn)數(shù)據(jù)按主題組織成數(shù)據(jù)倉庫,在此基礎(chǔ)上展開數(shù)據(jù)挖掘工作和獲取知識,利用獲取的知識可以比過去更好地解決這些問題。
本文以下部分詳細(xì)討論了冶金制造管理中的數(shù)據(jù)挖掘方法論、數(shù)據(jù)挖掘的工具軟件以及數(shù)據(jù)挖掘在寶鋼的應(yīng)用,最后給出了我們從實(shí)際工作中得到的經(jīng)驗(yàn)和體會。
2. SEMMAO方法論
數(shù)據(jù)挖掘的誕生有著很濃郁的實(shí)際應(yīng)用背景。針對特殊的應(yīng)用領(lǐng)域,需要有專門的數(shù)據(jù)挖掘方法論來指導(dǎo)具體的工作。可以說數(shù)據(jù)挖掘的方法論就是數(shù)據(jù)挖掘的元知識,它為從數(shù)據(jù)到知識提供了一條可行的路徑。
一般認(rèn)為,數(shù)據(jù)挖掘的流程可以分為3大步驟:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘(狹義)、結(jié)果解釋(圖1)數(shù)據(jù)準(zhǔn)備為數(shù)據(jù)挖掘提供合適的數(shù)據(jù),而數(shù)據(jù)挖掘則利用一系列算法從中抽取出數(shù)據(jù)模式或模型,之后領(lǐng)域?qū)<乙獙Υ四J交蚰P妥龀鼋忉?,將其上升為知識以指導(dǎo)業(yè)務(wù)。
圖1 數(shù)據(jù)挖掘流程
針對冶金工業(yè)這一特殊的應(yīng)用領(lǐng)域,本文采用了一套稱為SEMMAO數(shù)據(jù)挖掘方法論。具體地說,就是遵循采樣(S)、探索(E)、修正(M)、建模(M)、評價(jià)(A)、優(yōu)化(O)的方法論,一步一步地從數(shù)據(jù)中獲取知識(圖2)。它是從寶鋼數(shù)據(jù)挖掘?qū)嵺`中提取出來的、行之有效的指導(dǎo)思想。以下就SEMMAO方法論中的每一個(gè)步驟作詳細(xì)地說明。
圖2 SEMMAO方法論
作為數(shù)據(jù)挖掘的數(shù)據(jù)源,應(yīng)該是按主題組織的數(shù)據(jù)倉庫(企業(yè)級)或數(shù)據(jù)集市(部門級)[2]。通過對數(shù)據(jù)的有效組織,可以提高數(shù)據(jù)的挖掘效率。特別要指出的是數(shù)據(jù)挖掘應(yīng)該建立在數(shù)據(jù)倉庫而非數(shù)據(jù)庫之上,這是因?yàn)閮烧叩亩ㄎ徊煌?。一般說來,數(shù)據(jù)庫管理系統(tǒng)軟件(DBMS)是用于創(chuàng)建操作性的數(shù)據(jù)庫和在線事務(wù)處理系統(tǒng)(OLTP),它所關(guān)注的是數(shù)據(jù)庫設(shè)計(jì)范式(即數(shù)據(jù)的規(guī)范化和關(guān)鍵字的設(shè)定)、性能(建立索引)、數(shù)據(jù)的完整性和一直性,(數(shù)據(jù)提交、回滾和恢復(fù))以及對數(shù)據(jù)庫系統(tǒng)和在線事務(wù)處理系統(tǒng)的管理。相反,對統(tǒng)計(jì)分析、數(shù)據(jù)挖掘和在線分析處理(OLAP)而言,需要的是一個(gè)非規(guī)范化的數(shù)據(jù)結(jié)構(gòu),于是需要把數(shù)據(jù)庫重組為數(shù)據(jù)倉庫。
采樣就是根據(jù)一定的規(guī)則從大樣本集中抽取規(guī)模較小的樣本子集,可以分為隨機(jī)采樣和非隨機(jī)采樣。采樣的主要目的是減少后續(xù)步驟處理的數(shù)據(jù)量,有時(shí)也可以起到改善數(shù)據(jù)分布的作用。
觀察是指對數(shù)據(jù)進(jìn)行一些可視化的探索,讓分析人員對數(shù)據(jù)的分布特征做到心中有數(shù),為后續(xù)的挖掘工作帶來一些有益的提示。
調(diào)整是對各種令人不滿意的數(shù)據(jù)進(jìn)行處理,使其滿足建模算法的要求和精度要求。調(diào)整的方法很多,具體的有缺失值處理、奇異值處理、矛盾值處理、標(biāo)準(zhǔn)化和變量變換等。
建模是以一種數(shù)學(xué)模型的方式來表達(dá)隱含在數(shù)據(jù)中的知識。大體上模型可以分為有監(jiān)督和無監(jiān)督兩大類。有監(jiān)督的模型是指目標(biāo)變量已經(jīng)被賦予一定的值,通過訓(xùn)練要建立一種從輸入變量到目標(biāo)變量的映射,使其在一定的誤差準(zhǔn)則意義下達(dá)到最優(yōu)。這樣的模型可以用于分類和預(yù)報(bào)的目的。無監(jiān)督的模型則是在缺少目標(biāo)變量的信息的情況下,僅利用輸入變量自身的信息把樣本劃分成為若干個(gè)類,從而達(dá)到抽取信息的目的。
評價(jià)步驟是對模型的結(jié)果進(jìn)行誤差分析。如果模型被證明是可以接受的,就可以被認(rèn)為是一種知識,可以用于以后的預(yù)報(bào)和優(yōu)化。
優(yōu)化步驟是用挖掘出的知識來解決實(shí)際問題,諸如“如何調(diào)整某些輸入變量的值來得到輸出變量的目標(biāo)值”。在一般的商業(yè)性數(shù)據(jù)挖掘中并不包含這一步,它們一般做到評價(jià)就結(jié)束了,把進(jìn)一步的使用扔給用戶。但是在我們的實(shí)際應(yīng)用中,發(fā)現(xiàn)模型的理解和使用也很重要,所以在數(shù)據(jù)挖掘的方法論中增加了這一步。優(yōu)化的方法包括聚類調(diào)優(yōu)、遺傳尋優(yōu)等。
經(jīng)歷了以上的步驟,來源于實(shí)際數(shù)據(jù)中的知識應(yīng)用于生產(chǎn),生產(chǎn)過程又不斷產(chǎn)生新的數(shù)據(jù)。通過不斷的循環(huán)往復(fù),形成一個(gè)有效提升制造生產(chǎn)能力的閉環(huán)。
3. 數(shù)據(jù)挖掘工具軟件
“工欲善其事,必先利其器”。選擇好的數(shù)據(jù)挖掘工具軟件,能夠極大地提高數(shù)據(jù)挖掘的效率,使業(yè)務(wù)人員有更多的精力關(guān)注自身的業(yè)務(wù),而非數(shù)據(jù)挖掘的技術(shù)細(xì)節(jié)。
在當(dāng)今國際上有很多數(shù)據(jù)挖掘的商業(yè)軟件[3]。它們一般都將注意力集中在數(shù)據(jù)挖掘的算法上,而對數(shù)據(jù)準(zhǔn)備階段的工作提供的支持不足。究其原因我們認(rèn)為數(shù)據(jù)準(zhǔn)備工作與源數(shù)據(jù)的特性、格式等都有著很強(qiáng)的聯(lián)系,在實(shí)踐中由于其處理的靈活性,很難將這些工作抽象出來,用一種放之四海皆準(zhǔn)的方法去解決。但其實(shí)質(zhì)是,數(shù)據(jù)準(zhǔn)備階段的工作既煩瑣又重要,它的工作量一般要占到整個(gè)數(shù)據(jù)挖掘工作量的80%,這一部分工作將在很大程度上影響整個(gè)數(shù)據(jù)挖掘的效率。
本文將介紹兩個(gè)數(shù)據(jù)挖掘工具軟件,一個(gè)是我們自己研發(fā)的基于SAS的實(shí)用數(shù)據(jù)挖掘系統(tǒng)(Practical Miner,以下簡稱PM),另一個(gè)是美國SAS公司出品的SAS Enterprise Miner®(以下簡稱SAS/EM®)。這兩個(gè)產(chǎn)品已經(jīng)在我們的實(shí)際應(yīng)用中證明了它們的可用性。
實(shí)用數(shù)據(jù)挖掘系統(tǒng)是在SEMMAO方法論的指導(dǎo)下,由寶鋼技術(shù)中心自動化研究所自主開發(fā)的數(shù)據(jù)挖掘工具軟件。它定位于一種簡潔實(shí)用的數(shù)據(jù)挖掘工具,就象一臺傻瓜相機(jī),按下一個(gè)按鈕就可以完成全部工作。PM基于基本的SAS平臺,目前發(fā)布的版本號為2.0(圖3)。選擇SAS而非通常的開發(fā)平臺作為開發(fā)和運(yùn)行的環(huán)境是因?yàn)镾AS是公認(rèn)的最好的統(tǒng)計(jì)軟件且應(yīng)用廣泛,可以大大加快我們的開發(fā)進(jìn)度。PM功能全面,覆蓋了從數(shù)據(jù)預(yù)處理到數(shù)據(jù)呈現(xiàn)的整個(gè)數(shù)據(jù)挖掘過程。此外,PM為用戶提供了友好的界面,即使對數(shù)據(jù)挖掘技術(shù)不熟悉的人員,在它的中文幫助系統(tǒng)指導(dǎo)下,也可以方便地使用。
PM的主要功能包括:
?。?)數(shù)據(jù)收集:根據(jù)用戶的設(shè)定條件,選取分析用數(shù)據(jù),并提供SAS數(shù)據(jù)格式與其它數(shù)據(jù)格式之間的接口;
(2)數(shù)據(jù)采樣:抽取數(shù)據(jù)集市中的典型樣本;
(3)數(shù)據(jù)預(yù)處理:對數(shù)據(jù)進(jìn)行規(guī)范性檢查、變量降維、數(shù)據(jù)變換、異常點(diǎn)處理、矛盾點(diǎn)處理;
(4)可視化探索:提供直觀的數(shù)據(jù)分析功能;
(5)聚類分析:提供常用的聚類方法,可以自動決定類數(shù);
?。?)數(shù)據(jù)建模:提供人工神經(jīng)網(wǎng)絡(luò)、模糊系統(tǒng)、線性回歸等建模工具,可以優(yōu)化模型結(jié)構(gòu);
?。?)數(shù)據(jù)預(yù)測:根據(jù)已建立的模型,對數(shù)據(jù)進(jìn)行批量預(yù)報(bào);
?。?)優(yōu)化設(shè)計(jì):通過定性或定量的方法,對于給定的目標(biāo),調(diào)整影響量,使目標(biāo)達(dá)到最優(yōu);
?。?)趨勢分析:研究變量隨時(shí)間變化的趨勢;
?。?0)規(guī)范管理:設(shè)置規(guī)范數(shù)據(jù)庫。