
隨著我國證券市場機制和企業破產制度的完善,信用風險問題日益突出,不但使企業遭受巨大損失,而且直接影響企業的生存和發展;此外,大量上市公司存在信用風險時,將有可能引發金融危機。因此,對上市公司信用風險的管理是非常必要和迫在眉睫的。而上市公司信用風險評估模型的建立是防范信用風險的重要手段,因此,研究上市公司信用風險評估這一課題,已經成為我國目前經濟生活中亟待解決的一個重要問題。
目前許多定量技術和支持工具、軟件已付諸商業應用,繼傳統的比例分析之后,統計方法得到了廣泛的應用,如判別分析和Logistic回歸等。信用等級評估是通過對企業或個人的某些單一財務指標進行加權平均確定的。該方法的最大缺陷在于指標和加權值的確定帶有很大的主觀性,使得評估結果和實際狀況有很大的出入。因此需要引入科學方法來確定有效評估指標,并建立準確的定量模型來解決信用等級評估的問題。近年來,信息技術得到了迅速發展,如數據挖掘技術等能從海量數據中智能發現有用的規則和知識,再加上我國上市公司信息披露制度的不斷完善,使得我們的研究能夠得到的數據資料也不斷的增多,這些有利條件的出現使得我們對基于數據挖掘的上市公司信用風險評估模型的研究具有了數據基礎和技術基礎。
一、模型簡介
?。ㄒ唬Q策樹算法 決策樹是對已知類別的數據樣本進行歸納學習獲得的樹形結構,樹內每個非葉節點代表對一個屬性取值的測試,每個葉節點代表一個類別。決策樹方法利用信息理論的信息增益選擇具有最大信息量的屬性來建立決策樹的一個節點,再根據屬性字段的不同取值來建立樹的分枝,如此對每個分枝重復遞歸建立整個決策樹。產生決策樹的基本算法如下:
輸入:訓練樣本,各屬性均取離散數值,可供歸納的備選屬性集合為attribute_list。
輸出:決策樹
算法:Gen_decision_tree
創建一個節點 Node;
IF 該節點中的所有樣本均為同一類別c THEN返回Node 作為一個葉節點并標志為類別c;
IF attribute_list 為空 THEN返回Node作為一個葉節點并標記為該節點所含樣本中類別個數最多的類別;
從attribute_list 選擇一個信息增益最大的屬性 test_attribute;
將節點Node標記為 test_attribute;
根據test_attribute=Vi條件,從節點Node產生相應的一個分枝,且設Si為根據該分枝條件所獲得的樣本集合;
IF Si 為空 THEN將相應葉節點標志為該節點所含樣本中類別個數最多的類別,ELSE,將相應葉節點標志為由Gen_decision_tree(Si,attribute_list, test_attribute)返回的值。
其中,信息增益的計算方法為:設S為一個包含S個數據樣本的集合,類別屬性可以取 N個不同的值,對應于N個不同的類別Cj,j∈{1,2,3,…,N},Sj為類別Cj中的樣本個數。那么對一個給定數據對象進行分類所需的信息量為:
Infor(S1,S2,…SN)=-■pj log2(pj) (1)
其中,pj是任意一個數據對象屬于類別Cj的概率,即pj=Sj /S。設屬性V取v個不同的值{V1,V2…,Vv},則利用屬性V可以將集合S劃分為v個子集{S1,S2…,Sv},其中Si包含了集合S中屬性V取Vi值的那些樣本。設Sij為子集Si中屬于Cj類別的樣本個數。那么利用屬性V劃分當前樣本集合所需要的信息熵可以計算如下
Entr(V)=■■Infor(S1,S2,…SN) (2)
Infor(Si1,Si2,…SiN)=-■pijlog2(pij) (3)
pij=■ (4)
這樣利用屬性V對樣本集合進行劃分所獲得的信息增益為:
Cain(V)=Infor(S1,S2,…SN)-Entr(V) (5)
?。ǘ㎏最近鄰法 K最近鄰法簡稱KNN算法,在理論上是比較成熟的方法,最初于1968年由Cover 和Hart提出,其思路非常簡單直觀。KNN方法是一種有監督學習的分類算法,它并不需要產生額外的數據來描述規則,它的規則就是數據(樣本)本身,并不要求數據的一致性問題,也就是說K最近鄰法在一定程度上減小了噪聲樣本對分類的干擾。KNN根據未知樣本的K個最近鄰樣本來預測未知樣本的類別,K個最近鄰樣本的選擇是根據一定的距離公式判定的。
KNN分類算法的基本原理為:首先將待分類樣本y表達成和訓練樣本庫的樣本一致的特征向量;然后根據距離函數計算待分類樣本y和每個訓練樣本的距離,選擇與待分類樣本距離最小的K個樣本作為y的K個最近鄰;最后根據y的K個最近鄰判斷y的類別。KNN算法必須明確兩個基本的因素:最近鄰樣本的數目K和距離的尺度。K表示選擇參考樣本的數目,距離尺度對應一個非負的函數,用來刻畫不同數據間的相似性程度。在KNN算法里對于模型的選擇(尤其是K值)往往是通過對大量獨立的測試數據、多個模型來驗證最佳選擇。
(三)Logistic回歸模型 Logistic回歸模型是一種非線性概率模型,其因變量是分類變量只有0和1兩個取值?;貧w模型可表述為
p=■
s=cj+■ckxk
其中xk(k=1,2...,m)為上市公司信用風險評定中的影響變量, cj(j=1,2...,m)為回歸系數,通過回歸或極大似然估計獲得, Logistic回歸值p∈(0,1)為信用風險分析的判別結果。P是的連續增函數,S∈(-∞,+∞)。并且
■p=■■=1
■p=■■=0
對某上市公司i(i=1,2...,n)來說,如果其Logistic回歸值pi接近于0或(pi≈0),則被判定為一類經營差的企業,若其Logistic回歸值pi接近于1或(pi≈1),則被判定為經營好的企業。并且pi值越遠離0,表示該企業陷入財務困境的可能性越小;反之,表示該企業陷入則務困境的可能性越大。
二、基于決策樹的上市公司信用風險評估模型實證分析
?。ㄒ唬┲笜梭w系建立 通過綜合考慮信用風險的各種影響因素,借鑒我國財政部統計評價司的企業效績評價指標體系和國有商業銀行企業資信評估指標體系以及國內外有關文獻的相關指標,在分類、匯總、整理的基礎上,同時兼顧數據的可獲取性原則和可量化原則,從企業盈利能力、償債能力、營運能力和發展能力4個方面,選取了10個財務指標。
?。?)盈利能力指標。企業獲利能力是企業信用的基礎,企業只有盈利,才有可能按時償還債務。本文選取的反映企業贏利能力的指標有凈資產收益率X1、銷售(營業)利潤率X2。
(2)償債能力指標。償債能力是企業資信的保證,企業償債能力如何,通常是評估企業資信評級最直接的依據,償債能力歸根結底是企業自有資產的變現能力。本文選取的反映企業償債能力的指標有流動比率X3、速動比率X4和資產負債率X5。
(3)營運能力指標。營運能力分析是對企業資金周轉狀況進行的分析,資金周轉得越快,說明資金利用效率越高,企業的經營管理水平越好。本文選取的反映企業營運能力的指標有總資產周轉率X6、存貨周轉率X7和應收賬款周轉率X8。
(4)發展能力指標。發展能力反映企業未來發展前景及潛力。本文選取的反映企業發展能力的指標有資本積累率X9和總資產增長率X10。
將上市公司分為兩組,第1組包含ST公司,認為該類企業具有較大的財務風險。非ST公司作為第2組,認為該類企業財務狀況正常。若模型將ST組樣本判為非ST組,則稱為犯第一類錯誤;將非ST組樣本判為ST組,則稱為犯第二類錯誤。
?。ǘ颖具x取 樣本的選取為兩分類模式,即違約和不違約。將ST上市公司作為財務狀況異常一類,也即會發生違約的一類;將非ST公司作為財務狀況正常的一類,即不會發生違約的一類。ST公司是指出現財務狀況或其他狀況異常,導致投資者難于判斷公司的前景,權益可能受到損害的公司。
本文實證分析中的原始數據來自于色諾芬數據庫,隨機選取我國深、滬兩市交易所2009年公布的60家ST公司作為一類經營“差”的企業,同時另隨機選取75家不虧損公司作為一類經營“正?!钡钠髽I與之相匹配,因此,數據樣本集由135家上市公司組成,然后從中任選30家ST公司及38家非ST公司組成訓練樣本集,余下的67家公司組成測試樣本集。
?。ㄈ┠P蜆嬙炫c檢驗 構造決策樹,關鍵是找到樣本空間的最優劃分,ID3算法的屬性選擇策略就是選擇信息增益最大的屬性作為測試屬性,從而確定樣本空間的一個劃分。但ID3算法存在著輸出分支多,預測可靠性性差的問題。C4.5算法從ID3算法演變而來,提出用信息增益比來作為測試屬性選擇的依據,通過大量的實驗測試表明:用C4.5算法構造的決策樹較ID3算法的預測效果有更好的可靠性和健壯性。實驗模型運用數據挖掘軟件WEKA3.6.3,根據C4.5算法以信息增益比最大為原則選取節點生成決策樹,如圖1所示。
最終選出了6個好的屬性作為決策樹節點,X5為根節點,也就是資產負債率對于違約和履約分類的貢獻程度是最大的。括號中的數代表平均有幾個樣本數據根據條件被分到了相應的類中,用10 次迭代交叉驗證法來驗證模型的誤差率,驗證結果如下:
正確分類的樣本數 58 86.5671 %
錯誤分類的樣本數 9 13.4328 %
?。ㄋ模┙Y果分析 本文運用決策樹模型與Logistic和K最近鄰模型進行了比較分析。從結果來看,三種模型都具有較好的預警效果,但相比之下,決策樹模型的總體判定準確率更高,說明決策樹模型對樣本所包含的數據信息的學習比較充分。作為一種非線性映射,數據之間的自相關性以及個別數據的缺失對模型的預測效果影響不大。因此,決策樹在分析和研究上市公司信用風險方面,具有良好的應用前景。
從表中可以看出,決策樹在測試樣本集中的整體準確率(也即預測準確率) 達到了87%,明顯好于Logistic和K最近鄰模型的78% 。在本實驗過程中,在建立模型時考慮的是整體準確率,從這一角度看,決策樹模型具有一定的優勢。從三種模型的結果中比較,訓練樣本第一類錯誤率明顯高于測試樣本的第一類錯誤率。對此問題目前還不能做機理上的解釋,但這種現象恰好是希望得到的。
通過表1,還可以對模型的魯棒性做一個比較。對于訓練樣本集,決策樹的整體準確率是最高的,達到了75%,其次是Logistic模型的74%,效果最差的是K最近鄰模型的66%。在測試樣本集中,準確率(預測準確率) 都有了不同程度的上升。變化率最大的是決策樹,為12%;其次是K最近鄰模型,為8%;變化率最小的是Logistic,僅為4%。可以看出,在三種模型中,決策樹模型的魯棒性最差,Logistic模型的魯棒性最好。決策樹模型的魯棒性雖然不是最好的,但也保持了一個較好的水平,能夠滿足實際應用的要求。
綜上所述,本文以我國上市公司作為研究對象,以因財務狀況異常而被特別處理作為界定上市公司陷入財務困境的標志,采用交叉驗證技術建立決策樹模型,并與Logistic和K最近鄰模型進行了比較分析。實證結果表明決策樹模型能有效地預測上市公司的信用風險,且適用性較好。當然,在分析過程中,存在以下有待改進之處,如:以上市公司樣本代替所有企業,可能會造成典型性不強的問題;只考慮財務因素作為影響變量,未對非財務因素(如行業因素、其他宏觀因素)加以考慮。