<address id="japib"><nav id="japib"></nav></address>

<cite id="japib"></cite>

        基于改進PSO的ARIMA-SVM空氣質量預測研究

        楊濤鋒 彭藝

        引用本文:
        Citation:

        基于改進PSO的ARIMA-SVM空氣質量預測研究

          作者簡介: 楊濤鋒(1994?),男,河南人,碩士生,主要研究信號與信息處理、數據挖掘.E-mail:m15290903966@163.com;
          通訊作者: 彭藝, 527037928@qq.com
        • 中圖分類號: TP399

        A hybrid ARIMA-SVM model for the study of air quality prediction based on improved PSO

          Corresponding author: PENG Yi, 527037928@qq.com
        • CLC number: TP399

        • 摘要: 針對現有的單一模型對PM2.5質量濃度預測誤差較大的問題,提出自回歸積分滑動平均(Autoregressive Integrated Moving Average,ARIMA)-支持向量機(Support Vector Machine,SVM)組合預測的方法. 首先,為了解決單核SVM泛化能力弱、學習能力差的缺點,構建基于線性組合的混合核SVM;然后,考慮到普通粒子群算法對SVM參數尋優存在易陷入局部最優解和后期震蕩的問題,提出基于余弦函數的自適應慣性權重和增加動量項的改進粒子群算法;最后,以北京市某站點的PM2.5質量濃度數據進行驗證. 結果表明:改進的組合模型均方根誤差較未改進組合模型和單一ARIMA模型分別降低了1.741 μg·m?3和6.720 μg·m?3,具有更加良好的預測精度.
        • 圖 1  組合模型建模流程圖

          Figure 1.  Flow chart of combined model modeling

          圖 2  基于改進粒子群混合核SVM參數優化流程

          Figure 2.  SVM parameter optimization process based on IPSO hybrid kernel

          圖 3  2017年1月1日至2018年12月21日 ${\rm{P}}{{\rm{M}}_{2.5}}$質量濃度時序圖

          Figure 3.  Sequence diagram of ${\rm{P}}{{\rm{M}}_{2.5}}$ concentration from January 1, 2017 to December 21,2018

          圖 4  2017年1月1日至2018年12月21日 ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度一階差分時序圖

          Figure 4.  First-order different sequence diagram of ${\rm{P}}{{\rm{M}}_{2.5}}$ concentration from January 1,2017 to December 21, 2018

          圖 5  一階差分序列自相關系數(ACF)圖

          Figure 5.  Autocorrelation coefficient (ACF) of first order difference sequence

          圖 6  一階差分序列偏自相關系數(PACF)圖

          Figure 6.  Partial autocorrelation coefficient (PACF) of first order difference sequence

          圖 7  基于不同優化方法的組合模型 ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度預測對比圖

          Figure 7.  Comparison of ${\rm{P}}{{\rm{M}}_{2.5}}$ concentration prediction of combined models based on different optimization methods

          圖 8  IPSO雙核組合模型與ARIMA模型 ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度預測對比圖

          Figure 8.  Comparison of ${\rm{P}}{{\rm{M}}_{2.5}}$ concentration prediction between IPSO dual-core combined model and ARIMA model

          表 1  ARIMA(1,1,3)模型統計量

          Table 1.  Model statistics of ARIMA(1,1,3)

          ADF檢驗統計量ljung-Box統計量
          P延遲階數P
          14.437 0.01 8 0.090162 0.764
          下載: 導出CSV

          表 2  ${\rm{P}}{{\rm{M}}_{2.5}}$質量濃度實際值與預測值

          Table 2.  Actual value and prediction of PM2.5 concentration μg·m?3

          日期實際值ARMA殘差IPSO雙核SVM殘差預測組合預測
          2018-12-07 33.875 28.174 ? ? ?
          2018-12-08 34.000 38.227 ? ? ?
          2018-12-09 78.565 72.643 ? ? ?
          2018-12-10 79.292 75.334 ? ? ?
          2018-12-11 60.125 64.361 ? ? ?
          2018-12-12 58.391 49.743 8.648 1.073 50.816
          2018-12-13 43.625 46.324 ?2.699 ?5.484 40.109
          2018-12-14 70.254 62.875 7.379 4.838 67.713
          2018-12-15 119.583 103.376 16.207 ?1.592 101.784
          2018-12-16 125.125 107.671 17.454 ?2.780 104.891
          2018-12-17 45.364 40.567 4.797 1.618 42.185
          2018-12-18 57.417 51.371 6.046 1.912 53.283
          2018-12-19 62.458 51.452 11.006 2.689 54.141
          2018-12-20 90.390 83.872 6.518 ?2.303 81.569
          2018-12-21 81.947 76.644 5.303 ?2.726 73.918
          2018-12-22 48.625 60.034 ?11.409 ?1.698 58.336
          2018-12-23 40.696 51.681 ?10.985 ?2.410 49.271
          2018-12-24 30.254 37.567 ?7.313 ?1.094 36.473
          2018-12-25 29.667 32.577 ?2.910 ?1.597 30.980
          2018-12-26 57.333 64.625 ?7.292 1.715 66.310
          下載: 導出CSV

          表 3  不同優化方法的性能比較

          Table 3.  Performance comparison of different optimization methods

          預測方法均方誤差/
          (μg·m?3
          迭代次數$C,\varepsilon ,\lambda ,\sigma /C,\varepsilon ,\sigma $
          IPSO雙核2.4833123.24,0.250,
          0.623,0.847
          IPSO單核3.6137522.56,0.286,0.741
          NPSO雙核3.8440427.69,0.301,0.619,0.833
          NPSO單核4.0442129.32,0.297,0.819
          下載: 導出CSV

          表 4  單一模型與組合模型的性能比較

          Table 4.  Performance comparison between single model and combined model

          預測法RMSEMAE
          ARIMA 9.385 13.90
          IPSO混合核組合模型 2.665 4.22
          下載: 導出CSV
          幸运快三
        • [1] Tsai Y T, Zeng Y R, Chang Y S. Air pollutionforecasting using RNN with LSTM[C]//IEEE 16th Intl Conf on Dependable, Autonomic and Secure Computing, 16th Intl Conf on Pervasive Intelligence and Computing, 4th Intl Conf on Big Data Intelligence and Computing and Cyber Science and Technology Congress(DASC/PiCom/DataCom/CyberSciTech), Sydney, Australian, 2018. DOI: 10.1109/dasc/picom/datacom/cyberscitec.2018.00178
          [2] 李穎若, 汪君霞, 韓婷婷, 等. 利用多元線性回歸方法評估氣象條件和控制措施對APEC期間北京空氣質量的影響[J]. 環境科學, 2019, 40(3): 16-26. Li Y R, Wang J X, Han T T, et al. Using multiple linear regression method to evaluate the impact of meteorological conditions and control measures on air quality in Beijing during APEC 2014[J]. Environmental Science, 2019, 40(3): 16-26.
          [3] 曲悅, 錢旭, 宋洪慶, 等. 基于機器學習的北京市PM<sub>2.5</sub>濃度預測模型及模擬分析[J]. 工程科學學報, 2019(3): 401-407. Qu Y, Qian X, Song H Q, et al. Machine-learning-based model and simulation analysis of concentration prediction in Beijing[J]. Chinese Journal of Engineering, 2019(3): 401-407.
          [4] Hikichi S E, Salgado E G, Beijo L A. Forecasting number of ISO 14001 certifications in the Americas using ARIMA models[J]. Journal of Cleaner Production, 2017, 147: 242-253.
          [5] 錢亞冠, 盧紅波, 紀守領, 等. 一種針對基于SVM入侵檢測系統的毒性攻擊方法[J]. 電子學報, 2019, 47(1): 59-65. DOI:  10.3969/j.issn.0372-2112.2019.01.008. Qian Y G, Lu H B, Ji S L, et al. A poisoning attack on intrusion detection system based on SVM[J]. Acta Electronica Sinica, 2019, 47(1): 59-65.
          [6] 楊敏, 丁劍, 王煒. 基于ARIMA-SVM模型的快速公交停站時間組合預測方法[J]. 東南大學學報:自然科學版, 2016, 46(3): 651-656. Yang M, Ding J, Wang W. Hybrid dwell time prediction method for bus rapid transit based on ARIMA-SVM model[J]. Journal of Southeast University:Natural Science Edition, 2016, 46(3): 651-656.
          [7] 宋國君, 國瀟丹, 楊嘯, 等. 沈陽市PM<sub>2.5</sub>濃度ARIMA-SVM組合預測研究[J]. 中國環境科學, 2018, 38(11): 4 031-4 039. DOI:  10.3969/j.issn.1000-6923.2018.11.005. Song G J, Guo X D, Yang X, et al. ARIMA-SVM combination prediction of concentration in Shenyang[J]. China Environmental Science, 2018, 38(11): 4 031-4 039.
          [8] Zheng Z C, Wei-Ya X U, Fei X U, et al. Forecasting of slope displacement based on PSO-LSSVM with mixed kernel[J]. Rock & Soil Mechanics, 2012, 33(5): 1 421-1 426.
          [9] 徐中宇, 蘇明玉, 姚慶安. 基于改進PSO算法的混合核SVM算法[J]. 吉林大學學報:理學版, 2018, 56(3): 625-630. Xu Z Y, Su M Y, Yao Q A. Hybrid kernel SVM algorithm based on improved PSO algorithm[J]. Journal of Jilin University:Science Edition, 2018, 56(3): 625-630.
          [10] 劉義志, 賴華榮, 張丁旺, 等. 多特征混合核SVM模型的遙感影像變化檢測[J]. 國土資源遙感, 2019, 31(1): 16-21. Liu Y Z, Lai H R, Zhang D W, et al. Change detection of high resolution remote sensing image alteration based on multi-feature mixed kernel SVM model[J]. Remote Sensing for Land & Resources, 2019, 31(1): 16-21.
          [11] 李建新, 劉小生, 劉靜, 等. 基于MRMR-HK-SVM模型的PM<sub>2.5</sub>濃度預測[J]. 中國環境科學, 2019, 39(6): 2 304-2 310. DOI:  10.3969/j.issn.1000-6923.2019.06.009. Li J X, Liu X S, Liu J, et al. Prediction of PM<sub>2.5</sub> concentration based on MRMR-HK-SVM model[J]. China Environmental Science, 2019, 39(6): 2 304-2 310.
          [12] 段小麗, 王明泉. 改進型PSO-SVM算法對井下多組分氣體定量分析的研究[J]. 光譜學與光譜分析, 2019, 39(9): 2 883-2 888. Duan X L, Wang M Q. Quantitative analysis of multi-component gases in underground by improved PSO-SVM algorithm[J]. Spectroscopy and Spectral Analysis, 2019, 39(9): 2 883-2 888.
          [13] Junior E P, Barroso E S. A hybrid PSO-GA algorithm for optimization of laminated composites[J]. Structural and Multidisciplinary Optimization, 2016, 55(6): 65-71.
          [14] Huang C L, Wang C J. A GA-based feature selection and parameters optimization for support vector machines[J]. Expert Systems with Applications, 2006, 31(2): 23l-240.
          [15] 姜建國, 田旻, 王向前, 等. 采用擾動加速因子的自適應粒子群優化算法[J]. 西安電子科技大學學報, 2012, 39(4): 74-80. Jiang J G, Tian M, Wang X Q, et al. Adaptive particle swarm optimization via disturbing acceleration coefficents[J]. Journal of Xidian University, 2012, 39(4): 74-80.
        • [1] 李琰崔建福馬鐳石磊 . 局部影響分析在支持向量機中的應用. 云南大學學報(自然科學版), 2004, 26(3): 204-207.
          [2] 唐菁敏馬含 . 基于混沌粒子群優化的微電網短期負荷預測. 云南大學學報(自然科學版), 2019, 41(6): 1123-1129. doi: 10.7540/j.ynu.20190017
          [3] 王靈矯呂琮霞郭華 . SDN環境下基于支持向量機的DDoS攻擊檢測研究. 云南大學學報(自然科學版), 2020, 42(): 1-8. doi: 10.7540/j.ynu.20200137
          [4] 王海燕王紅軍徐小力 . 基于支持向量機的納西東巴象形文字符識別*. 云南大學學報(自然科學版), 2016, 38(5): 730-736. doi: 10.7540/j.ynu.20150757
          [5] 周愛紅尹超袁穎 . 基于主成分分析和支持向量機的砂土滲透系數預測模型*. 云南大學學報(自然科學版), 2016, 38(5): 742-749. doi: 10.7540/j.ynu.20150781
          [6] 何晨光賀思德董志民 . 最小二乘支持向量機在人臉識別中的應用. 云南大學學報(自然科學版), 2008, 30(3): 239-245.
          [7] 閔文文梅 端代婷婷胡光華 . 基于遺傳算法SVM的基因表達譜數據分析. 云南大學學報(自然科學版), 2013, 35(4): 441-446. doi: 10.7540/j.ynu.20120663
          [8] 謝心慶鄭薇開璇許英 . 基于時間序列和多元方法的烏魯木齊PM2.5濃度分析. 云南大學學報(自然科學版), 2016, 38(4): 595-601. doi: 10.7540/j.ynu.20150789
          [9] 李建文畢麗玫韓新宇史建武楊健施擇寧平 . 昆明市PM2.5中水溶性無機離子時空變化特征及來源分析. 云南大學學報(自然科學版), 2017, 39(1): 63-70. doi: 10.7540/j.ynu.20160456
          [10] 張朝能王夢華胡振丹袁園劉慧邱飛 . 昆明市PM2.5濃度時空變化特征及其與氣象條件的關系. 云南大學學報(自然科學版), 2016, 38(1): 90-98. doi: 10.7540/j.ynu.20150467
          [11] 賈占彪陳紅 . 一種新的超寬帶脈沖設計方法與性能分析. 云南大學學報(自然科學版), 2013, 35(2): 162-166. doi: 10.7540/j.ynu.20120340
          [12] 邱宇青胡光華潘文林 . 基于正交表的支持向量機并行學習算法. 云南大學學報(自然科學版), 2006, 28(2): 93-97.
          [13] 冉亞鑫余江???/a> , 李曉薇 . 一種基于CSI的跌倒檢測方法. 云南大學學報(自然科學版), 2020, 42(2): 220-227. doi: 10.7540/j.ynu.20190415
          [14] 彭新俊胡光華 . 密度函數估計的修正SVM法. 云南大學學報(自然科學版), 2004, 26(4): 284-287.
          [15] 陳威張世峰張祝威胡貴妹 . 焦爐集氣管壓力系統的復合自適應PID控制. 云南大學學報(自然科學版), 2017, 39(4): 565-572. doi: 10.7540/j.ynu.20160597
          [16] 盧康賀西平安笑笑賀升平尼濤 . 基于TSVM的多特征融合超聲金屬防偽識別. 云南大學學報(自然科學版), 2017, 39(4): 584-589. doi: 10.7540/j.ynu.20160548
          [17] 馬欣欣郭敏 . 基于EEMD和多域特征融合的手勢肌電信號識別研究. 云南大學學報(自然科學版), 2018, 40(2): 252-258. doi: 10.7540/j.ynu.20170300
          [18] 陸正福李佳 . FHE*KDFRS:全同態加密相容的核基人臉識別系統. 云南大學學報(自然科學版), 2018, 40(6): 1116-1127. doi: 10.7540/j.ynu.20180400
          [19] 燕志星王海瑞楊宏偉靖婉婷 . 基于深度學習特征提取和GWO-SVM滾動軸承故障診斷的研究. 云南大學學報(自然科學版), 2020, 42(4): 656-663. doi: 10.7540/j.ynu.20190535
          [20] 杞嫻胡光華彭新俊 . 基于最佳距離度量近鄰法的鄰域風險最小化方法. 云南大學學報(自然科學版), 2004, 26(5): 373-377.
        • 加載中
        圖(8)表(4)
        計量
        • 文章訪問數:  515
        • HTML全文瀏覽量:  628
        • PDF下載量:  22
        • 被引次數: 0
        出版歷程
        • 收稿日期:  2019-08-23
        • 錄用日期:  2019-11-29
        • 網絡出版日期:  2020-06-02
        • 刊出日期:  2020-09-22

        基于改進PSO的ARIMA-SVM空氣質量預測研究

          作者簡介:楊濤鋒(1994?),男,河南人,碩士生,主要研究信號與信息處理、數據挖掘.E-mail:m15290903966@163.com
          通訊作者: 彭藝, 527037928@qq.com
        • 昆明理工大學 信息工程與自動化學院,云南 昆明 650500

        摘要: 針對現有的單一模型對PM2.5質量濃度預測誤差較大的問題,提出自回歸積分滑動平均(Autoregressive Integrated Moving Average,ARIMA)-支持向量機(Support Vector Machine,SVM)組合預測的方法. 首先,為了解決單核SVM泛化能力弱、學習能力差的缺點,構建基于線性組合的混合核SVM;然后,考慮到普通粒子群算法對SVM參數尋優存在易陷入局部最優解和后期震蕩的問題,提出基于余弦函數的自適應慣性權重和增加動量項的改進粒子群算法;最后,以北京市某站點的PM2.5質量濃度數據進行驗證. 結果表明:改進的組合模型均方根誤差較未改進組合模型和單一ARIMA模型分別降低了1.741 μg·m?3和6.720 μg·m?3,具有更加良好的預測精度.

        English Abstract

        • 近年來,隨著工業生產的發展與人類活動的增加,造成大量能源消耗與廢物排放,空氣質量問題日益突出,尤其是可吸入顆粒物(${\rm{P}}{{\rm{M}}_{2.5}}$)嚴重影響人體健康. 因此,空氣質量的精準預測對人們的生產、生活等具有重要的指導意義.

          目前對 ${\rm{P}}{{\rm{M}}_{2.5}}$ 的預測方法主要分為機理模型和非機理模型. 機理模型通過詳細的歷史氣象數據、化學初始條件以及邊界條件等數據信息模擬污染物從產生到擴散的物理化學過程,從而達到預測的目的. 機理模型對建模者本身的物理化學知識以及氣象歷史數據都有很高的要求,這導致普通研究者很難去實現,實際上我國現有的主要機理模型大都由中國氣象局等官方機構團體構建. 非機理模型主要指統計模型和機器學習模型. Tsai等[1]通過構造基于長短期記憶網絡(Long Short Term Memery,LSTM)的卷積神經網絡(Convolutional Neural Network,CNN)對臺北市未來4 h的 ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度進行了預測,用于訓練包含濕度、溫度、NO2質量濃度等信息的20維數據. 李穎若等[2]通過建立基于日照時長、降水量等氣象參數的多元線性回歸模型對北京市日均 ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度進行了預測. 曲悅等[3]通過建立BP神經網絡、CNN和LSTM對 ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度進行了預測,把不同高度的氣壓、風速等氣象數據分別作為影響因子輸入訓練. 目前學術界針對 ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度最佳的預測方法并無統一的共識,現有的研究大都通過構建 ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度與SO2、O3等污染物濃度以及氣溫、適度等氣象因素的關聯模型進行預測,而忽略了工業生產、燃料燃燒、交通運輸等“人為因素”對 ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度的影響. 在生活中,這些“人為因素”對 ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度的影響往往占據主導作用,而遺憾地是這些數據的測量與收集往往非常困難.實際上,${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度數據本身就“反映”了上述所有影響因子的作用,因此為深刻挖掘 ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度本身的變化規律,提出一種合適的單時間序列預測模型是一種非常有效的研究思路.

          建模者應當根據數據本身的特點來構造合適的預測模型. ${\rm{P}}{{\rm{M}}_{2.5}}$ 數據是一個混合線性非線性的復雜的時間序列,同時兼具周期性和波動性的特點. 自回歸積分滑動平均(Autoregressive Integrated Moving Average,ARIMA)模型是當今發展最為成熟的時間序列預測模型,對于捕捉數據的線性信息有獨特的優勢[4]. 支持向量機(Support Vector Machine,SVM)是基于結構風險最小化的一種機器學習方法[5],常用于非線性回歸領域. 針對 ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度數據混合線性非線性的特點,本文采用改進粒子群算法 (Improved Particle Swarm Optimization,IPSO)的ARIMA-SVM組合模型對北京市某站點 ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度數據進行了預測分析. 組合模型通過全面提取濃度數據的線性、非線性信息以達到減少預測誤差的目的[6]. 通過構建混合核SVM以及優化SVM參數尋優的PSO提高組合模型的性能.對提出的改進組合模型和IPSO單核組合模型、普通PSO(Normal Particle Swarm Optimization,NPSO)單核組合模型、NPSO雙核組合模型以及單一ARIMA模型進行了對比,仿真實驗結果表明了優化算法的有效性及可行性.

          • ARIMA模型是一種基于線性回歸思想的時間序列預測方法. ARIMA(p,d,q)模型的分析對象是平穩序列,若序列非平穩則通過d階差分的方法使其平穩. ARIMA模型通過線性方法進行定階. 在ARIMA的數學模型中,一般把時間序列在某時刻的值視為過去若干時間值與一組白噪聲的線性疊加. 即:

            ${y_t} = \sum\limits_{i = 1}^p {{\gamma _i}{y_{y - i}} + {\varepsilon _t} + \sum\limits_{i = 1}^q {{\theta _i}} } {\varepsilon _{t - i}},$

            式中, t為時間變量,${y_t}$ 是待分析的平穩時間序列,${\varepsilon _t}$ 為白噪聲序列. 通過對序列自相關系數圖以及偏自相關系數圖的觀察可以確定自回歸階數 $p$ 和移動平均階數 $q$,模型完成定階后,可確定系數 ${\gamma _i}$、${\theta _i}$.

            SVM最初被提出來用來解決分類問題,后來隨著理論的發展,通過非線性映射把數據映射到高維空間完成線性回歸,以此解決原來樣本空間的非線性回歸問題. 設訓練集 $\left\{ {{x_i},\left. {{y_i}} \right\}} \right._{i = 1}^n$,${x_i} \in {R^D}$,${y_i} \in R$,則SVM的回歸方程為:

            $f\left( x \right) = {{w}} \cdot \varphi (x) + b,$

            式中, ${{w}}$ 是權向量,$b$ 是擬合偏差,“·”表示內積,$f\left( x \right)$$x$ 的非線性函數,同時 $f\left( x \right)$ 又是 $\varphi \left( x \right)$ 的線性函數,這樣就把問題由原本空間的非線性回歸轉化為了高維空間的線性回歸. 為了減少計算量,引入核函數取代高維空間中的內積運算,將其轉化為原樣本空間運算,得到SVM的非線性擬合函數:

            $f\left( x \right) = \sum\limits_{i = 1}^n {\left( {{\alpha _i} - \left. {\alpha _i^*} \right)} \right.} K\left( {{x_i},{x_j}} \right),$

            式中, ${\alpha _i} - \alpha _i^*$ 為權值,根據Mercer定理 $K\left( {{x_i},{x_j}} \right)$ 為滿足 $K\left( {{x_i},{x_j}} \right) = \varphi \left( {{x_i}} \right)\varphi \left( {{x_j}} \right)$ 的核函數.

            ${\rm{P}}{{\rm{M}}_{2.5}}$ 濃度數據受多種因素影響,具有復雜的混合非線性的特點,對濃度數據進行ARIMA建??梢詳M合數據的線性趨勢,但是遺漏了數據的非線性信息. SVM模型可以對小樣本、非線性數據進行很好地預測. 因此,基于組合的思想,本文把在其他領域有著廣泛應用的ARIMA-SVM組合模型用來預測 ${\rm{P}}{{\rm{M}}_{2.5}}$ 濃度[7]. 具體做法是:首先對濃度數據 ${y_t}$ 進行ARIMA建模,得到預測結果 ${\mathop L\limits^ \wedge _t}$ 以及殘差 ${N_t} = {y_t} - {\mathop L\limits^ \wedge _t}$;再對殘差 ${N_t}$ 進行SVM建模得到殘差的預測結果 ${\mathop N\limits^ \wedge _t}$;把兩個模型的預測結果相加即得到ARIMA-SVM組合模型的預測結果:${\mathop y\limits^ \wedge _t} = {\mathop L\limits^ \wedge _t} + {\mathop N\limits^ \wedge _t}$. 組合模型的建模流程圖如圖1所示.

            圖  1  組合模型建模流程圖

            Figure 1.  Flow chart of combined model modeling

          • 選取不同的核函數可以構造不同的支持向量機. 常用的核函數有4種:徑向基核函數(Radial Basis Function,RBF),高斯核函數,$q$ 次多項式核函數和Sigmod核函數. 目前國內外對于利用SVM進行預測的研究中,大多數都是根據前人的研究結合自己的實際情況選擇RBF,這是因為大多數數據都可以近似服從高斯分布[8]. 就核函數的特性不同,可以把核函數大致分為兩類:局部核函數和全局核函數. 局部核函數有良好的學習能力,但泛化能力較弱. 全局核函數則相反. 常用的局部核函數有RBF,全局核函數則多選用多項式核函數[9-10]. 對于一個模型來說學習能力和泛化能力同樣重要,為了利用兩者的優點,本文基于組合的思想,將兩者線性組合起來得到混合核函數, 構造公式為:

            ${K_{{\rm{mix}}}} = \lambda {K_{{\rm{poly}}}} + (1 - \lambda ){K_{{\rm{rbf}}}},\;\;\lambda \in \left[ {0,1} \right],$

            ${K_{{\rm{poly}}}} = {\left[ {\left( {x \cdot {x_i}} \right) + 1} \right]^q},$

            ${K_{{\rm{rbf}}}} = \exp \left( { - \gamma {{\left\| {x - {x_i}} \right\|}^2}/{\sigma ^2}} \right),$

            其中, Kmix表示混合核函數, Krbf Kpoly 分別表示RBF和多項式核函數. Kmix需要滿足Mercer定理,核函數混合后多了一個需要尋優的參數 $\lambda $.

          • 在應用SVM回歸預測模型進行預測分析之前,需要確定懲罰系數C、核函數參數 $\sigma $ 、損失函數參數以及核函數的類型. 懲罰系數C過小會導致訓練誤差變大,過大會導致泛化能力變差,當使得最優解參數組合不唯一的時候,選擇C值較小的那組. $\varepsilon $ 表示模型容忍誤差的能力,代表擬合邊界的寬度,合適的 $\varepsilon $ 應該使盡可能多的樣本位于擬合邊界上. $\sigma $ 控制著SVM對輸入變量的敏感程度[11]. 因此,只有選擇合適的參數才能實現準確的預測. 為了取消參數選取的盲目性,采用粒子群尋優算法對參數進行優化選擇[12].

            PSO是基于粒子迭代尋找解空間的最優值的一種全局動態尋優計算方法[13],通過在每次迭代過程中追尋全局極值 ${P_{\rm{gbest}}}$ 和個體極值 ${P_{\rm{ibest}}}$ 來不斷地調整自己的位置與速度. 其迭代公式為:

            $\begin{split} V_i^{t + 1} = &w_i^{}V_i^t + {c_1}{r_1}\left( {P_{\rm{ibest}}^t - X_i^t} \right) + \\&{c_2}{r_2}\left( {P_{\rm{gbest}}^t - X_i^t} \right),\end{split}$

            $X_i^{t + 1} = X_i^t{\rm{ + }}V_i^{t + 1}.$

            式(7)為速度更新公式,(8)為位置更新公式,$w$ 稱為慣性因子,${c_1}$${c_2}$ 稱為加速常數,一般選取 ${c_1},{c_2} \in \left[ {0,4} \right]$. ${r_1},{r_2}$ 表示在0到1之間隨機的數值. 基于PSO的原理, $w$ 應該隨著搜索的進行而不斷減小. $w$ 的變化規律表示為:

            $w = {w_{\min }} + \frac{{\left( {{T_{\max }} - {T_i}} \right) \cdot \left( {{w_{\max }} - {w_{\min }}} \right)}}{{{T_{\max }}}},$

            式中,${w_{\max }}$、${w_{\min }}$ 分別為最大、最小慣性權重,${T_{\max }}$、${T_i}$ 分別為最大迭代次數和當前迭代次數.

            基本的PSO存在2個問題:①算法后期,粒子多集中在最優解的一邊導致粒子尋優速度下降,迭代速度變慢;②算法容易早熟,陷入局部最優解. 目前針對第1個問題,文獻[14]提出一種增加動量項的方法,使得后期的收斂速度加快,但改進的算法整體還存在粒子后期集中分布的問題,容易陷入局部最優解. 針對第2個問題,文獻[15]提出自適應慣性權重法,通過用余弦函數改變慣性權重在迭代前期以及迭代后期的數值避免早熟,但是這樣犧牲了后期的迭代速率. 為了同時克服兩者的不足,本文提出在自適應慣性權重的同時加入動量項的方法. 首先,在基本的PSO的速度更新公式中加入動量項:

            $V_i^{t + 1} = {w_i}V_i^t + \Delta v_i^t + \alpha \Delta v_i^{t - 1},$

            式中,$\alpha \Delta v_i^{t - 1}$ 為新引入的動量項,$\alpha $ 為動量因子,$\left| \alpha \right| \in \left[ {0,\left. 1 \right)} \right.$. 加入動量項的具體作用是:當 $\Delta v_i^t$ 于前一時刻的速度 $\Delta v_i^{t - 1}$ 同號時,在穩定調節的前提下,可以增加 $V_i^{t + 1}$ 的速度,使算法收斂速度加快;當 $\Delta v_i^t$ 與前一時刻符號相反的時候,說明此時算法存在一定的震蕩,通過減少速度修正量達到減少震蕩加快收斂的目的.

            接著,采用 $0\sim \pi $ 之間的余弦函數控制慣性權值的變化:

            $\begin{split} w =& [{{\left( {{w_{\max }} - {w_{\min }}} \right)} / 2}]\cos\left( {{{\pi {T_i}} / {{T_{\max }}}}} \right) + \\ &{{\left( {{w_{\max }} + {w_{\min }}} \right)} / 2}. \end{split} $

            改進后新的速度以及位置公式為:

            $ V_i^{t + 1} = {w_i}V_i^t + \Delta v_i^t + \alpha \Delta v_i^{t - 1}, $

            $X_i^{t + 1} = X_i^t{\rm{ + }}V_i^{t + 1},$

            式中, ${w_{\max }} = 0.95$ 既是慣性權重系數的最大值也是初始設定值,${w_{\min }} = 0.4$ 為慣性權重的最小值. 慣性權重 $w$ 可以使粒子保持本身的運動慣性,探索更廣闊的區域,這樣可以解決早熟的問題,但是一味地讓粒子進行全局搜索而推遲粒子進入局部搜索的時間會影響算法的搜索效率. 我們希望既能提高算法的效率又能解決早熟的問題. 基于此,提出用余弦函數解決上述的問題,根據余弦函數在 $\left[ {0,\pi } \right]$ 區間內函數性質,函數整體在這個區間內是遞減的和(9)式相對應,同時采用余弦函數自適應慣性權重滿足PSO中慣性權重初始在迭代初期較大在迭代尾期較小的要求. 當在區間剛開始的部分,函數值下降的比較慢有利于粒子群以高速進行全局搜索,不會使粒子群早早地轉入到局部搜索從而避免了早熟;在區間的尾部,根據余弦函數的性質,函數值的變化比較緩慢,影響收斂速率,但是由于我們在前面加了動量項,解決了這個問題.

          • 選擇能反應SVM性能的均方根函數 ${F_{{\rm{rmse}}}}$ 為目標函數:

            $\min {F_{{\rm{rmse}}}}\left( {C,\sigma ,\varepsilon ,\lambda } \right) \!=\! \sqrt {\frac{1}{n}\sum\limits_{i = 1}^n {{{\left[ {{y_i} - \varphi \left( {{x_i},C,\sigma ,\varepsilon ,\lambda } \right)} \right]}^2}} } .$

            則適應度函數為:

            ${F_{{\rm{fitness}}}} = {F_{{\rm{rmse}}}}\left( {C,\sigma ,\varepsilon ,\lambda } \right),$

            其中,$\varphi \left( {} \right)$ 為給定參數以及訓練樣本下得到的預測函數,$n$ 為訓練樣本的個數,${x_i}$ 為訓練樣本,${y_i}$ 為實際值,該算法輸入粒子的維數以及個數,輸出SVM的最佳參數組合 $\left( {C,\sigma ,\varepsilon ,\lambda } \right)$.

            基于IPSO的混合核SVM參數如圖2所示,優化流程算法步驟如下:

            圖  2  基于改進粒子群混合核SVM參數優化流程

            Figure 2.  SVM parameter optimization process based on IPSO hybrid kernel

            步驟1 初始化算法的參數 ${c_1},{c_2},w,\alpha $ ,粒子群規模和最大的迭代次數 ${T_{\max }}$. 隨機初始化SVM參數組合 $\left( {C,\sigma ,\varepsilon ,\lambda } \right)$ 在解的空間中的位置以及粒子初始速度和位置,設置粒子的最大速度 ${V_{\max }}$、慣性權重 $w$ 取值范圍以及SVM各參數的取值范圍.

            步驟2 將粒子的個體極值 ${P_{{\rm{ibest}}}}$ 設置為粒子當前的位置. 根據式(14)計算各個粒子的適應度值,取適應度最小的粒子的 ${P_{{\rm{ibest}}}}$ 作為開始的全局極值 ${P_{{\rm{gbest}}}}$.

            步驟3 根據公式(12)(13)重新確定粒子的速度以及位置,根據公式(14)確定新的適應度值,令 ${p_{{\rm{ipresent}}}} = {F_{{\rm{fitness}}}}$.

            步驟4 比較更新后的適應度值 ${p_{{\rm{ipresent}}}}$ 和粒子當前最優的 ${P_{{\rm{ibest}}}}$,若 ${p_{{\rm{ipresent}}}} > {P_{{\rm{ibest}}}}$,則更新 ${P_{{\rm{ibest}}}}$.

            步驟5 比較更新后的 ${p_{{\rm{ipresent}}}}$ 和全局最優解 ${P_{{\rm{gbest}}}}$. 若 ${p_{{\rm{ipresent}}}} > {P_{{\rm{gbest}}}}$,則更新 ${P_{{\rm{gbest}}}}$.

            步驟6 判斷收斂條件是否滿足,若滿足則輸出最優SVM參數組合,否則回到步驟2.

          • 本文選用2017年1月1日至2018年12月21日的北京市 ${\rm{P}}{{\rm{M}}_{2.5}}$ 日均質量濃度數據作為研究對象,數據來源于中國環境監測總站,共計720個樣本,選取前700個樣本作為訓練樣本進行算法模型的構建,后20個作為測試集,數據源自于一個變量的時間序列,所以無需考慮對數據進行標準化處理. 選取均方根誤差(Root-Mean-Square Error,RMSE)和平均絕對誤差(Mean Absolute Erro,MAE)作為模型的評價標準. RMSE適用于同一數據集不同模型間的比較,更符合本文的實際情況,所以本文評價以RMSE為主,RMSE和MAE的值分別定義如下:

            $v_{\rm{MAE}} = \frac{1}{n}\sum\limits_{i = 1}^n {\left| {\frac{{{y_i} - \mathop {{y_i}}\limits^ \wedge }}{{{y_i}}}} \right|} \times 100,$

            $v_{\rm{RMSE}} = \sqrt {\frac{1}{n}\sum\limits_{i = 1}^n {{{\left( {{y_i} - {{\mathop y\limits^ \wedge }_i}} \right)}^2}} }. $

          • 本文在R語言平臺上進行ARIMA建模. 圖3為2017年1月1日至2018年12月31日的 ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度變化圖,由圖3可以看出來原始的數據時間序列不符合零均值同方差的特征. 考慮到北京屬于北方城市,可以分為供暖期和非供暖期,供暖期的 ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度要高一點,從圖3中也可以看出2017年以及2018年年初的 ${\rm{P}}{{\rm{M}}_{2.5}}$ 比平時高一些,具有一定的趨勢,因此可以初步判斷出它是非平穩序列. 故對原始數據做一階差分處理如圖4所示,從圖4中可以看出,差分后的序列不具有季節性. 其檢測結果如表1所示,得出結果一階差分后的 ${\rm{P}}{{\rm{M}}_{2.5}}$ 時間序列是平穩的. 一階差分后的序列的自相關函數(Autocorrelation Function,ACF)圖如圖5所示,偏自相關函數(Partial Autocorrelation Function,PACF)圖如圖6所示. 可以看出PACF在滯后lag=1快速衰減進入置信區間,ACF在lag=3快速衰減入置信區間,自相關系數與偏自相關系數均顯示出不截尾的性質.這里模型定階為p=1,d=1,q=3,建立ARIMA(1,1,3)模型. 采用ARIMA(1,1,3)模型進行預測,預測的20 d數據如表2所示,對殘差白噪聲檢驗結果如表1中ling-Box統計量所示, $P > 0.05$,可認為殘差為隨機白噪聲序列,所建模型有效.

            ADF檢驗統計量ljung-Box統計量
            P延遲階數P
            14.437 0.01 8 0.090162 0.764

            表 1  ARIMA(1,1,3)模型統計量

            Table 1.  Model statistics of ARIMA(1,1,3)

            日期實際值ARMA殘差IPSO雙核SVM殘差預測組合預測
            2018-12-07 33.875 28.174 ? ? ?
            2018-12-08 34.000 38.227 ? ? ?
            2018-12-09 78.565 72.643 ? ? ?
            2018-12-10 79.292 75.334 ? ? ?
            2018-12-11 60.125 64.361 ? ? ?
            2018-12-12 58.391 49.743 8.648 1.073 50.816
            2018-12-13 43.625 46.324 ?2.699 ?5.484 40.109
            2018-12-14 70.254 62.875 7.379 4.838 67.713
            2018-12-15 119.583 103.376 16.207 ?1.592 101.784
            2018-12-16 125.125 107.671 17.454 ?2.780 104.891
            2018-12-17 45.364 40.567 4.797 1.618 42.185
            2018-12-18 57.417 51.371 6.046 1.912 53.283
            2018-12-19 62.458 51.452 11.006 2.689 54.141
            2018-12-20 90.390 83.872 6.518 ?2.303 81.569
            2018-12-21 81.947 76.644 5.303 ?2.726 73.918
            2018-12-22 48.625 60.034 ?11.409 ?1.698 58.336
            2018-12-23 40.696 51.681 ?10.985 ?2.410 49.271
            2018-12-24 30.254 37.567 ?7.313 ?1.094 36.473
            2018-12-25 29.667 32.577 ?2.910 ?1.597 30.980
            2018-12-26 57.333 64.625 ?7.292 1.715 66.310

            表 2  ${\rm{P}}{{\rm{M}}_{2.5}}$質量濃度實際值與預測值

            Table 2.  Actual value and prediction of PM2.5 concentration μg·m?3

            圖  3  2017年1月1日至2018年12月21日 ${\rm{P}}{{\rm{M}}_{2.5}}$質量濃度時序圖

            Figure 3.  Sequence diagram of ${\rm{P}}{{\rm{M}}_{2.5}}$ concentration from January 1, 2017 to December 21,2018

            圖  4  2017年1月1日至2018年12月21日 ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度一階差分時序圖

            Figure 4.  First-order different sequence diagram of ${\rm{P}}{{\rm{M}}_{2.5}}$ concentration from January 1,2017 to December 21, 2018

            圖  5  一階差分序列自相關系數(ACF)圖

            Figure 5.  Autocorrelation coefficient (ACF) of first order difference sequence

            圖  6  一階差分序列偏自相關系數(PACF)圖

            Figure 6.  Partial autocorrelation coefficient (PACF) of first order difference sequence

          • 計算 ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度的真實值與ARIMA預測結果的殘差序列 $\left\{ {{e_t}} \right\}$表2所示. 對序列 $\left\{ {{e_t}} \right\}$ 進行SVM建模,SVM的輸入節點取為5,實驗中初始化參數如下:${c_1} = 1.5, {c_2} = 1.7,\alpha = 0.4$,最大迭代次數 ${T_{\max }} = 300$,種群規模 $m = 20$,$w \in \left[ {0.4,0.95} \right]$,${V_{\max }} = 50$,$C \in \left[ {1,100} \right]$,$\varepsilon \in \left[ {0.001,10} \right]$,$\lambda \in \left[ {0.50,0.99} \right]$,$\sigma \in \left( {0,\left. {10} \right]} \right.$. 在訓練樣本下,結合改進的PSO算法可得到 $C = 23.24$,$\varepsilon = 0.250$,$\lambda = 0.623$,$\sigma = 0.847$. 模型的參數確定后,使用模型對殘差進行預測. 由于本文的輸入節點選為5,即以5個殘差數據作為輸入預測下一個殘差,表2中呈現了20 d的 ${\rm{P}}{{\rm{M}}_{2.5}}$質量濃度數據,其中后15 d為預測結果數據,從表2可以看出利用組合模型去預測其結果相較于單一ARIMA模型,預測誤差大幅減小.

          • 本文構建了IPSO單核SVM模型、IPSO雙核SVM模型、NPSO雙核SVM模型、NPSO單核SVM模型,使各個模型同時對ARIMA的預測結果殘差進行預測. 為了控制變量,同樣地選取SVM的輸入節點為5,其性能如表3所示.

            預測方法均方誤差/
            (μg·m?3
            迭代次數$C,\varepsilon ,\lambda ,\sigma /C,\varepsilon ,\sigma $
            IPSO雙核2.4833123.24,0.250,
            0.623,0.847
            IPSO單核3.6137522.56,0.286,0.741
            NPSO雙核3.8440427.69,0.301,0.619,0.833
            NPSO單核4.0442129.32,0.297,0.819

            表 3  不同優化方法的性能比較

            Table 3.  Performance comparison of different optimization methods

            表3可以看出,本文提出的基于IPSO雙核的SVM模型具有最好的預測精度以及最高的預測效率(迭代次數最?。? 進一步地,基于IPSO雙核SVM模型較IPSO單核模型均方根誤差降低了0.952 μg·m?3,NPSO雙核組合模型較NPSO單核模型均方根誤差降低了0.203 μg·m?3,證明了混合核函數SVM模型具有更好的尋優精度. 針對PSO的問題,本文提出了IPSO,由表3可知,IPSO雙核和單核SVM模型相較于NPSO雙核和單核模型均方根誤差分別降低了1.178 μg·m?3和0.429 μg·m?3,同時迭代次數分別降低了73次和46次,證明了本文所提出的IPSO相較于基本的PSO具有更好的尋優精度以及更高效的迭代速度.

          • 把基于不同優化方法的SVM模型得到的非線性殘差預測值與ARIMA線性預測值相加即為基于不同優化方式的各個組合模型的預測結果,各個組合模型的預測值與實際值的對比如圖7所示. 基于IPSO雙核組合模型與ARIMA單個模型預測對比如圖8所示,性能比較如表4所示.

            預測法RMSEMAE
            ARIMA 9.385 13.90
            IPSO混合核組合模型 2.665 4.22

            表 4  單一模型與組合模型的性能比較

            Table 4.  Performance comparison between single model and combined model

            圖  7  基于不同優化方法的組合模型 ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度預測對比圖

            Figure 7.  Comparison of ${\rm{P}}{{\rm{M}}_{2.5}}$ concentration prediction of combined models based on different optimization methods

            圖  8  IPSO雙核組合模型與ARIMA模型 ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度預測對比圖

            Figure 8.  Comparison of ${\rm{P}}{{\rm{M}}_{2.5}}$ concentration prediction between IPSO dual-core combined model and ARIMA model

            圖8表4可以看出,單一的ARIMA模型只能捕捉 ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度時間序列的線性部分信息,無法全面地刻畫其變化規律,因此在預測結果上自然出現了較大的偏差. 而組合模型彌補了單一模型的缺點,通過加入SVM模型去捕捉單一ARIMA模型所遺漏的非線性信息,使得組合模型的預測精度提高,較單一ARIMA模型均方根誤差降低了6.720 μg·m?3,說明組合模型能夠充分把握原始 ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度時間序列的信息,做出更精確的預測,避免了單一模型的局限性. 從表2表3可知改進的組合模型均方根誤差較未改進組合模型降低了1.741 μg·m?3 .由圖8也可以看出本文所提出的IPSO雙核優化的組合模型相較于其他優化方法的組合模型和實際值有著更好的逼近度,與上一節的結論相互驗證.

          • 本文以北京市某站點的 ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度數據為基礎,建立了ARIMA-SVM組合預測模型,并提出了一種改進粒子群和SVM混合核函數的組合模型優化方法,并通過實驗驗證.

            利用ARIMA模型捕捉 ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度時間序列的線性信息,隨后利用SVM模型捕捉序列的非線性信息,從而構建ARIMA-SVM組合預測模型.考慮到SVM模型的預測精度與其本身的參數以及核函數選取有關,提出了一種IPSO尋找最優參數以及采用混合核函數來替代單一核函數的方法提高組合模型的尋優精度.通過對15 d ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度的預測,驗證了本文提出的改進的組合模型的優越性.

            由實驗結果可以看出,單用ARIMA模型預測其結果誤差較大,本文提出的組合模型采用改進過的SVM模型對ARIMA模型的誤差進行預測分析,達到降低誤差的目的. 若能降低ARIMA模型的預測誤差,那相應的組合模型的誤差會進一步降低.未來考慮和遙感技術相結合,以 ${\rm{P}}{{\rm{M}}_{2.5}}$ 質量濃度為依據對北京市進行空間上的劃分,針對每個區域建立不同的ARIMA模型以達到降低預測誤差的目的.

        參考文獻 (15)

        目錄

          /

          返回文章
          返回