全文链接:http://tecdat.cn/?p=25348我们盘绕极值剖析技术中止一些咨询,辅佐客户处置共同的业务问题。 你们可能知道,实践极值剖析有两种常用措施:分块极大值Block-maxima、阈值超额法threshold excess (点击文末“阅读原文”获取完好代码数据******** )。 今天,我们将分别引见这两种措施。 分块极大值Block-maxima分块样本极大值的极值理论(Block-maxima)。这种对(时间)观测序列的极值建模的措施是基于在一定的恒定长度序列内应用这些观测值的最大值或最小值。关于足够多 的_n个已树立块,这__n_个等长块 的所得峰值 可用于将适合的散布拟合到这些数据。固然块大小基本上能够自由选择,但必须在倾向(小块)和方差(大块)之间中止权衡。通常,序列的长度通常选择对应于某个熟习的时间段,在大多数状况下为一年。年度最大值(或最小值)的结果向量称为“年度最大值(最小值)系列”或简称为 AMS。 依据 Fisher-Tippett-Gnedenko 定理,块最大值的散布能够经过广义极值散布来近似。 以下代码显现了一个简短的实践示例,该示例运用 R 将广义极值散布拟合到降水数据的时间序列。样本数据集包含 1971 年至 2014 年 降水数据 (查看文末了解数据获取方式) 。 # 加载所需的包 # 获取数据 prexts <- rehyd # 导出 AMS 以取得最大降水量 ams <- apprly # GEV 散布的最大似然拟合 evd # 诊断图 plot rl_mle <- reevel # 基于 L- 拟合 GEV 散布矩估量 # 诊断图 plot(fiom) # 重现水平: rm <- retvel # 重现水平图 plot loc <- as.numeric(retvel) # 带 LMOM 图的重现水平 loc <- as.numeric(return.level) 在这种状况下,两个结果十分相似。在大多数状况下,L 矩估量比最大似然估量更稳健。除了这些经典估量措施之外,还提供广义最大似然估量(GMLE, Martins 和 Stedinger,2000 年)和贝叶斯估量措施(Gilleland 和 Katz,2016 年)。 点击题目查阅往期内容 R言语POT超阈值模型和极值理论EVT剖析 左右滑动查看更多 01 02 03 04 阈值超额法threshold excess我们往常来看看阈值超额法。 依据 Coles (2001) 的说法,假如能够运用没有间隙的完好(时间)序列,则阈值措施比块最大值措施更有效,由于一切超越某个阈值的值都能够作为模型拟合的基础。在某些状况下,将散布拟合到块最大值数据是一种糜费的措施,由于每个块只需一个值用于建模,而阈值过剩措施可能会提供更多关于极端值的信息。 但是,相似于块最大值措施中块大小的选择,部分持续时间模型的阈值选择也遭到倾向(低阈值)和方差(高阈值)之间的权衡。 Coles (2001) 描画了两种不同的阈值选择措施。首先,有一种基于平均_残差_寿命图的探求性措施。该技术在实践模型拟合之前应用。其次,另一种措施是评价参数估量的稳定性。因而,模型拟合的这种敏理性剖析是在一系列不同的阈值范围内中止的。 但是,选择适合的阈值可能是运用部分持续时间序列执行极值剖析的最关键部分。Scarrott 和 MacDonald 在其 2012 年的文章。文献综述:极值阈值估量和不肯定性量化(REVSTAT 10(1): 33-59)中对阈值估量措施中止了很好的概述 。 找到适合的阈值后,超越该阈值的极值子集将用于拟合广义帕累托散布。 依据 Pickands-Balkema-de Haan 定理,超越阈值的值的散布能够近似为广义帕累托散布。 以下代码显现了一个简短的实践示例,该示例运用R将广义帕累托散布拟合到降水数据的时间序列。样本数据集以 1981 年至 2014 年降水数据为特征。 # 平均剩余寿命图: lplot(prects) # 平均剩余寿命图描画了阈值 (u) 与平均过剩流量。 # 这个想法是找到图简直是线性的最低阈值; # 思索到 95% 的置信范围。 # 在一系列阈值上拟合 GPD 模型 threplot(prxts) fitrange (prts) # 设置阈值 th <- 40 # 最大似然估量 pole <- fe # 诊断图 rl_mle <- retvel(po) # L-矩估量 d(as.vector(prmethod = "moments") # 诊断图 retel(pom) # 重现水平图 # 运用 MLE 的重现水平图 loc <- as.numeric # 带 LMOM 的重现水平图 plmom 这个例子很好地阐明了为什么基于 L 矩的措施可能优于最大似然估量,由于右图分明地证明了运用 L 矩估量时异常值的影响要小得多。除了这些经典估量措施之外,还提供广义最大似然估量(GMLE, Martins 和 Stedinger,2000 年)和贝叶斯估量措施(Gilleland 和 Katz,2016 年)。 在最近关于分块最大值法和阈值超额法的文章中,我们简单地假定了极值剖析的一切假定都得到了满足。但是,在处置环境变量时,状况很可能不是这样的。特别是平稳性的假定在很多状况下可能被违背。在全球气候变更的背景下,气候或其他环境变量的时间序列中很可能有一个相当大的趋向。当然,这种趋向必须被归入剖析中,由于由此产生的回归水平随时间而变更。 广义帕累托散布拟合下面的代码显现了一个简短的实践例子,即便用R对降水数据的时间序列中止广义帕累托散布的拟合。样本数据集是从1971年到2013年的降水数据。 # 推导出最大降水的AMS值 as <- apprly(preax) # 检查AMS的平稳性。 # 简单的线性模型 summary(lm) p <- ggplot 拟合线性模型的结果和图给人的印象都表明年最大降水量有上升趋向。Mann-Kendall趋向检验的结果是一个十分小的P值,证明了这一趋向。因而,必须中止趋向校正,以阐明随时间变更的回归水平。 # 最大似然估量 d( method = "MLE") # 重现水平图 plot(mend) 与前面的重现水平图(没有趋向)相比,这个重现水平图看起来有所不同。它显现的是5年和100年重现水平随时间的变更。 数据获取 在下面公众号后台回复 “降雨极值剖析数据” ,可获取完好数据。 本文摘选 《R言语极值剖析:分块极大值BLOCK-MAXIMA、阈值超额法THRESHOLD EXCESS、广义帕累托散布GPD拟合降雨数据时间序列》 ,点击“阅读原文”获取全文完好资料。 点击题目查阅往期内容 极值理论 EVT、POT超阈值、GARCH 模型剖析股票指数VaR、条件CVaR:多元化投资组合预测风险测度剖析 R言语POT超阈值模型和极值理论EVT剖析 R言语极值推断:广义帕累托散布GPD运用极大似然估量、轮廓似然估量、Delta法 R言语极值理论EVT:基于GPD模型的火灾损失散布剖析 R言语有极值(EVT)依赖结构的马尔可夫链(MC)对洪水极值剖析 R言语POT超阈值模型和极值理论EVT剖析 R言语混合正态散布极大似然估量和EM算法 R言语多项式线性模型:最大似然估量二次曲线 R言语Wald检验 vs 似然比检验 R言语GARCH-DCC模型和DCC(MVT)建模估量 R言语非参数措施:运用核回归平滑估量和K-NN(K近邻算法)分类预测心脏病数据 matlab完成MCMC的马尔可夫转换ARMA - GARCH模型估量 R言语基于Bootstrap的线性回归预测置信区间估量措施 R言语随机搜索变量选择SSVS估量贝叶斯向量自回归(BVAR)模型 Matlab马尔可夫链蒙特卡罗法(MCMC)估量随机动摇率(SV,Stochastic Volatility) 模型 Matlab马尔可夫区制转换动态回归模型估量GDP增长率R言语极值推断:广义帕累托散布GPD运用极大似然估量、轮廓似然估量、Delta法 |