查看“︁分段回归”︁的源代码
←
分段回归
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
{{回归侧栏}} '''分段回归'''是一种[[回归分析]]方法,将自变量划为若干区间,并分别拟合出单独的线段。通过对各种自变量分区,也可以对多元数据进行分区回归分析。自变量聚类为不同组别时,这些区域的变量之间会表现出不同的关系,这时分段回归就非常有用。分段之间的界限就是间断点。 '''分段线性回归'''就是分段回归,通过[[线性回归]]得到区间内的关系。 ==2段线性回归== [[File:SegReg3.gif|thumb|300px|第一段水平]] [[File:SegReg1.gif|thumb|300px|第一段上升]] [[File:SegReg2.gif|thumb|300px|第一段下降]] 分2段线性回归的段间有1个间断点,可用来量化影响因素(x)变化的响应函数(Yr)的突然变化。间断点可解释为临界值、安全值或阈值,过该值会产生(非)预期效果。间断点对决策非常重要。<ref>''Frequency and Regression Analysis''. Chapter 6 in: H.P.Ritzema (ed., 1994), ''Drainage Principles and Applications'', Publ. 16, pp. 175-224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. {{ISBN|90-70754-33-9}} . Free download from the webpage [http://www.waterlog.info/articles.htm] {{Wayback|url=http://www.waterlog.info/articles.htm |date=20200805170344 }} , under nr. 20, or directly as PDF : [http://www.waterlog.info/pdf/regtxt.pdf] {{Wayback|url=http://www.waterlog.info/pdf/regtxt.pdf |date=20110722012618 }}</ref> 这些图表说明了可获得的一些结果和回归类型。 分段回归分析基于一组( '''y, x''' )数据,其中'''y'''是因变量,'''x'''是自变量。 [[最小二乘法]]分别适用于每个分段,通过这种方法,两条回归线可以分别拟合数据集,同时使因变量观测值(y)与计算值(Yr)之间的差值平方和(SSD)最小化: * Yr = A<sub>1</sub>.'''x''' + K<sub>1</sub> 其中'''x''' < BP(间断点) * Yr = A<sub>2</sub>.'''x''' + K<sub>2</sub> 其中'''x''' > BP(间断点) 其中<br> :Yr是一定值x下y的期望(预测)值; :A<sub>1</sub>、A<sub>2</sub>是[[回归系数]](表示线段斜率); :K<sub>1</sub>、K<sub>2</sub>是回归常数(表示y轴截距)。 数据可能显示多种类型或趋势,<ref>'' Drainage research in farmers' fields: analysis of data''. Part of project "Liquid Gold" of the International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Download as PDF : [http://www.waterlog.info/pdf/analysis.pdf] {{Wayback|url=http://www.waterlog.info/pdf/analysis.pdf |date=20110722011948 }}</ref>见图。 该方法还能得到2个[[皮尔逊积矩相关系数|相关系数]](R): *<math>R_1 ^ 2 = 1 - \frac{\sum (y - Y_r) ^ 2 }{ \sum (y - Y_{a1})^2}</math> 其中'''x''' < BP(间断点) 及 *<math>R_2 ^ 2 = 1 - \frac{\sum (y - Y_r) ^ 2 }{ \sum (y - Y_{a2})^2}</math> 其中'''x''' > BP(间断点) 其中<br> : <math> \sum (y - Y_r) ^2 </math>是每段的最小化SSD ,而 :<big>Y<sub>a1</sub></big>、<big>Y<sub>a2</sub></big>是各自区间y的均值。 在确定最合适的趋势时,必须进行[[统计检验]],以确保趋势可靠(显著)。 如果无法检测到明显的断点,则必须采用无断点回归。 ==例子== [[File:Mustard_segm_regr_least_squares.png|thumb|350px|分段线性回归,3b型]] 右边的蓝色图给出了芥菜产量(Yr = Ym, t/ha)和[[土壤盐化]]('''x''' = Ss,用土壤溶液导电率EC表示,单位为dS/m)之间的关系:<ref>R.J.Oosterbaan, D.P.Sharma, K.N.Singh and K.V.G.K.Rao, 1990, ''Crop production and soil salinity: evaluation of field data from India by segmented linear regression''. In: Proceedings of the Symposium on Land Drainage for Salinity Control in Arid and Semi-Arid Regions, February 25th to March 2nd, 1990, Cairo, Egypt, Vol. 3, Session V, p. 373 - 383.</ref> BP = 4.93, A<sub>1</sub> = 0, K<sub>1</sub> = 1.74, A<sub>2</sub> = −0.129, K<sub>2</sub> = 2.38, R<sub>1</sub><sup>2</sup> = 0.0035(不显著), R<sub>2</sub><sup>2</sup> = 0.395(显著),以及: * Ym = 1.74 t/ha 对于Ss < 4.93(断点) * Ym = −0.129 Ss + 2.38 t/ha 对于Ss > 4.93(断点) 表明土壤盐度< 4.93 dS/m是安全的,而土壤盐度> 4.93 dS/m则会使土壤盐度每增加一个单位减产0.129 t/ha。 下图还显示了置信区间和不确定性。 ==测试程序== [[File:CHAO.png|thumb|350px|时间序列实例,5型]] [[File:SegReg_Anova_Table.png|thumb|350px|ANOVA表示例:本例中引入断点非常重要。]] 以下统计检验用于确定趋势类型: # 将BP表示为回归系数A<sub>1</sub>、A<sub>2</sub>与y数据均值Y<sub>1</sub>、Y<sub>2</sub>,以及x数据均值X<sub>1</sub>、X<sub>2</sub>(BP的左右),利用加法和乘法的[[误差传播]]规律计算BP的[[标准差]](SE),并应用[[T检验]],从而确定断点(BP)的显著性 # 应用T分布和A<sub>1</sub>、A<sub>2</sub>的标准差SE,检验A<sub>1</sub>、A<sub>2</sub>的显著性 # 利用A<sub>1</sub>、A<sub>2</sub>差的SE,采用T分布检验差的显著性 # 利用Y<sub>1</sub>、Y<sub>2</sub>差的SE,运用T分布检验差的显著性 #检验是否有断点的一种更正式的统计方法是伪分数检验,无需估计分段线。<ref>{{Cite journal|last=Muggeo|first=VMR|date=2016|title=Testing with a nuisance parameter present only under the alternative: a score-based approach with application to segmented modelling|journal=Journal of Statistical Computation and Simulation|volume=86|issue=15|pages=3059–3067|doi=10.1080/00949655.2016.1149855|s2cid=124914264 |url=https://figshare.com/articles/journal_contribution/2747764/files/4428298.pdf}}</ref> 此外,还使用了所有数据的[[皮尔逊积矩相关系数|相关系数]](Ra)、[[决定系数]]或解释系数、回归函数的[[信赖区间]]及[[方差分析|ANOVA]]分析。<ref>''Statistical significance of segmented linear regression with break-point using variance analysis and F-tests''. Download from [http://www.waterlog.info/faqs.htm] {{Wayback|url=http://www.waterlog.info/faqs.htm |date=20180707230645 }} under nr. 13, or directly as PDF : [http://www.waterlog.info/pdf/anova.pdf] {{Wayback|url=http://www.waterlog.info/pdf/anova.pdf |date=20230606224257 }}</ref> 在显著性检验设定的条件下,所有数据的决定系数(Cd)应达到最大值,其计算公式为 *<math>C_d=1-{\sum (y-Y_r)^2\over\sum (y-Y_a)^2}</math> 其中Yr是根据前回归方程得出的'''y'''的预期(预测)值,Ya是所有'''y'''值的均值。 Cd系数介于0(完全没有解释)和1(完全解释,完全匹配)之间。<br> 在纯粹的非分段线性回归中,Cd=Ra<sup>2</sup>。在分段回归中,Cd要明显大于Ra<sup>2</sup>才能证明分段的合理性。 可找到断点的[[最优化|最优]]值,使Cd系数得[[极值|极大值]]。 ==无效应范围== [[File:Mustard_segm_regr_no_effect.png|thumb|right|350px|X=0到X=7.85之间没有影响的范围]] 分段回归常用于检测解释变量(X)对因变量(Y)无效应的范围。 无效应范围可能在X域的前部,也可能在后部。对于“无效应”分析,应用[[最小二乘法]]进行分段回归分析<ref>Segmented regression analysis, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Free download from the webpage [http://www.waterlog.info/segreg.htm] {{Wayback|url=http://www.waterlog.info/segreg.htm |date=20100213094246 }}</ref>可能不是最合适的技术,因为其目的是找到Y-X关系可被视为零斜率的最长延伸段,在之外,斜率与零有显著差异,但有关该斜率最佳值的知识并不重要。找到无效应范围的方法是对该范围进行渐进式部分回归<ref>Partial Regression Analysis, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Free download from the webpage [http://www.waterlog.info/partreg.htm] {{Wayback|url=http://www.waterlog.info/partreg.htm |date=20230715122719 }}</ref>,小步扩展范围,直到回归系数与零有显著差异。 在下图中,X=7.9时找到了断点,而对于相同的数据(芥菜产量见上图蓝色部分),最小二乘法仅在X=4.9时得到断点。后者的值较低,但对间断点以外数据的拟合效果更好。因此,采用哪种方法取决于分析的目的。 ==另见== * [[邹检验]] * [[简单线性回归]] * [[线性回归]] * [[普通最小二乘法]] * [[多元自适应回归样条]] * [[局部回归]] * [[断点回归]] * [[分步回归]] ==参考文献== <references /> [[Category:回归模型]]
该页面使用的模板:
Template:Cite journal
(
查看源代码
)
Template:ISBN
(
查看源代码
)
Template:Wayback
(
查看源代码
)
Template:回归侧栏
(
查看源代码
)
返回
分段回归
。
导航菜单
个人工具
登录
命名空间
页面
讨论
不转换
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
特殊页面
工具
链入页面
相关更改
页面信息