本文按照文献资料整理,以先容要领为主要目标。主要内容有:(1)整理了分位数回归的一些根基道理和要领;(2)归纳了用R语言处理惩罚分位数回归的措施,个中写了两个函数整合预计功效;(3)写了一个分位数解析函数来处理惩罚MM2005的解析进程;(4)利用一个数据集举办案例阐明,完整地揭示了阐明进程。
一节 分位数回归先容
(一)为什么需要分位数回归?
传统的线性回归模子描写了因变量的条件均值漫衍受自变量X的影响进程。个中,最小二乘法是预计回归系数的最根基要领。假如模子的随机误差项来自均值为零、方差沟通的漫衍,那么回归系数的最小二乘预计为较佳线性无偏预计(BLUE);假如随机误差项是正态漫衍,那么回归系数的最小二乘预计与极大似然预计一致,均为最小方差无偏预计(MVUL)。此时它具有无偏性、有效性等优良性质。
可是在实际的经济糊口中,这种假设凡是不可以或许满意。譬喻当数据中存在严重的异方差,或后尾、尖峰环境时,最小二乘法的预计将不再具有上述优良性质。为了补充普通最小二乘法(OLS)在回归阐明中的缺陷,1818年Laplace[2]提出了中位数回归(最小毛病预计)。在此基本上,1978年Koenker和Bassett[3]把中位数回归推广到了一般的分位数回归(Quantile Regression)上。
分位数回归相对付最小二乘回归,应用条件越发宽松,挖掘的信息越发富厚。它依据因变量的条件分位数对自变量X举办回归,这样获得了所有分位数下的回归模子。因此分位数回归对比普通的最小二乘回归,可以或许越发较准确第描写自变量X对因变量Y的变革范畴,以及条件漫衍形状的影响。
(二)一个简朴的分位数回归模子[4]
假设随机变量的漫衍函数为
(1)
Y的分位数的界说为满意
的最小
值,即
(2)
回归阐明的根基思想就是使样本值与拟合值之间的间隔最短,对付Y的一组随机样本,样本均值回归是使误差平方和最小,即
(3)
样本中位数回归是使误差值之和最小,即
(4)
样天地位数回归是使加权误差值之和最小,即
(5)
上式可等价暗示为:
个中,为查抄函数(check function),界说为:
个中,为指示函数(indicator function),z是条件干系式,当z为真时,
;当z为假时,
。同线性方程y=kx较量,
相当于直线的斜率k,可以看出,
为分段函数,如下图所示。
现假设因变量Y由k个自变量构成的矩阵X线性暗示,对付条件均值函数,通过求解(8)式获得参数预计值
对付条件分位数函数,通过求解(9)式获得参数预计值
式中,函数暗示取函数最小值时
的取值。
(三)分位数回归模子的参数预计较法
1、主要算法
(1)纯真形算法(Simplex Method)
Koenker和Orey[5](1993)把分两步办理最优化问题的纯真形算法[6]扩展到所有回归分位数中。该算法预计出来的参数具有很好的不变性,可是在处理惩罚大型数据时运算的速度会显著低落。
(2)内点算法(Interior Point Method)
由于纯真形算法在处理惩罚大型数据时效率低下,Karmarker提出了内点算法[7];Portnoy和Koenker把这种要领是用在分位数回归中,得出了处理惩罚大型数据时内点算法的运算速度远快于纯真形算法的结论。但内点算法每计较一步都要举办因数解析,当自变量较量多的时候效率较量低。其次,假如要到达和纯真形算法一样的精度,就必需举办舍入步调的计较,者也低落了算法的运行效率。
(3)滑腻算法(Smoothing Method)
上述两种算法都有各自的利益和不敷,而有限滑腻算法例是一种同时分身运算效率以及运算速度的要领。Chen把这种算法扩展到计较回归分位数中[8]。
2、R语言quantreg包中的假设检讨
加载quantreg包今后,利用summary()函数或summary.rq()函数,可以获得参数系数的一些假设检讨统计量。其实,以上两个函数是一致的。在利用summary()的时候,假如sumamry()加载的模子(工具)是分位数回归模子,则会自动挪用summary.rq()来处理惩罚这个工具。summary.rq()的挪用名目为
summary(object, se = NULL, covariance=FALSE, hs = TRUE, …)
个中主要参数有:
# object: 分位数回归工具,按照rq()函数等获得的功效。
# se: 用于计较参数预计值尺度差的要领,可以选取的值包罗:
– rank: 按照Koenker(1994)的秩检讨获得尺度差的预计值。默认环境下假定残差是听从独立同漫衍。假如增补另一个参数iid=FALSE,则回收Machado(1999)的要领计较尺度差(参数的写法:se=”rank”, iid=FALSE)。
– iid: (这个与上面提到的iid=FALSE差异,这里是参数se的一个取值,而上面的iid是一个逻辑参数)假定残差听从独立同漫衍,并凭据KB(1978)的要领计较残差。
– nid: 用sparsity算法计较的参数预计值尺度差。
– ker: 用Powell(1990)的核密度预计要领获得尺度差。
– boot: 回收bootstrap自助抽样的要领计较尺度差。
– 默认环境下,se=NULL且convariance=FALSE,尺度差的默认算法是se=”rank”;其他环境下,se默认值为”nid”。
# covariance: 逻辑参数,是否返回参数预计量的协方差矩阵。
差异参数的功效,可参看下面的措施案例。
(四)分位数解析(MM2005要领)[9]
我们可以进一步运用分位数解析法对各个影响因素举办解析阐明[10]。这里仅先容MM2005要领。
为讲授利便,这里以各因素对城乡家庭收入的影响为例,调查各个影响因素在差异分位数上对城乡家庭收入差此外影响度的巨细。这里先容Machado和Mata[11](2005)提出的分位数解析法,将每个分位数上的城乡收入差别解析为两个部门:一部门是由于城乡家庭劳动力特征的差异回报率引起的(即分位数回归参数的差异引起的,The Return Effects),譬喻城乡家庭劳动力在沟通的教诲水平、事情年限以及所处内地的经济成长程度沟通的特定因素下差异的回报率引起的家庭人均收入差别;另一部门是由于城乡家庭劳动力的特征变量漫衍差异引起的(即影响因素变量值的差异引起的,The Covariate Effect),城乡家庭人均收入这部门的差别会跟着样天职布的差异而略有变革。
操作Machado和Mata分位数解析要领的要害是举办反事实阐明(the counter-factual analysis),我们最体贴的一种反事实阐明就是,假如都市家庭劳动力凭据农村家庭劳动力的分位数回归参数抉择家庭人均收入的话,都市家庭的人均收入漫衍会如何?这里界说反事实漫衍为,个中
暗示影响都市家庭人均收入的变量漫衍,
暗示影响农村家庭人均收入的变量在每个分位数上的回归参数。
暗示假如都市家庭劳动力凭据农村家庭劳动力的分位数回归参数抉择家庭人均收入的话,都市家庭的反事实人均收入的巨细。
的详细计较步调为:(1)确定差异的分位点,别离暗示为
。(2)在农村家庭样本中,别离以
做分位数回归,获得
组分位数回归参数向量
。 (3)将都市家庭样本数据暗示为
。(4)把(2)中获得的分位数回归参数和(3)中获得得都市家庭子样本变量漫衍相团结,获得一个新的样本,即反事实漫衍样本
。
假定在τ分位数下都市家庭人均收入、反事实家庭人均收入和农村家庭人均收入别离为、
、
。则差异分位数下的城乡家庭人均收入漫衍差别可暗示为:
等式右边的第一项称为“回报影响(the return effect)”,它暗示在差异的分位数下,由于城乡家庭劳动力的出产回报率差异所导致的城乡差别部门;等式右边第二项成为“变量影响(the covariate effect)”,它暗示差异分位数下城乡家庭随机抽样的样本变量漫衍差异所导致的城乡差别部门。
(五)非线性分位数回归和非参数分位数回归
暂略。
第二节 用R语言举办分位数回归
(一)安装和加载包
R语言的根基包中没有举办分位数回归的措施包,故需要在官网下载并安装相应的措施包quantreg。在电脑上安装过quantreg包今后,下次不需要再次安装了。但每次利用分位数回归前,需要加载quantreg包。
(二)一个简朴的分位数回归模子及功效
#p#分页标题#e#
说明:① engel(1857)是考查食物支出与家庭收入之间干系的一个数据集,用函数head(engel)可以查察前六行的值:
#p#分页标题#e#
② 这里因变量为foodexp,即食物支出。自变量为income,即家庭收入。
– tau暗示计较50%分位点的参数,这里可以同时计较多个分位点的分位数回归功效,如tau=c(0.1,0.5,0.9)是同时计较10%、50%、90%分位数下的回归功效。
– data=engel指明这里处理惩罚的数据集为engel。
– method:举办拟合的要领,取值包罗:A. 默认值“br”,暗示 Barrodale & Roberts 算法的修改版;B. “fn”,针对大数据可以回收的Frisch–Newton内点算法;C. “pfn”,针对出格大数据,利用颠末预处理惩罚的Frisch–Newton迫近要领;D. “fnc”,针对被拟合系数非凡的线性不等式约束环境;E. “lasso”和“scad”,基于特定处罚函数的滑腻算法举办拟合。
③ 直接运行fit1,会获得简朴的计较功效,如:
④ 用summary()函数可以获得回归模子的具体功效,包罗系数和上下限。
#p#分页标题#e#
⑤ coef()函数获得的系数为向量形式,第一个元素为常数项的系数,第二个及今后为自变量的系数。
⑥ summary函数se参数的说明:
#p#分页标题#e#
A. se = “rank”: 凭据Koenker(1994)的排秩要领计较获得的置信区间,默认残差为独立同漫衍。留意的是,上下限是差池称的。
B. se=”iid”: 假设残差为独立同漫衍,用KB(1978)的要领计较获得近似的协方差矩阵。
C. se = “nid”: 暗示凭据Huber 要领迫近获得的预计量。
D. se=”ker”: 回收Powell(1990)的核预计要领。
E. se=”boot”: 回收bootstrap要领自助抽样的要领预计系数的误差尺度差。
(三)差异分位点下的回归功效较量
1、差异分为点系数预计值的较量
功效:
2、差异分位点拟合曲线的较量
3、穷人和富人的消费漫衍较量
上图暗示收入(income)为10%分位点处(poor,穷人)和90%分位点处(rich,富人)的食品支出的较量。从左图可以发明,对付穷人而言,在差异分位点预计的食品消费不同不
123下一页