在统计机器学习研究中,基于K折交叉验证的AUC(Area Under ROC Curve)度量常常被用作分类算法性能的评价.然而,点估计显然没有考虑方差的信息,为此,基于正态假定的K折交叉验证t分布构造的AUC度量的通用对称置信区间(区间估计)被提出.但是...在统计机器学习研究中,基于K折交叉验证的AUC(Area Under ROC Curve)度量常常被用作分类算法性能的评价.然而,点估计显然没有考虑方差的信息,为此,基于正态假定的K折交叉验证t分布构造的AUC度量的通用对称置信区间(区间估计)被提出.但是,这些对称置信区间往往表现出低的置信度或长的区间长度,从而容易导致激进的(liberal)统计推断结果.通过对AUC度量的理论分析,发现AUC度量的真实分布实际上是非对称的,此时简单使用对称分布去近似它显然是不合适的.因此,针对二类分类问题,本文提出了一种新的基于K折交叉验证Beta分布的AUC度量的非对称置信区间,在模拟和真实数据实验上验证了提出的置信区间相对于传统的基于K折交叉验证t分布的对称置信区间的优越性.展开更多
已有研究多是对人口预期寿命直接进行分析,对于人口预期寿命置信区间的研究较少,尤其是对中国数据的研究更少。采用Chiang人口预期寿命方差方法和Lo et al.调整Chiang人口预期寿命方差方法(方法1、方法2和方法3),计算了2010年全国和各...已有研究多是对人口预期寿命直接进行分析,对于人口预期寿命置信区间的研究较少,尤其是对中国数据的研究更少。采用Chiang人口预期寿命方差方法和Lo et al.调整Chiang人口预期寿命方差方法(方法1、方法2和方法3),计算了2010年全国和各省份人口预期寿命95%置信区间。研究发现:4种方法计算人口预期寿命的置信区间存在一定的差异。人口总量较大时,年龄别死亡人数较多,方法2计算人口预期寿命的区间长度最大;人口总量较小时,年龄别死亡人数较少,方法3计算人口预期寿命的区间长度最大,需要谨慎评估人口预期寿命水平。由此可见,针对不同人口总量和死亡人数,选择合适的人口预期寿命区间计算方法是十分重要的。展开更多
Let X denote a discrete distribution as Poisson, binomial or negative binomial variable. The score confidence interval for the mean of X is obtained based on inverting the hypothesis test and the central limit theorem...Let X denote a discrete distribution as Poisson, binomial or negative binomial variable. The score confidence interval for the mean of X is obtained based on inverting the hypothesis test and the central limit theorem is discussed and recommended widely. But it has sharp downward spikes for small means. This paper proposes to move the score interval left a little (about 0.04 unit), called by moved score confidence interval. Numerical computation and Edgeworth expansion show that the moved score interval is analogous to the score interval completely and behaves better for moderate means;for small means the moved interval raises the infimum of the coverage probability and improves the sharp spikes significantly. Especially, it has unified explicit formulations to compute easily.展开更多
文摘在统计机器学习研究中,基于K折交叉验证的AUC(Area Under ROC Curve)度量常常被用作分类算法性能的评价.然而,点估计显然没有考虑方差的信息,为此,基于正态假定的K折交叉验证t分布构造的AUC度量的通用对称置信区间(区间估计)被提出.但是,这些对称置信区间往往表现出低的置信度或长的区间长度,从而容易导致激进的(liberal)统计推断结果.通过对AUC度量的理论分析,发现AUC度量的真实分布实际上是非对称的,此时简单使用对称分布去近似它显然是不合适的.因此,针对二类分类问题,本文提出了一种新的基于K折交叉验证Beta分布的AUC度量的非对称置信区间,在模拟和真实数据实验上验证了提出的置信区间相对于传统的基于K折交叉验证t分布的对称置信区间的优越性.
文摘已有研究多是对人口预期寿命直接进行分析,对于人口预期寿命置信区间的研究较少,尤其是对中国数据的研究更少。采用Chiang人口预期寿命方差方法和Lo et al.调整Chiang人口预期寿命方差方法(方法1、方法2和方法3),计算了2010年全国和各省份人口预期寿命95%置信区间。研究发现:4种方法计算人口预期寿命的置信区间存在一定的差异。人口总量较大时,年龄别死亡人数较多,方法2计算人口预期寿命的区间长度最大;人口总量较小时,年龄别死亡人数较少,方法3计算人口预期寿命的区间长度最大,需要谨慎评估人口预期寿命水平。由此可见,针对不同人口总量和死亡人数,选择合适的人口预期寿命区间计算方法是十分重要的。
文摘Let X denote a discrete distribution as Poisson, binomial or negative binomial variable. The score confidence interval for the mean of X is obtained based on inverting the hypothesis test and the central limit theorem is discussed and recommended widely. But it has sharp downward spikes for small means. This paper proposes to move the score interval left a little (about 0.04 unit), called by moved score confidence interval. Numerical computation and Edgeworth expansion show that the moved score interval is analogous to the score interval completely and behaves better for moderate means;for small means the moved interval raises the infimum of the coverage probability and improves the sharp spikes significantly. Especially, it has unified explicit formulations to compute easily.