A selective list of papers on variable selection

Wei 发表于 2009-11-14 11:48:55

1. 经典方法
Akaike (1973). Proc. 2nd International Symposium on Information Theory, pp. 267-281. "AIC"
Schwarz (1978). Ann. Statist. 6(2): 461-464. "BIC"

2. Lasso 路线
Tibshirani (1996). J. Roy. Statist. Soc. Ser. B 58: 267-288. "Lasso"
Knight and Fu (2000). Ann. Statist. 28: 1356-1378. "Asymptotics for Lasso"
Efron, Hastie, Johnstone and Tibshirani (2004). Ann. Statist. 32: 407-499. "LARS"
Zou (2006). J. Amer. Statist. Assoc. 101: 1418-1429. "Adaptive Lasso"

3. SCAD 路线
Fan and Li (2001). J. Amer. Statist. Assoc. 96: 1348-1360. "SCAD and the oracle property"
Fan and Peng (2004). Ann. Statist. 32: 928-961. "SCAD with diverging p"
Zou and Li (2008). Ann. Statist. 36: 1509-1533. "LLA"

4. Elastic Net 路线
Zou and Hastie (2005). J. Roy. Statist. Soc. Ser. B 67 301-320. "EN"
Zou and Zhang (2009). Ann. Statist. 37: 1733-1751. "Adaptive EN"

5. Dantzig Selector 路线
Candes and Tao (2007). Ann. Statist. 35: 2313-2351. "DS and nonasymptotics"
Bickel, Ritov and Tsybakov (2009). Ann. Statist. 37: 1705-1732. "Nonasymptotics for Lasso and DS"

6. Screening and preconditioning
Fan and Lv (2008). J. Roy. Statist. Soc. Ser. B 70: 849-911. "SIS"
Paul, Bair, Hastie and Tibshirani (2008). Ann. Statist. 36: 1595-1618. "Preconditioning"
Wasserman and Roeder (2009). Ann. Statist. 37: 2178-2201. "Screening-cleaning"

7. 综述
Hastie, Tibshirani and Friedman (2009). The Elements of Statistical Learning, 2nd ed., especially Chapters 3, 7 and 18.
Hesterberg, Choi, Meier and Fraley (2008). Statist. Surveys 2: 61-93. "Review for Lasso and LARS"
Fan and Lv (2010). Statist. Sinica 20: 101-148. "Review emphasizing SCAD and SIS"

历史上被引用最多的统计论文

Wei 发表于 2009-11-09 15:49:25

不记得在哪里看过一个说法,David Cox 那篇提出 proportional hazards model 的文章是历史上被引用次数最多的统计类论文。前几天由好奇心的驱使,在 SCI 的数据库里查证了一下这个说法,结果并非如此,这篇 1972 年发在 JRSSB 上的文章被引 24309 次,排在第二位,排第一的是 Kaplan 和 Meier 那篇提出 Kaplan-Meier estimator 的文章,被引 33732 次,提出 EM 算法的文章紧跟在后,这三篇文章的被引次数都超过了一万次。由于文章领域的界定问题,我只搜索了 JASA, AOS, JRSS 和 Biometrika 这四种最重要的统计期刊上的文章,按被引次数排序,其他相关期刊比如 Biometrics 和 Econometrica 上也有一些属于统计方法论的文章,被引次数也非常高,就被忽略了。以下是排名前十的文章:

1. EL Kaplan and P Meier. Nonparametric-estimation from incomplete observations. Journal of the American Statistical Association 53(282): 457-481, 1958. Cited: 33,732.

2. DR Cox. Regression models and life-tables. Journal of the Royal Statistical Society Series B 34(2): 187-220, 1972. Cited: 24,309.

3. AP Dempster, NM Laird, and DB Rubin. Maximum likelihood from incomplete data via EM algorithm. Journal of the Royal Statistical Society Series B 39(1): 1-38, 1977. Cited: 10,218.

4. G Schwarz. Estimating dimension of a model. Annals of Statistics 6(2): 461-464, 1978. Cited: 5,700.

5. KY Liang and SL Zeger. Longitudinal data-analysis using generalized linear-models. Biometrika 73(1): 13-22, 1986. Cited: 5,651.

6. Y Benjamini and Y Hochberg. Controlling the false discovery rate - a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society Series B 57(1): 289-300, 1995. Cited: 5,193.

7. CW Dunnett. A multiple comparison procedure for comparing several treatments with a control. Journal of the American Statistical Association 50(272): 1096-1121, 1955. Cited: 4,072.

8. GEP Box and DR Cox. An analysis of transformations. Journal of the Royal Statistical Society Series B 26(2): 211-252, 1964. Cited: 3,513.

9. SS Shapiro and MB Wilk. An analysis of variance test for normality (complete samples). Biometrika 52(3-4): 591-611, 1965. Cited: 3,215.

10. JH Ward. Hierarchical grouping to optimize an objective function. Journal of the American Statistical Association 58(301): 236-244, 1963. Cited: 3,146.

你都知道或者读过几篇呢?
关键词(Tag): 论文 引用 统计

我要沐浴焚香

Wei 发表于 2009-07-23 17:04:49

转载一篇超长但非常精彩的文章:学术会议高手速成之七种武器
http://weizhirong.spaces.live.com/blog/cns!F595B4D8257BEAA9!983.entry

尤其喜欢这段:
“所以我所要讲的最后一种武器,也不是拳头,而是爱。

”我刚进清华的时候因为被阴差阳错地分进了化工系而闷闷不乐,吃饭的时候碰到一位师兄于是抱怨自己对化工没有兴趣,他说兴趣是可以培养的,小孩刚生下来只对吃奶感兴趣,其他的都是后天培养的。

“我刚到美国的时候同实验室有一位印度老博士后,这位老印说他从前每个月都会掰着手指头计算自然和科学杂志是哪一天出版。到了那大喜的日子他会起一个大早沐浴薰香第一个冲进图书馆,捧着仍然带着墨香的杂志一口气从头读到尾,然后拍着桌子大叫一声爽!”

想起5年前的04年,我经常去复旦理图二楼东面的外文期刊阅览室,翻 Neural Computation 这本杂志,那心情就跟这印度哥们差不多。那时复旦图书馆只订了这本杂志的印刷版,没有订网络版,所以网上是看不到的,要看只能到阅览室去。我一边心潮澎湃地抚摸着那带着墨香的铜版纸,一边想自己哪天也能在这上面发篇文章啊。直到今年4月,这个梦想终于实现了。

明天,我要起个大早,沐浴焚香,到 Science and Engineering Library 一楼读 Annals of Statistics!

呃,有谁知道香在哪里买吗?
关键词(Tag): 学术 统计 沐浴 焚香

On readability of a statistical proof

Wei 发表于 2009-07-17 07:04:02

最近被一篇文章卡了很久,因为一直看不懂其中的一个关键证明。很多地方都语焉不详。比如一个地方说 “by the concavity of (some function) that”, 猜是用了 Jensen's inequality 吧,却怎么都凑不出来,其实只要写多一步中间步骤,也许就清楚多了;又比如,两个联立的非线性不等式,包含大O记号和和取大算符的,要解这两个不等式怎么看也不是 trivial 的,但文章只说了一句 "a few further calculations give us", 晕倒。

那么,一个好的证明应该是怎样的呢?一个理想的标准是让我能不落笔地看懂。所谓不落笔就是不用动笔就能看懂其逻辑关系,除去一些计算和化简必须得动笔的,但读了知道怎么算,只是暂时不去算,接受作者的结果,这不影响对证明思路的理解。有些数学分支可能没法达到这个理想的标准,但统计应该是可以的,因为大部分文章用的理论工具都是比较标准的,无非就是渐近展开、不等式等一些基本的概率和分析工具。

有几个方法可以增强证明的可读性:1) 给证明分段,有些作者很清晰地把长证明分成若干步骤,Step 1, Step 2, ..., 这样最好,即使不这样,在转入一个新的点之前,讲一句 "we now show that" 点出下面一段的目的,就很有帮助;2) 不要吝啬中间步骤,尤其是用了不等式的地方,写写清楚多好,何必让人猜迷;3) 慎用 "it is clear that", "by straightforward calculations", 你确定真的是 clear, straightforward 的吗?其实有些情况是作者自己也没搞清楚,只是在别处看到人家也得到了这么个结果就照搬过来了;4) 多用叙述性的语言阐述其思路,不要只是堆砌公式。
关键词(Tag): 不等式 统计 证明 易读性

How I wasted this half year

Wei 发表于 2009-07-06 11:57:47

已经7月份了,简单总结一下,我的上半年基本上浪费在这样一个循环:找题目——尝试做题目——发现做不下去或意义不大——重新找题目。

1月份的时候认真考虑了导师去年给的问题,发现理论上有实质性的困难,没有多作挣扎就决定放弃,因为我本来就认为这个题目意义不大;然后自己构思了一个相关的题目,花了两个月左右的时间做了很多准备,觉得理论上是可行的;3月底开始着手细节的推导,发觉没有想象中容易,虽然理论上可以做,但没法得到简单的表达式;5月初,苦思冥想两昼夜后决定放弃这个看起来很美的题目;然后经过两周的头脑风暴,又选了一个新的题目,6月份回家的时候做了一点方法上的调整,这就是现在正在考虑的问题。

虽然没有做出一个题目,这半年还是有很多收获的:

1. 加深了对 semiparametric efficency 理论的理解,在做第二个题目的过程中梳理了一些 regularity conditions 之间的联系,有一种豁然开朗的感觉。

2. 2月份的时候把 Weak Convergence and Empirical Processes 这本书过了一遍,对经验过程理论有了个基本了解,本来是为第二个题目做准备的,没想到也是解决第三个问题的主要理论工具。

3. 上了 Optimization Theory and Techniques 这门课,对理解 semiparametric efficiency 和 variable selection 的理论基础都很有帮助。

4. 看了些 variable selection 的经典文章,入了个门,有了一些初步的想法。

5. 5月份的时候为第三个问题做准备,开始看非参估计的一些方法,主要是回归样条和光滑样条。

选择题目应该谨慎,因为题目本身就决定了这项研究能够达到的高度,一个不好的题目,花再多的力气,也得不到多少有价值的东西。我认为题目可以分四类:最好的题目是意义很大,难度不大;次之,意义很大,同时难度也很大;再次之,意义虽不大,却也不需花多少力气;最次的题目是意义不大,难度却很大,做这种题目简直就是浪费生命。而且,因为大多数PhD只做一个题目,这个题目不应太狭窄,最好有一定的跨度和覆盖率。例如,我考虑的第一个题目只用到了 semiparametric efficiency 一个方面的东西, 第二个题目 semiparametric efficiency 和 empirical process theory 都用到了, 第三个题目除了这两方面之外还加进去 missing data 和光滑函数估计,很好很强大。希望这个题目能做下去吧,否则接着又要写 How I wasted another half year 了。。。

一个统计期刊的排名

Wei 发表于 2009-05-27 10:21:28

在 American Statistician 上看到一个统计期刊的排名:How Do Statisticians Perceive Statistics Journals? 这个排名完全是根据对统计学家的 survey 而来,似乎比依据影响因子的排名准确许多,至少前几名比较理所当然。Top 5 是 Journal of American Statistical Association, Biometrika, Annals of Statistics, Journal of the Royal Statistical Society Series B, 以及 Biometrics, 有点意外的是 Biometrika 排得这么高。不过就数理统计的小方向来看,排名依次是 AOS, JASA, Biometrika, JRSSB, 和 Annals of Probability, 还是比较准确的。
Rank Worldwide Biostatistics Mathematical Statistics
1 JASA JASA AOS
2 Biometrika Biometrics JASA
3 AOS Biometrika Biometrika
4 JRSSB JRSSB JRSSB
5 Biometrics AOS AOP
6 Technometrics Statistics in Medicine J. Multivariate Analysis
7 American Statistician Technometrics Biometrics
8 JRSSA JRSSA J. Stat. Plan. Infer.
9 Statistics in Medcine American Statistician Ann. Instit. Stat. Math.
10 AOP JRSSC Bernoulli
11 JRSSC Statistical Science Scandinavian J. Stat.
12 Statistical Science Biostatistics Statistical Science
13 Econometrica Scandinavian J. Stat. Technometrics
14 J. Multivariate Analysis Comm. Stat. Th. Meth. Econometrica
15 Comm. Stat. Th. Meth. Amer. J. Epidemiology Stat. Prob. Letters
16 Canadian J. Stat. Canadian J. Stat. Canadian J. Stat.
17 J. Stat. Plan. Infer. Econometrica American Statistician
18 Scandinavian J. Stat. J. Stat. Plan. Infer. Annals of Appl. Prob.
19 Annals of Appl. Prob. AOP Prob. Theory Rel. Fields
20 Statistica Sinica J. Comput. Graph. Stat. Comm. Stat. Th. Meth.