How I wasted this half year

Wei 发表于 2009-07-06 11:57:47

已经7月份了,简单总结一下,我的上半年基本上浪费在这样一个循环:找题目——尝试做题目——发现做不下去或意义不大——重新找题目。

1月份的时候认真考虑了导师去年给的问题,发现理论上有实质性的困难,没有多作挣扎就决定放弃,因为我本来就认为这个题目意义不大;然后自己构思了一个相关的题目,花了两个月左右的时间做了很多准备,觉得理论上是可行的;3月底开始着手细节的推导,发觉没有想象中容易,虽然理论上可以做,但没法得到简单的表达式;5月初,苦思冥想两昼夜后决定放弃这个看起来很美的题目;然后经过两周的头脑风暴,又选了一个新的题目,6月份回家的时候做了一点方法上的调整,这就是现在正在考虑的问题。

虽然没有做出一个题目,这半年还是有很多收获的:

1. 加深了对 semiparametric efficency 理论的理解,在做第二个题目的过程中梳理了一些 regularity conditions 之间的联系,有一种豁然开朗的感觉。

2. 2月份的时候把 Weak Convergence and Empirical Processes 这本书过了一遍,对经验过程理论有了个基本了解,本来是为第二个题目做准备的,没想到也是解决第三个问题的主要理论工具。

3. 上了 Optimization Theory and Techniques 这门课,对理解 semiparametric efficiency 和 variable selection 的理论基础都很有帮助。

4. 看了些 variable selection 的经典文章,入了个门,有了一些初步的想法。

5. 5月份的时候为第三个问题做准备,开始看非参估计的一些方法,主要是回归样条和光滑样条。

选择题目应该谨慎,因为题目本身就决定了这项研究能够达到的高度,一个不好的题目,花再多的力气,也得不到多少有价值的东西。我认为题目可以分四类:最好的题目是意义很大,难度不大;次之,意义很大,同时难度也很大;再次之,意义虽不大,却也不需花多少力气;最次的题目是意义不大,难度却很大,做这种题目简直就是浪费生命。而且,因为大多数PhD只做一个题目,这个题目不应太狭窄,最好有一定的跨度和覆盖率。例如,我考虑的第一个题目只用到了 semiparametric efficiency 一个方面的东西, 第二个题目 semiparametric efficiency 和 empirical process theory 都用到了, 第三个题目除了这两方面之外还加进去 missing data 和光滑函数估计,很好很强大。希望这个题目能做下去吧,否则接着又要写 How I wasted another half year 了。。。
收藏: QQ书签 del.icio.us 订阅: Google 抓虾

一个统计期刊的排名

Wei 发表于 2009-05-27 10:21:28

在 American Statistician 上看到一个统计期刊的排名:How Do Statisticians Perceive Statistics Journals? 这个排名完全是根据对统计学家的 survey 而来,似乎比依据影响因子的排名准确许多,至少前几名比较理所当然。Top 5 是 Journal of American Statistical Association, Biometrika, Annals of Statistics, Journal of the Royal Statistical Society Series B, 以及 Biometrics, 有点意外的是 Biometrika 排得这么高。不过就数理统计的小方向来看,排名依次是 AOS, JASA, Biometrika, JRSSB, 和 Annals of Probability, 还是比较准确的。
Rank Worldwide Biostatistics Mathematical Statistics
1 JASA JASA AOS
2 Biometrika Biometrics JASA
3 AOS Biometrika Biometrika
4 JRSSB JRSSB JRSSB
5 Biometrics AOS AOP
6 Technometrics Statistics in Medicine J. Multivariate Analysis
7 American Statistician Technometrics Biometrics
8 JRSSA JRSSA J. Stat. Plan. Infer.
9 Statistics in Medcine American Statistician Ann. Instit. Stat. Math.
10 AOP JRSSC Bernoulli
11 JRSSC Statistical Science Scandinavian J. Stat.
12 Statistical Science Biostatistics Statistical Science
13 Econometrica Scandinavian J. Stat. Technometrics
14 J. Multivariate Analysis Comm. Stat. Th. Meth. Econometrica
15 Comm. Stat. Th. Meth. Amer. J. Epidemiology Stat. Prob. Letters
16 Canadian J. Stat. Canadian J. Stat. Canadian J. Stat.
17 J. Stat. Plan. Infer. Econometrica American Statistician
18 Scandinavian J. Stat. J. Stat. Plan. Infer. Annals of Appl. Prob.
19 Annals of Appl. Prob. AOP Prob. Theory Rel. Fields
20 Statistica Sinica J. Comput. Graph. Stat. Comm. Stat. Th. Meth.
收藏: QQ书签 del.icio.us 订阅: Google 抓虾

关于TeX字体使用的一点评论

Wei 发表于 2009-05-06 16:03:59

很久没有折腾 TeX 的东西了,因为好像也没有什么可以折腾了,字体除外。字体问题的确是我对 TeX 最不满意的一点——能用的字体太少了,而且在免费的里面还没有一款满意的。当然,这里说的字体是指包括数学字体在内的一整套字体,而数学字体是其中最关键的。很多字体不错,也有免费的版本,但没有配套的数学字体,那也是没法用的,总不能只用 TeX 来写没有数学公式的文章吧。下面简单评论一下几种仅有的字体方案。

1. 老而不死是为贼:Computer Modern Roman
Computer Modern Roman Sample
TeX 原生的字体,很多人甚至不知道它叫什么名字,只知道它就是"TeX 的字体",因为在别的排版软件里根本就见不到它。正因为它是原生的,从理论上说它的数学字体是最完备的,跟正文结合得天衣无缝。因为是个最省事的选择,它从诞生之日起就占领了大部分用 TeX 排版的出版物。可惜它的缺点也是非常明显的:1) 笔画过细,使得页面黑度不够,容易引起视觉疲劳;2) 同样是笔画过细,在低分辨率的打印机上表现效果不佳,尤其是在 600 dpi 的打印机上经常出现断线现象,必须上 1200 dpi 才能表现出笔画细节;3) 因为黑度不足,在显示器尤其是液晶显示器上的效果不好,阅读很容易疲劳;4) 字体过宽,没有经济地使用页面空间,不易阅读之外又造成纸张的浪费。

使用这个字体的代表有美国数学会的一系列杂志,如 Bulletin of the AMS。

2. 经典的完美延续:Times New Roman + MathTime
Times New Roman + MathTime Sample
说 Times New Roman 是经典应该不会有人反对,这款诞生于 1931 年为《泰晤士报》量身定做的字体,因为其良好的可读性和醒目而不夸张的平实风格风靡至今。可惜 Knuth 当初开发 TeX 的时候并没有看上这套字体,而是另起炉灶,使得很长一段时间内这款字体并无配套的数学字体可用。当然,有 mathptmx 宏包,但那里面定义的数学字体只是东拼西凑而来,离形成一套成熟的字体还差得很远。还好,出现了几近完美的 MathTime, 唯一的缺点就是它不是免费的。这款字体由 Michael Spivak 设计,据他自己说,从开始只是想为自己写的书找一款满意的字体,到最后成为了一个字体设计专家,其过程之漫长,花费了他20多年的时间 (http://www.tug.org/pracjourn/2006-1/spivak/spivak.pdf)。这是套非常优秀的字体,是首选的字体方案。黑度适中,可读性良好,在低分辨率和高分辨率输出设备上效果相差不大。数学字体经过精心设计,有不少地方更胜 CMR 一筹,例如:在 CMR 中字母上面的短横要么用 \bar 要么用 \overline, 前者宽度固定,对大写 X 这样的字母就显得过窄,后者又太宽且没有随斜体字母而相应倾斜;在 MathTime 里面增加了 \wbar 和 \wwbar, 漂亮地解决了这个问题。此外还有"一体成型"的超大定界符,性感的波浪型花括号,很好地保持了前数字化时代的排版风貌,消除了 CMR 中的"数码味"。

使用这个字体的代表有 IMS 的一系列杂志,如 Annals of Statistics。

3. 混搭风:Palatino + MathTime
毋庸置疑,Hermann Zapf 大师设计的 Palatino 是一款经典字体,但同样无奈的是,没有配套的数学字体。Zapf 跟 Knuth 一起设计了完整的 Euler 字体 (采用直立的字符,怪异而几乎无用的字体),却没有为广受赞誉的 Palatino 锦上添花,实在可惜。不过,MathTime 的数学符号跟 Palatino 的黑度差不多,混搭也算合格。

使用这个混搭的有 Neural Computation。

4. 别有一番风味:Lucida
Lucida Sample
这是另一款商业字体,拥有完整的数学字体,数学部分的黑度比正文稍为淡一点,大算符不够醒目,但总体上说可读性不错。

使用这个字体的代表有 Notices of the AMS。
关键词(Tag): 字体 latex 排版 tex
收藏: QQ书签 del.icio.us 订阅: Google 抓虾

原来可以把这个blog加在MSN更新里的

Wei 发表于 2009-05-06 15:47:39

刚刚发现MSN的更新可以添加自定义RSS feed地址的,这样那边也能看到这边的更新了,圡了。
关键词(Tag): blog rss msn
收藏: QQ书签 del.icio.us 订阅: Google 抓虾

一些经验过程的文献

Wei 发表于 2009-02-18 17:50:26

最近先暂停一下研究的问题,先补一下经验过程的东西,否则做不深入。其实经验过程 (empirical processes) 的思想很简单,就是大数定律和中心极限定理在过程上的推广,这里指标集可以是任意的一类函数,推广后的大数定律和中心极限定理分别叫做 Glivenko-Cantelli 定理和 Donsker 定理,对应于中心极限定理里收敛到一个正态分布,Donsker 定理里则是收敛到一个高斯过程。技术层面上,为了处理非 Borel 可测的函数,需要用到和外测度对应的外概率和外期望,这对学过实分析的人来说,是很简单的。

最重要也是最完备的一本参考书是 van der Vaart 和 Wellner 的 Weak Convergence and Empirical Processes (Springer, 1996);其次是 Pollard 稍早一点的书 Empirical Processes: Theory and Applications (IMS, 1990). 这本书篇幅比较短 (不到100页),lecture 性质的;然后是 van der Vaart 的 Asymptotic Statistics 有一章 (Chapter 19) 对经验过程的简单介绍,van der Vaart 写的东西都很不错,不仅结果很一般,而且叙述充满观点,不像有些作者写到技术性的东西就开始堆砌公式;最后是一本新书, Kosorok 的 Introduction to Empirical Processes and Semiparametric Inference (Springer, 2008), 这本稍微浅一点,有点导论性质,但篇幅也相当长,个人感觉有时间读这本,还不如直接读 van der Vaart 和 Wellner 的那本了,不过毕竟是新书,有不少很新近的应用例子,这个很不错,另外它也介绍了半参推断包括 information bound 和 efficient estimation 的理论,但是感觉这部分明显比经验过程的部分写得粗糙,还不如直接读原著了,当然,这部分的应用例子也是不错的。

经验过程应该是未来若干年数理统计上主要依赖的工具,它实在是很好很强大,可惜的是很多统计系都还没有将它列入课程的教学范围,我们这里就更不用说了,只能自己看了。Jon Wellner 在 U of Washington 组织的 Empirical Processes Working Group 的网页可以参考:http://www.stat.washington.edu/jaw/COURSES/EPWG/w09.html.
收藏: QQ书签 del.icio.us 订阅: Google 抓虾

最冗长的献书

Wei 发表于 2009-02-14 15:21:16

上次说了最有创意的献书,最近不小心看到窃以为最为冗长的献书——Galen Shorack的Probability for Statisticians, 献书写了密密麻麻的两页,把爷爷奶奶外公外婆的所有后代都列了出来,还有简要生平,算是修族谱了。此人是Jon Wellner的导师。
关键词(Tag): 统计 概率论 献书
收藏: QQ书签 del.icio.us 订阅: Google 抓虾