City of Randomness
How I wasted this half year
Wei 发表于 2009-07-06 11:57:47
已经7月份了,简单总结一下,我的上半年基本上浪费在这样一个循环:找题目——尝试做题目——发现做不下去或意义不大——重新找题目。
1月份的时候认真考虑了导师去年给的问题,发现理论上有实质性的困难,没有多作挣扎就决定放弃,因为我本来就认为这个题目意义不大;然后自己构思了一个相关的题目,花了两个月左右的时间做了很多准备,觉得理论上是可行的;3月底开始着手细节的推导,发觉没有想象中容易,虽然理论上可以做,但没法得到简单的表达式;5月初,苦思冥想两昼夜后决定放弃这个看起来很美的题目;然后经过两周的头脑风暴,又选了一个新的题目,6月份回家的时候做了一点方法上的调整,这就是现在正在考虑的问题。
虽然没有做出一个题目,这半年还是有很多收获的:
1. 加深了对 semiparametric efficency 理论的理解,在做第二个题目的过程中梳理了一些 regularity conditions 之间的联系,有一种豁然开朗的感觉。
2. 2月份的时候把 Weak Convergence and Empirical Processes 这本书过了一遍,对经验过程理论有了个基本了解,本来是为第二个题目做准备的,没想到也是解决第三个问题的主要理论工具。
3. 上了 Optimization Theory and Techniques 这门课,对理解 semiparametric efficiency 和 variable selection 的理论基础都很有帮助。
4. 看了些 variable selection 的经典文章,入了个门,有了一些初步的想法。
5. 5月份的时候为第三个问题做准备,开始看非参估计的一些方法,主要是回归样条和光滑样条。
选择题目应该谨慎,因为题目本身就决定了这项研究能够达到的高度,一个不好的题目,花再多的力气,也得不到多少有价值的东西。我认为题目可以分四类:最好的题目是意义很大,难度不大;次之,意义很大,同时难度也很大;再次之,意义虽不大,却也不需花多少力气;最次的题目是意义不大,难度却很大,做这种题目简直就是浪费生命。而且,因为大多数PhD只做一个题目,这个题目不应太狭窄,最好有一定的跨度和覆盖率。例如,我考虑的第一个题目只用到了 semiparametric efficiency 一个方面的东西, 第二个题目 semiparametric efficiency 和 empirical process theory 都用到了, 第三个题目除了这两方面之外还加进去 missing data 和光滑函数估计,很好很强大。希望这个题目能做下去吧,否则接着又要写 How I wasted another half year 了。。。
1月份的时候认真考虑了导师去年给的问题,发现理论上有实质性的困难,没有多作挣扎就决定放弃,因为我本来就认为这个题目意义不大;然后自己构思了一个相关的题目,花了两个月左右的时间做了很多准备,觉得理论上是可行的;3月底开始着手细节的推导,发觉没有想象中容易,虽然理论上可以做,但没法得到简单的表达式;5月初,苦思冥想两昼夜后决定放弃这个看起来很美的题目;然后经过两周的头脑风暴,又选了一个新的题目,6月份回家的时候做了一点方法上的调整,这就是现在正在考虑的问题。
虽然没有做出一个题目,这半年还是有很多收获的:
1. 加深了对 semiparametric efficency 理论的理解,在做第二个题目的过程中梳理了一些 regularity conditions 之间的联系,有一种豁然开朗的感觉。
2. 2月份的时候把 Weak Convergence and Empirical Processes 这本书过了一遍,对经验过程理论有了个基本了解,本来是为第二个题目做准备的,没想到也是解决第三个问题的主要理论工具。
3. 上了 Optimization Theory and Techniques 这门课,对理解 semiparametric efficiency 和 variable selection 的理论基础都很有帮助。
4. 看了些 variable selection 的经典文章,入了个门,有了一些初步的想法。
5. 5月份的时候为第三个问题做准备,开始看非参估计的一些方法,主要是回归样条和光滑样条。
选择题目应该谨慎,因为题目本身就决定了这项研究能够达到的高度,一个不好的题目,花再多的力气,也得不到多少有价值的东西。我认为题目可以分四类:最好的题目是意义很大,难度不大;次之,意义很大,同时难度也很大;再次之,意义虽不大,却也不需花多少力气;最次的题目是意义不大,难度却很大,做这种题目简直就是浪费生命。而且,因为大多数PhD只做一个题目,这个题目不应太狭窄,最好有一定的跨度和覆盖率。例如,我考虑的第一个题目只用到了 semiparametric efficiency 一个方面的东西, 第二个题目 semiparametric efficiency 和 empirical process theory 都用到了, 第三个题目除了这两方面之外还加进去 missing data 和光滑函数估计,很好很强大。希望这个题目能做下去吧,否则接着又要写 How I wasted another half year 了。。。
收藏:
QQ书签
del.icio.us
订阅:
Google
抓虾
一个统计期刊的排名
Wei 发表于 2009-05-27 10:21:28
在 American Statistician 上看到一个统计期刊的排名:How Do Statisticians Perceive Statistics Journals? 这个排名完全是根据对统计学家的 survey 而来,似乎比依据影响因子的排名准确许多,至少前几名比较理所当然。Top 5 是 Journal of American Statistical Association, Biometrika, Annals of Statistics, Journal of the Royal Statistical Society Series B, 以及 Biometrics, 有点意外的是 Biometrika 排得这么高。不过就数理统计的小方向来看,排名依次是 AOS, JASA, Biometrika, JRSSB, 和 Annals of Probability, 还是比较准确的。
| Rank | Worldwide | Biostatistics | Mathematical Statistics |
| 1 | JASA | JASA | AOS |
| 2 | Biometrika | Biometrics | JASA |
| 3 | AOS | Biometrika | Biometrika |
| 4 | JRSSB | JRSSB | JRSSB |
| 5 | Biometrics | AOS | AOP |
| 6 | Technometrics | Statistics in Medicine | J. Multivariate Analysis |
| 7 | American Statistician | Technometrics | Biometrics |
| 8 | JRSSA | JRSSA | J. Stat. Plan. Infer. |
| 9 | Statistics in Medcine | American Statistician | Ann. Instit. Stat. Math. |
| 10 | AOP | JRSSC | Bernoulli |
| 11 | JRSSC | Statistical Science | Scandinavian J. Stat. |
| 12 | Statistical Science | Biostatistics | Statistical Science |
| 13 | Econometrica | Scandinavian J. Stat. | Technometrics |
| 14 | J. Multivariate Analysis | Comm. Stat. Th. Meth. | Econometrica |
| 15 | Comm. Stat. Th. Meth. | Amer. J. Epidemiology | Stat. Prob. Letters |
| 16 | Canadian J. Stat. | Canadian J. Stat. | Canadian J. Stat. |
| 17 | J. Stat. Plan. Infer. | Econometrica | American Statistician |
| 18 | Scandinavian J. Stat. | J. Stat. Plan. Infer. | Annals of Appl. Prob. |
| 19 | Annals of Appl. Prob. | AOP | Prob. Theory Rel. Fields |
| 20 | Statistica Sinica | J. Comput. Graph. Stat. | Comm. Stat. Th. Meth. |
收藏:
QQ书签
del.icio.us
订阅:
Google
抓虾
关于TeX字体使用的一点评论
Wei 发表于 2009-05-06 16:03:59
很久没有折腾 TeX 的东西了,因为好像也没有什么可以折腾了,字体除外。字体问题的确是我对 TeX 最不满意的一点——能用的字体太少了,而且在免费的里面还没有一款满意的。当然,这里说的字体是指包括数学字体在内的一整套字体,而数学字体是其中最关键的。很多字体不错,也有免费的版本,但没有配套的数学字体,那也是没法用的,总不能只用 TeX 来写没有数学公式的文章吧。下面简单评论一下几种仅有的字体方案。
1. 老而不死是为贼:Computer Modern Roman

TeX 原生的字体,很多人甚至不知道它叫什么名字,只知道它就是"TeX 的字体",因为在别的排版软件里根本就见不到它。正因为它是原生的,从理论上说它的数学字体是最完备的,跟正文结合得天衣无缝。因为是个最省事的选择,它从诞生之日起就占领了大部分用 TeX 排版的出版物。可惜它的缺点也是非常明显的:1) 笔画过细,使得页面黑度不够,容易引起视觉疲劳;2) 同样是笔画过细,在低分辨率的打印机上表现效果不佳,尤其是在 600 dpi 的打印机上经常出现断线现象,必须上 1200 dpi 才能表现出笔画细节;3) 因为黑度不足,在显示器尤其是液晶显示器上的效果不好,阅读很容易疲劳;4) 字体过宽,没有经济地使用页面空间,不易阅读之外又造成纸张的浪费。
使用这个字体的代表有美国数学会的一系列杂志,如 Bulletin of the AMS。
2. 经典的完美延续:Times New Roman + MathTime

说 Times New Roman 是经典应该不会有人反对,这款诞生于 1931 年为《泰晤士报》量身定做的字体,因为其良好的可读性和醒目而不夸张的平实风格风靡至今。可惜 Knuth 当初开发 TeX 的时候并没有看上这套字体,而是另起炉灶,使得很长一段时间内这款字体并无配套的数学字体可用。当然,有 mathptmx 宏包,但那里面定义的数学字体只是东拼西凑而来,离形成一套成熟的字体还差得很远。还好,出现了几近完美的 MathTime, 唯一的缺点就是它不是免费的。这款字体由 Michael Spivak 设计,据他自己说,从开始只是想为自己写的书找一款满意的字体,到最后成为了一个字体设计专家,其过程之漫长,花费了他20多年的时间 (http://www.tug.org/pracjourn/2006-1/spivak/spivak.pdf)。这是套非常优秀的字体,是首选的字体方案。黑度适中,可读性良好,在低分辨率和高分辨率输出设备上效果相差不大。数学字体经过精心设计,有不少地方更胜 CMR 一筹,例如:在 CMR 中字母上面的短横要么用 \bar 要么用 \overline, 前者宽度固定,对大写 X 这样的字母就显得过窄,后者又太宽且没有随斜体字母而相应倾斜;在 MathTime 里面增加了 \wbar 和 \wwbar, 漂亮地解决了这个问题。此外还有"一体成型"的超大定界符,性感的波浪型花括号,很好地保持了前数字化时代的排版风貌,消除了 CMR 中的"数码味"。
使用这个字体的代表有 IMS 的一系列杂志,如 Annals of Statistics。
3. 混搭风:Palatino + MathTime
毋庸置疑,Hermann Zapf 大师设计的 Palatino 是一款经典字体,但同样无奈的是,没有配套的数学字体。Zapf 跟 Knuth 一起设计了完整的 Euler 字体 (采用直立的字符,怪异而几乎无用的字体),却没有为广受赞誉的 Palatino 锦上添花,实在可惜。不过,MathTime 的数学符号跟 Palatino 的黑度差不多,混搭也算合格。
使用这个混搭的有 Neural Computation。
4. 别有一番风味:Lucida

这是另一款商业字体,拥有完整的数学字体,数学部分的黑度比正文稍为淡一点,大算符不够醒目,但总体上说可读性不错。
使用这个字体的代表有 Notices of the AMS。
1. 老而不死是为贼:Computer Modern Roman

TeX 原生的字体,很多人甚至不知道它叫什么名字,只知道它就是"TeX 的字体",因为在别的排版软件里根本就见不到它。正因为它是原生的,从理论上说它的数学字体是最完备的,跟正文结合得天衣无缝。因为是个最省事的选择,它从诞生之日起就占领了大部分用 TeX 排版的出版物。可惜它的缺点也是非常明显的:1) 笔画过细,使得页面黑度不够,容易引起视觉疲劳;2) 同样是笔画过细,在低分辨率的打印机上表现效果不佳,尤其是在 600 dpi 的打印机上经常出现断线现象,必须上 1200 dpi 才能表现出笔画细节;3) 因为黑度不足,在显示器尤其是液晶显示器上的效果不好,阅读很容易疲劳;4) 字体过宽,没有经济地使用页面空间,不易阅读之外又造成纸张的浪费。
使用这个字体的代表有美国数学会的一系列杂志,如 Bulletin of the AMS。
2. 经典的完美延续:Times New Roman + MathTime

说 Times New Roman 是经典应该不会有人反对,这款诞生于 1931 年为《泰晤士报》量身定做的字体,因为其良好的可读性和醒目而不夸张的平实风格风靡至今。可惜 Knuth 当初开发 TeX 的时候并没有看上这套字体,而是另起炉灶,使得很长一段时间内这款字体并无配套的数学字体可用。当然,有 mathptmx 宏包,但那里面定义的数学字体只是东拼西凑而来,离形成一套成熟的字体还差得很远。还好,出现了几近完美的 MathTime, 唯一的缺点就是它不是免费的。这款字体由 Michael Spivak 设计,据他自己说,从开始只是想为自己写的书找一款满意的字体,到最后成为了一个字体设计专家,其过程之漫长,花费了他20多年的时间 (http://www.tug.org/pracjourn/2006-1/spivak/spivak.pdf)。这是套非常优秀的字体,是首选的字体方案。黑度适中,可读性良好,在低分辨率和高分辨率输出设备上效果相差不大。数学字体经过精心设计,有不少地方更胜 CMR 一筹,例如:在 CMR 中字母上面的短横要么用 \bar 要么用 \overline, 前者宽度固定,对大写 X 这样的字母就显得过窄,后者又太宽且没有随斜体字母而相应倾斜;在 MathTime 里面增加了 \wbar 和 \wwbar, 漂亮地解决了这个问题。此外还有"一体成型"的超大定界符,性感的波浪型花括号,很好地保持了前数字化时代的排版风貌,消除了 CMR 中的"数码味"。
使用这个字体的代表有 IMS 的一系列杂志,如 Annals of Statistics。
3. 混搭风:Palatino + MathTime
毋庸置疑,Hermann Zapf 大师设计的 Palatino 是一款经典字体,但同样无奈的是,没有配套的数学字体。Zapf 跟 Knuth 一起设计了完整的 Euler 字体 (采用直立的字符,怪异而几乎无用的字体),却没有为广受赞誉的 Palatino 锦上添花,实在可惜。不过,MathTime 的数学符号跟 Palatino 的黑度差不多,混搭也算合格。
使用这个混搭的有 Neural Computation。
4. 别有一番风味:Lucida

这是另一款商业字体,拥有完整的数学字体,数学部分的黑度比正文稍为淡一点,大算符不够醒目,但总体上说可读性不错。
使用这个字体的代表有 Notices of the AMS。
收藏:
QQ书签
del.icio.us
订阅:
Google
抓虾
原来可以把这个blog加在MSN更新里的
Wei 发表于 2009-05-06 15:47:39
刚刚发现MSN的更新可以添加自定义RSS feed地址的,这样那边也能看到这边的更新了,圡了。
收藏:
QQ书签
del.icio.us
订阅:
Google
抓虾
一些经验过程的文献
Wei 发表于 2009-02-18 17:50:26
最近先暂停一下研究的问题,先补一下经验过程的东西,否则做不深入。其实经验过程 (empirical processes) 的思想很简单,就是大数定律和中心极限定理在过程上的推广,这里指标集可以是任意的一类函数,推广后的大数定律和中心极限定理分别叫做 Glivenko-Cantelli 定理和 Donsker 定理,对应于中心极限定理里收敛到一个正态分布,Donsker 定理里则是收敛到一个高斯过程。技术层面上,为了处理非 Borel 可测的函数,需要用到和外测度对应的外概率和外期望,这对学过实分析的人来说,是很简单的。
最重要也是最完备的一本参考书是 van der Vaart 和 Wellner 的 Weak Convergence and Empirical Processes (Springer, 1996);其次是 Pollard 稍早一点的书 Empirical Processes: Theory and Applications (IMS, 1990). 这本书篇幅比较短 (不到100页),lecture 性质的;然后是 van der Vaart 的 Asymptotic Statistics 有一章 (Chapter 19) 对经验过程的简单介绍,van der Vaart 写的东西都很不错,不仅结果很一般,而且叙述充满观点,不像有些作者写到技术性的东西就开始堆砌公式;最后是一本新书, Kosorok 的 Introduction to Empirical Processes and Semiparametric Inference (Springer, 2008), 这本稍微浅一点,有点导论性质,但篇幅也相当长,个人感觉有时间读这本,还不如直接读 van der Vaart 和 Wellner 的那本了,不过毕竟是新书,有不少很新近的应用例子,这个很不错,另外它也介绍了半参推断包括 information bound 和 efficient estimation 的理论,但是感觉这部分明显比经验过程的部分写得粗糙,还不如直接读原著了,当然,这部分的应用例子也是不错的。
经验过程应该是未来若干年数理统计上主要依赖的工具,它实在是很好很强大,可惜的是很多统计系都还没有将它列入课程的教学范围,我们这里就更不用说了,只能自己看了。Jon Wellner 在 U of Washington 组织的 Empirical Processes Working Group 的网页可以参考:http://www.stat.washington.edu/jaw/COURSES/EPWG/w09.html.
最重要也是最完备的一本参考书是 van der Vaart 和 Wellner 的 Weak Convergence and Empirical Processes (Springer, 1996);其次是 Pollard 稍早一点的书 Empirical Processes: Theory and Applications (IMS, 1990). 这本书篇幅比较短 (不到100页),lecture 性质的;然后是 van der Vaart 的 Asymptotic Statistics 有一章 (Chapter 19) 对经验过程的简单介绍,van der Vaart 写的东西都很不错,不仅结果很一般,而且叙述充满观点,不像有些作者写到技术性的东西就开始堆砌公式;最后是一本新书, Kosorok 的 Introduction to Empirical Processes and Semiparametric Inference (Springer, 2008), 这本稍微浅一点,有点导论性质,但篇幅也相当长,个人感觉有时间读这本,还不如直接读 van der Vaart 和 Wellner 的那本了,不过毕竟是新书,有不少很新近的应用例子,这个很不错,另外它也介绍了半参推断包括 information bound 和 efficient estimation 的理论,但是感觉这部分明显比经验过程的部分写得粗糙,还不如直接读原著了,当然,这部分的应用例子也是不错的。
经验过程应该是未来若干年数理统计上主要依赖的工具,它实在是很好很强大,可惜的是很多统计系都还没有将它列入课程的教学范围,我们这里就更不用说了,只能自己看了。Jon Wellner 在 U of Washington 组织的 Empirical Processes Working Group 的网页可以参考:http://www.stat.washington.edu/jaw/COURSES/EPWG/w09.html.
收藏:
QQ书签
del.icio.us
订阅:
Google
抓虾
