弗兰克的R工作流

由约瑟夫•Rickert

弗兰克·哈勒尔的新的电子书,R工作流,它的目标是:“在可复制数据文档和操作、统计分析、图表和报告方面培养最佳实践”,这是一个雄心勃勃的文件,在多个层面上都引人注目。

首先,工作流本身不仅仅是逻辑步骤的简单进展。

可重复性研究工作流程示意图

这个工作流程显然是一位统计大师经过多年的试错而形成的。如图所示,该文档采用了统计分析的整体观点,包括文档准备、数据操作、统计实践计算问题等。

然后,有一个广泛的内容合成成一个简洁的,非常可读的阐述,在一些非常深入的主题。Frank的例子是分析和代码的简化演示,既复杂又实用。缺失的值部分建议通过仔细地展示图表进行一系列的分析,关于数据检查的部分引入了一种超出通常所做的自动化水平。

Frank的写作风格清晰、非正式,而且是从一个想要向你展示一些很酷的东西以及基础知识的老师的角度出发的。例如,不要错过如果技巧2.4.3节。

我得提一下,弗兰克的电子书不是tidyverse演示。代码示例是基于Frank的R基数构建的Hmisc而且rms软件包和折衷的软件包组合,其中包括data.table情节而且tidyverse而且ggplot2.在某种程度上,包的选择反映了R本身的演变。例如,与许多流行的R包一样,Hmisc很可能是弗兰克的私人工具然而,经过多年Frank对R的使用和R工具的贡献,其中包括70个版本的Hmisc19年来,一揽子计划已经成为一种基本资源。(看看相反的依赖、进口和建议。)此外,包含不同设计理念的包的混合R工作流反映了R语言的灵活性和R生态系统的有机增长。

也许这本电子书最引人注目的地方是弗兰克使用的方式四开knitr而且Hmisc构建一个优雅的可复制文档关于构建可复制文档。例如,四开允许在文档的右空白处有效地放置图四开插图的编号在3.4节中启用包含乳胶的特殊注意事项/pdf而且使用工具提示美人鱼嵌入到文档中而不中断其流程。此外,随着功能Hmisc: getHdata ()而且Hmisc: getRs ()四开通过直接从GitHub存储库提取数据和代码,使文档实现了高水平的可再现性。

不仅仅是弗兰克R工作流教你一些严肃的统计,但研究它的构造将使你在构建美观的可复制文档方面有很长的路要走。

Frank Harrell将于8月26日在即将到来的R /医学会议。

你可以在下面留言或者在论坛里讨论帖子community.英格兰vs伊朗让球rstudio.com