分类数据,在R中称为“因子”数据,在数据争用中提出了独特的挑战。R用户经常看不起像Excel这样的工具,因为它会自动将变量强制为不正确的数据类型,但是R中的因子数据也会产生非常类似的问题。stringsAsFactors=HELLNO运动和标准的Tidyverse默认值使我们远离了因子的使用,但它们有时仍然是分析所必需的。本讲座将概述R中分类变量变换引起的常见问题,并展示使用base R和Tidyverse(特别是dplyr和forcats函数)避免这些问题的策略。
查看材料
(相关的论文从DSS集合)
麦克纳马拉博士是明尼苏达州圣保罗市圣托马斯大学计算机与信息科学系统计学助理教授。她在麦卡莱斯特学院获得英语和数学学士学位,在加州大学洛杉矶分校获得统计学博士学位。她的研究兴趣包括统计计算、统计教育、数据可视化和空间统计。
我们喜欢庆祝和帮助人们做伟大的数据科学。通过订阅,每当我们发布新内容时,你都会收到通知。
我们使用cookie,通过记住您在访问我们网站之间的偏好,为您带来最相关的体验。通过点击“接受全部”,您同意使用所有cookie。但是,您可以点击“Cookie设置”来选择您选择使用或避免使用的Cookie类型。