缺失数据别怕!这里有份强大的初学者指南
发布时间:2019-08-16 18:00:02 所属栏目:教程 来源:读芯术
导读:副标题#e# 实际上,数据科学家80%到90%的工作是数据清理,而这项工作的目的是为了执行其余10%的机器学习任务。没有什么比完成数据集分析后的收获更让人兴奋的了。如何减少清理数据的时间?如何为至关重要的10%的工作保留精力? 根据很多专业人士的经验,对数
在Python中:
线性回归的缺点:
KNN(K-近邻算法) 这是一种广泛用于缺失数据插补的模型。它被广泛使用的原因是它可以处理连续数据和分类数据。 此模型是一种非参数方法,可将数据分类到最近的重度加权邻居。用于连续变量的距离是欧几里德,对于分类数据,它可以是汉明距离(Hamming Distance)。在下面的例子中,绿色圆圈是Y.它和红色三角形划分到一起而不是蓝色方块,因为它附近有两个红色三角形。 图片来自维基百科:KNN
KNN的缺点:
多重插补 多个插补或MICE算法通过运行多个回归模型来工作,并且每个缺失值均根据观察到(非缺失)的值有条件地建模。多次估算的强大之处在于它可估算连续,二进制,无序分类和有序分类数据的混合。 多重插补的步骤是:
(编辑:宿州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
推荐文章
站长推荐