直男码农居然用AI预测世界杯冠军,看完推理全程的我彻底懵逼了
|
虽然从机器学习的角度来说,数据仍然显得有些少,但仔细数一数,也有将近50个了(这个过程花了码叔整整3天啊~~~本来组里有个妹子发现我偷偷搞这个,硬要陪着我加班帮我搜集数据,我觉得她是个球盲,什么也不懂,很碍事,就让她先回家了,现在想想,我是不是错过了什么)。
说仔细一些,我发现进入历届世界杯八强的队伍,主要是欧洲和南美洲的球队,而中北美洲、非洲、亚洲的球队很少(在此鸣(bi)谢(shi)亚洲某世界杯四强队),因此我将大洲分为欧洲、南美洲和其他三种,使用one-hot编码(用三个特征,分别表示球队国家所在的大洲是否是欧洲、南美洲、其他大洲,是的话为1,否则为0,这样对每一个球队来说,这三个特征只有一个是1,其他两位都是0)。
我先计算了特征与得分之间的皮尔森系数,系数绝对值越大,说明特征与得分相关度越高,根据皮尔森系数,筛选出一些相关度比较高的特征进行建模。
训练模型方面,我用了现在使用较为广泛的随机森林模型。随机森林是一种集成学习算法。
如上图所示,随机森林是由很多棵决策树构成的一片“森林”,对于一个样本,“森林”中的每棵“树“都会给出自己的预测结果,然后所有“树”根据民主方式进行投票,决定最终预测结果。
例如在分类问题中,共有10棵树,8棵树预测为A,2棵树预测为B,则投票结果显示为A。
在训练模型时,因样本数量有限,我将每棵树深度设置的较浅,并且通过限制叶子节点的样本数目进行剪枝。
(编辑:宿州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |




