大数据人官方②群

大数据人|中国大数据第一社区

 找回密码
 注册会员

扫一扫,访问微社区

每逢春节被逼婚?来看看数据科学家的相亲指南

2017-2-2 18:51| 发布者: admin| 查看: 1082| 评论: 0|来自: 百分点

摘要: 春节是个不可逃避的“相亲季节”,数据科学家给你支招,建个模型,帮你找到 男神、女神呢 ?

春节是个不可逃避的“相亲季节”,数据科学家给你支招,建个模型,帮你找到 男神、女神呢 ?

也许你会说,圈子小、太宅、不善沟通、梦中那个他\她和现实不搭,其实这都是借口 。

从概率学来说,机会对每个人都是均等的,那个和你擦肩而过的她,只怪你没抓住 !

恋爱结婚是大多数人都要经历的,对男神、女神都有自己的一套描绘。相亲网站上的各种择偶标准,实际上就是标签,最终在你的头脑中生成一个画像。 

女神是这个样子的……

男神应该长这样……

但是你真的想多了,快醒醒吧!

具体什么样的才匹配你,“门当户对”还是有科学道理的。

就是互相打分、建模的过程

如何用科学的方法来解决这个问题呢? 这就需要利用数据建模来综合打分。比如 维度包括:地区、职业、收入、年龄、财务状况、身高、气质、性格、家庭条件等。

本文以我们我们的数据科学家为例。

数据科学家建模流程 

1.数据科学家本身的属性:

女,五官端正,23岁,企业白领,收入中等,海归

2. 各种渠道所收集到男同胞信息的训练集:

总共509名男性,符合其相亲要求的有308名,不符合则有201名

3. 数据科学家对另一半的基本要求:

a)性别当然是异性

b)长相:要帅帅的

c)年龄:比自己要大,成熟稳重型,但不能超过35岁

d)收入:中等以上,不能比自己更低

e)职业:视上述情况而定,不要经常加班

4.数据科学家根据上述条件对相亲对象进行分类:

见或者不见

那么对于这类问题,可以采用决策树进行建模,其建模流程为构建一颗“倒立”的决策树的过程,即:

 

哪些指标最重要择偶哪些指标次重要

构建决策树模型,一般包含三个步骤:特征选择、决策树的生成和决策树的剪枝。其中,最关键步骤是特征选择,也叫分裂属性的选择,所谓分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支,比如“年龄”、“长相”均属于分裂属性,其目的是让各个分裂子集尽可能地“纯”,所谓的“纯”是尽可能将某个分裂子集中的判断结果属于同一类别。

而对于分裂属性的“纯”度,机器学习中通常称之为信息熵,描述为系统混乱程度的度量。系统越有序,信息熵就越低,反之,则越高。

特征选择:

对于特征选择的方法有三种:信息增益、信息增益率和基尼系数。

根据样本集的情况,计算每个特征变量的信息增益、信息增益率或基尼系数,设置一个阈值,大于该阈值的特征变量将保留,否则将删除;同时,根据信息增益、信息增益率或基尼系数的大小,依次作为第一分裂属性(比如上图的年龄),第二分裂属性(长相)等等。

决策树的生成:常用的算法有ID3和C4.5的生成算法,其ID3(C4.5)具体方法是:从根结点出发,对结点计算所有可能的特征的信息增益(信息增益率),选择信息增益(信息增益率)最大的特征变量作为结点的特征,由该特征的不同取值建立子结点;再对子结点递归地调用以上方法,构建决策树;知道所有特征的信息增益(信息增益率)均很小或没有特征可以选择为止。最后完成决策树的构建。决策树的剪枝:决策树生成算法是采用递归生成决策树的方法,这样产生的决策树对训练数据的分类很准确,但是对于未知的测试数据的分类准确率没那么准确,会出现过拟合现象。为解决模型的过拟合问题,需要对已生成的决策树进行简化,其简化过程称为剪枝。 具体做法是: 从已生成的树上裁掉一些子树或叶结点,并将其根结点或父结点作为新的叶结点,从而简化分类树模型。

在数据科学家相亲的例子中,发现职业的信息增益值非常小,于是将其剪枝以后变成图右边的形式。

最大

还有一点就是,我们每个人眼中的价值标准都不一样,所以我们可以看到这么多元的爱情:张生与崔莺莺、白瑞德与郝思嘉、罗密欧与朱丽叶……这些故事代代传颂,足以证实每个年代都有在世人看来“不可能”的爱情正在发生。

我们都是有感情有弱点的动物。婚姻的神奇在于,这种利益交换有时候是不对等的,而让它不对等的原因,是我们所说的变量。

这个变量叫“感情”。因此最后加权得分中,还要综合你的主观打分。毕竟自己的爱情观,完全取决于你自己。只希望在科学建模基础上帮你你筛选出你想要的。



鲜花

握手

雷人

路过

鸡蛋

最新评论

关闭

站长推荐上一条 /2 下一条


id="mn_portal" >首页Portalid="mn_P18" onmouseover="navShow('P18')">应用id="mn_P15" onmouseover="navShow('P15')">技术id="mn_P37" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">前沿id="mn_P36" onmouseover="navShow('P36')">宝箱id="mn_P61" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">专栏id="mn_P65" >企业id="mn_forum_2" >社区BBSid="mn_Nd633" >导航 折叠导航 关注微信 关注微博 关注我们

QQ|广告服务|关于我们|鄂ICP备14012176号-2|Archiver|手机版|小黑屋|大数据人    

GMT+8, 2019-6-18 09:39 , Processed in 0.499717 second(s), 21 queries .

Powered by 小雄! X3.2

© 2014-2016 bigdataer Inc.

返回顶部