大数据人|大数据第一社区

 找回密码
 注册会员

扫一扫,访问微社区

查看: 1801|回复: 0

[宝典] 阿里巴巴2016数据挖掘工程师真题

[复制链接]
  • TA的每日心情
    奋斗
    2015-7-30 23:05
  • 签到天数: 12 天

    [LV.3]偶尔看看II

    852

    主题

    972

    帖子

    4804

    积分

    管理员

    Rank: 9Rank: 9Rank: 9

    积分
    4804
    QQ
    发表于 2015-11-17 22:29:24 | 显示全部楼层 |阅读模式
    一、单选题     (共10道题,每题5分)

        1.想要了解上海市小学生的身高,需要抽取500个样本,这项调查中的样本是?

        A.从中抽取的500名学生的身高

        B.上海市全部小学生的身高

        C.从中抽取的500名小学生

        D.上海市全部小学生

        2.以下对k-means聚类算法解释正确的是

        A.能自动识别类的个数,随即挑选初始点为中心点计算

        B.能自动识别类的个数,不是随即挑选初始点为中心点计算

        C.不能自动识别类的个数,随即挑选初始点为中心点计算

        D.不能自动识别类的个数,不是随即挑选初始点为中心点计算

        3.以下哪个是常见的时间序列算法模型

        A.RSI

        B.MACD

        C.ARMA

        D.KDJ

        4.有个袋子装有2个红球,2个蓝球,1个黄球,取出球以后不再放回,请问取两次出来的球是相同颜色的概率是多少

        A.0.3333

        B.0.25

        C.0.2

        D.0.1667

        5.65,8,50,15,37,24,()。括号中的数字是()

        A.25

        B.26

        C.22

        D.27

        6.一组数据,均值>中位数>众数,问这组数据

        A.左偏

        B.右偏

        C.钟型

        D.对称

        7.SQL语言允许使用通配符进行字符串匹配的操作,其中‘%’可以表示

        A.零个字符

        B.1个字符

        C.多个字符

        D.以上都可以

        8.关于正态分布,下列说法错误的是:

        A.正态分布具有集中性和对称性

        B.正态分布的均值和方差能够决定正态分布的位置和形态

        C.正态分布的偏度为0,峰度为1

        D.标准正态分布的均值为0,方差为1

        9.在以下不同的场景中,使用的分析方法不正确的有

        A.根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级

        B.根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式

        C.用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫

        D.根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女

        10.下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测

        A.AR模型

        B.MA模型

        C.ARMA模型

        D.GARCH模型

    二、多选题    (共5道题,每题10分)

        1.excel工作簿a中有两列id、age,工作簿b中有一列id,需要找到工作薄b中id对应的age,可用的函数包括

        A.index+match

        B.vlookup

        C.hlookup

        D.find

        2.现在有M个桶,每桶都有N个乒乓球,乒乓球的颜色有K种,并且假设第i个桶第j种颜色的球个数为Cij, 比例为Rij=Cij/N,现在要评估哪个桶的乒乓球颜色纯度最高,下列哪种算法和描述是合理的?

        A.∑(1-Rij*Rij)越小越纯

        B.∑(1-Rij)*(1-Rij)越小越纯

        C.∑(1-Rij)^2 越小越纯

        D.-∑Rij*LOG(Rij)越小越纯

        3.关于相关系数,下列描述中正确的有:

        A.相关系数为0.8时,说明两个变量之间呈正相关关系

        B.相关系数等于1相较于相关系数等于-1,前者的相关性更强

        C.相关性等于1相较于相关系数等于0,前者的相关性更强

        D.Spearman相关系数可以衡量两个定序变量之间的相关程度

        4.关于线性回归的描述,以下正确的有:

        A.基本假设包括随机干扰项是均值为0,方差为1的标准正态分布

        B.基本假设包括随机干扰下是均值为0的同方差正态分布

        C.在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量

        D.可以用DW检验残差是否存在序列相关性

        5.下列哪些方法可以用来对高维数据进行降维:

        A.LASSO

        B.主成分分析法

        C.小波分析法

        D.线性判别法


    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册会员

    本版积分规则

    关闭

    站长推荐上一条 /2 下一条


    id="mn_portal" >首页Portalid="mn_P18" onmouseover="navShow('P18')">应用id="mn_P15" onmouseover="navShow('P15')">技术id="mn_P37" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">前沿id="mn_P36" onmouseover="navShow('P36')">宝箱id="mn_P61" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">专栏id="mn_P65" >企业id="mn_Nd633" >导航 折叠导航 关注微信 关注微博 关注我们

    QQ|广告服务|关于我们|Archiver|手机版|小黑屋|大数据人 ( 鄂ICP备14012176号-2  

    GMT+8, 2024-4-16 17:23 , Processed in 0.279511 second(s), 35 queries .

    Powered by 小雄! X3.2

    © 2014-2020 bigdataer Inc.

    快速回复 返回顶部 返回列表