大数据人|大数据第一社区

 找回密码
 注册会员

扫一扫,访问微社区

什么是机器学习?

2015-11-18 09:38| 发布者: admin| 查看: 950| 评论: 0

摘要: 问题:什么是机器学习?回答:Arthur Samuel定义的机器学习(1959)作为机器学习领域的先驱,Arthur Samuel在 IBM Journal of Research and Development期刊上发表了一篇名为《Some Studies in Machine Learning Using ...

问题:什么是机器学习?

回答:


  • Arthur Samuel定义的机器学习(1959)

作为机器学习领域的先驱,Arthur Samuel在 IBM Journal of Research and Development期刊上发表了一篇名为《Some Studies in Machine Learning Using the Game of Checkers》的论文中将机器学习非正式定义为:”在不直接针对问题进行编程的情况下,赋予计算机学习能力的一个研究领域。”
在机器学习的历史上,Arthur Samuel做了一些非常酷的事情。他曾经做了一个西洋棋程序,让计算机自己跟自己下棋,下棋速度非常快,因此Arthur Samuel让他的程序自己和自己下了成千上万盘棋,逐渐的,程序开始慢慢意识到怎样的局势能导致胜利,怎样的局势能导致失败,因此它反复的自己学习“如果让竞争对手的棋子占据了这些地方,那么我输的概率可能更大”或者“如果我的棋子占据了这些地方,那么我赢的概率可能更大”所以渐渐的,Arthur Samuel的程序掌握了哪些局面可能会输,哪些局面可能会赢,因此奇迹出现了,他的程序的棋艺甚至远远超过了他自己。ArthurSamuel让他的程序比他自己更会下棋,但是他并没有明确的教给程序具体应该怎么下,而是让它自学成材。


  • Mitchell 定义的机器学习 (1998)

Tom Mitchell在他的《Machine Learning(中文版:计算机科学丛书:机器学习 )》一书的序言开场白中给出了一个定义:

“机器学习这门学科所关注的问题是:计算机程序如何随着经验积累自动提高性能。”

我喜欢这个简单明了的定义,它是我们在帖子最后得出的程序员定义的基础。注意计算机程序这一提法和提到的“自动提高”一词。写程序以改善它们自身,这是挑衅!

他在引言中多次重复提到一个简短的形式体系:

“对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E学习。”

不要让术语的定义把你吓跑,这是一个非常有用的形式体系。我们把这一形式体系作为一个模版,把经验E、任务T和性能度量P列在一张表的顶部,并且列出带有更少歧义的复杂问题。它可以作为一个设计工具来帮助我们清楚的思考收集什么样的数据(E),需要做出什么样的决策(T),以及如何评价结果(P)。这就是我们把它作为一个标准定义的原因。请把它记在心里。


  • 统计学习基础

The Elements of Statistical Learning: Data Mining, Inference, and Prediction》是由三个斯坦福的统计学家编写的,它自我描述为组织探究他们领域的统计框架。它在前言中写到:

“许多领域都产生了大量的数据,统计学家的工作就是让所有这些数据变得意义:提取重要的模式和趋势,理解“数据在说什么”。我们称之为从数据中学习。”

我所理解的统计学家的工作是,使用统计工具在上下文环境中解译数据。作者似乎想要把机器学习领域中的全部作为辅助工具。有趣的是,他们选择把“数据挖掘”包含在书的标题中。

统计学家从数据中学习,但软件也可以,并且我们是从软件学习到的事情中学习,从由多种多样的机器学习方法做出的决策和得出的结果中学习。


  • 模式识别

Bishop在《 Pattern Recognition and Machine Learning 》的前言中写到:

“模式识别起源于工程学,而机器学习产生于计算机科学。然而这些领域可以看做成是同一领域的两个方面。”

看了这些,你会获得这样一个印象,Bishop从一个工程的角度来到这个领域,后来又采取同样的方法学习和利用了计算机科学。这是一个我们应该效仿的成熟方法。更广泛地说,不管一个方法所宣称的领域,如果它能够通过从数据中学习使得我们获得一个更接近的洞察力或结果,从而更符合我们的需要,那么,我们就称之为机器学习。


  • 算法角度

Marshland在《Machine Learning: An Algorithmic Perspective》中采用了Mitchell对于机器学习的定义。他在序言中提供了一个促使他写下这本书的强有力的解释:

“机器学习最有趣的特征之一就是,它介于几个不同理论学科之间,主要是计算机科学、统计学、数学和工程学。机器学习经常被作为人工智能的一部分来进行研究,这把它牢牢的置于计算机科学中。理解为什么这些算法能够有效工作需要一定的统计学和数学头脑,这往往是计算机科学专业的本科生所缺少的能力。”

这是深刻并有益的。首先,他强调该领域的多学科性质。虽然我们已经从上面的定义中获得了这样一种感觉,但他为我们进一步强调了这一点,机器学习来源于各种各样的信息科学。第二,他强调了过于坚持一个给定的角度的危险性。特别是,算法工程师避开一个方法的数学内部运作原理的情况。毫无疑问,相反的情况,统计学家避开实现和部署的实际问题也是同样受限的。


  • 维恩图解

2010年9月,Drew Conway创建了一个漂亮的维恩图,我发现这个图是很有帮助的。他在解释中评论到,“机器学习就是黑客技能、数学和统计学知识的加和。”


数据科学维恩图。归属于Drew Conway,是一种知识共享许可的非商业归属。

他还把危险区域描述为黑客技能与专业知识的加和。这里,他所指的是,那些了解得足够多的人是危险的。他们能够访问和构建数据,了解这个领域,还能运行一种方法并给出结果,但是他们并不理解结果的含义。我认为这就是Marsland曾经可能暗示的意思。


参考资料:

1 网址:http://www.zhihu.com/question/33892253

2 网址:https://www.quora.com/What-is-machine-learning-4(强烈推荐)



鲜花

握手

雷人

路过

鸡蛋
关闭

站长推荐上一条 /2 下一条


id="mn_portal" >首页Portalid="mn_P18" onmouseover="navShow('P18')">应用id="mn_P15" onmouseover="navShow('P15')">技术id="mn_P37" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">前沿id="mn_P36" onmouseover="navShow('P36')">宝箱id="mn_P61" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">专栏id="mn_P65" >企业id="mn_Nd633" >导航 折叠导航 关注微信 关注微博 关注我们

QQ|广告服务|关于我们|Archiver|手机版|小黑屋|大数据人 ( 鄂ICP备14012176号-2  

GMT+8, 2024-10-23 11:40 , Processed in 0.182198 second(s), 20 queries .

Powered by 小雄! X3.2

© 2014-2020 bigdataer Inc.

返回顶部