机器学习是什么,机器学习与深度学习有什么异同?
最近,一份关于那些声称在其产品和服务上使用人工智能的公司滥用人工智能的报告发布。根据Verge的数据,40%的比例声称使用人工智能的欧洲初创公司其实并没有使用这项技术。去年,TechTalks也意外发现了这样的滥用行为,一些公司声称使用机器学习和先进人工智能来收集和检查数千名用户的数据,以增强其产品和服务的用户体验。

遗憾的是,公众和媒对于什么是真正的人工智能 ,以及到底什么是机器学习,仍然存在很多困惑。这些术语通常被用作同义词。在其他情况下,人工智能与机器学习是相对独立的、互相平行的领域发展进步,而另一些则利用这一趋势来有意炒作和博眼球(刺激),来增加销售量以及收入。
下面我们来看看人工智能和机器学习之间的一些主要区别。
什么是机器学习
什么是机器学习 | Tom M. Mitchell,Machine Learning,McGraw Hill,1997[18]
CMU计算机科学学院临时院长、卡内基梅隆大学(Carnegie Mellon University)教授、前机器学习系主任 Tom M. Mitchell 表示:
科学领域最好由它所研究的中心问题来界定。机器学习领域试图回答以下问题:
“我们怎样才能建立一个随着经验而自动改进的计算机系统,而支配所有学习过程的基本法则是什么?”
机器学习(ML)是人工智能的一个分支,正如计算机科学家和机器学习先驱 Tom M.Mitchell所定义的:“机器学习是对计算机算法的研究,允许计算机程序通过经验自动改进。” —ML是我们期望实现人工智能的方法之一。机器学习依赖于对大大小小的数据集进行研究,通过检查和比较数据来发现共同的模式并探索细微差别。
例如,如果您提供一个机器学习模型,其中包含许多您喜欢的歌曲,以及它们相应的音频统计数据(舞蹈性、乐器、节奏或流派)。它应该能够自动化(取决于所使用的有监督机器学习模型)并生成推荐系统,以便在未来向您推荐您喜欢的音乐(以高概率),类似于Netflix、Spotify和其他公司所做的。
在一个简单的例子中,如果你加载了一个机器学习程序,其中有相当大的X射线图片数据集以及它们的描述(症状、需要考虑的项目和其他),它应该有能力在以后协助(或可能自动化)X射线图片的数据分析。机器学习模型会查看不同数据集中的每一张图片,并在具有可比指征标签的图片中找到共同的模式。此外,(假设我们对图像使用可能的ML算法)当你用新的图片加载模型时,它会将其参数与之前收集的例子进行比较,以揭示图片中包含它先前分析过的任何指征的可能性。
我们前面示例中的机器学习类型,称为“监督学习”,其中监督学习算法尝试对目标预测输出和输入特征之间的关系和依赖关系建模,以便我们可以根据这些关系预测新数据的输出值,它已经从以前的数据集中学习到了反馈。
无监督学习是机器学习的另一种类别,是一类主要用于模式检测和描述性建模的机器学习算法。这些算法在数据上没有输出类别或标签(模型使用未标记的数据进行训练)。
强化学习 | Credits: Types of ML Algorithms you Should Know by David Fumo [3]
强化学习是第三种流行的机器学习类型,其目的是利用从与环境的交互中收集到的观察结果来采取行动,以最大限度地提高回报或降低风险。在这种情况下,强化学习算法(称为agent)通过迭代不断地从环境中学习。强化学习的一个很好的例子是电脑达到了超人的状态,并在电脑游戏中打败了人类。
机器学习可以让人眼花缭乱,尤其是它的高级子分支,即深度学习和各种类型的神经网络。无论如何,它是 "神奇 "的(计算学习理论),不管公众有时是否有观察其内部运作的问题。虽然有些人倾向于将深度学习和神经网络与人脑的工作方式进行比较,但两者之间存在着本质的区别。
什么是人工智能(AI)?
卡耐基梅隆大学计算机科学学院教授兼院长 Andrew Moore讲解的人工智能全景图|Youtube
另一方面,人工智能的范围很广。根据卡耐基梅隆大学计算机科学学院前院长Andrew Moore 的说法,"人工智能是一门科学和工程,它让计算机以一种直到最近我们还认为需要人类智能的方式运行。"
这是一个用一句话来定义人工智能的好方法;然而,它仍然显示出这个领域是多么广泛和模糊。50年前,下棋程序被认为是人工智能的一种形式,因为博弈论和游戏策略是只有人脑才能完成的能力。如今,象棋游戏是枯燥而陈旧的,因为它几乎是每个计算机操作系统(OS)的一部分;因此,"直到最近 "是随着时间的推移而发展的东西 [36]。
CMU的助理教授和研究员 Zachary Lipton在Approximately Correct上阐明,AI这个术语 "是一个理想的,是一个动态的目标,一种基于那些人类拥有但机器没有的能力"。AI还包括相当程度的我们所知道的技术进步。机器学习只是其中之一。之前的人工智能作品利用了不同的技术。例如,1997年击败世界国际象棋冠军的人工智能 "深蓝 "使用了一种叫做树搜索算法的方法来评估每一个回合的数百万步。
使用深度优先搜索解决八皇后难题的示例 | 人工智能简介 | . how2Examples
正如我们今天所知道的那样,人工智能的象征是以Google Home、Siri和Alexa为代表的人机交互小工具,以Netflix、亚马逊和YouTube为代表的机器学习驱动的视频推荐系统。这些技术进步正逐步成为我们日常生活中不可或缺的一部分。它们是智能助手,提升了我们作为人类和专业人士的能力--使我们更有效率。
与机器学习相比,人工智能是一个动态的目标,它的定义会随着其相关技术进步的进一步发展而改变。可能在几十年内,今天的人工智能创新进展应该被认为是乏味的,就像现在的翻盖手机对我们来说一样。
为什么科技公司倾向于
将AI和ML交替使用?
"... ...我们想要的是一台能从经验中学习的机器" ~ Alan Turing
"人工智能 "一词是在1956年由Allen Newell和Herbert A. Simon等一批研究人员提出的。从那时起,人工智能的产业经历了许多波动。在早期的几十年里,围绕着这个行业进行了大量的炒作,许多科学家都一致认为人类水平的人工智能指日可待。然而,未兑现的论断引起了行业与公众的普遍不满,并导致了人工智能的寒潮,这一时期,对该领域的资金和兴趣大大消退。
后来,各组织试图将自己的工作与人工智能这个术语分开,人工智能已经成为无事实根据的炒作的同义词,并利用不同的名称来指代他们的工作。例如,IBM将 "深蓝 "描述为一台超级计算机,并明确表示它没有使用人工智能,而它却使用了人工智能。
在此期间,各种其他术语,如大数据、预测分析和机器学习,开始受到关注和普及。2012年,机器学习、深度学习和神经网络取得了长足的进步,并在越来越多的领域得到应用。各机构突然开始使用“机器学习”和“深度学习”来宣传他们的产品。
深度学习开始解决那些基于经典规则编程无法完成的任务。早期的语音和人脸识别、图像分类、自然语言处理等领域突飞猛进,2019年3月,三位最受认可的深度学习先驱获得了图灵奖,他们的贡献和突破使深度神经网络成为当今计算的关键组成部分。
因此,从这个势头来看,我们看到了人工智能的回归。对于那些习惯于使用各种限制的老式软件人来说,深度学习的效果几乎就像 "魔法"一样。尤其是由于神经网络和深度学习进入的一小部分领域被认为是计算机的禁区,而如今,机器学习和深度学习的工程师都能获得高薪,甚至在非营利组织工作,这就足以说明了这个领域的热度。
来源 | 推特 | GPT-2更好的语言模型及其含义,Open AI
可悲的是,这一点媒体公司往往在没有进行深刻考察的情况下就进行报道,并且经常配合人工智能文章中的水晶球(译者注:神奇的事情)和其他超自然描描述。这样的欺骗性行为有助于那些公司围绕他们的产品产生炒作。然而,在以后的日子里,由于未能达到预期,这些机构不得不雇佣他人来弥补他们所谓的人工智能。最终,他们可能会为了短期利益而导致该领域的不信任,并引发另一个人工智能的冬天寒潮。
AI如何与操作机器学习协作?
随着人工智能(AI)变得越来越普遍,每个行业都竞相开发人工智能AI解决方案来推进它们的用例,围绕生产环境部署出现了实际的挑战。
在我之前的文章中:如何从实验转向构建生产机器学习应用程序 ,我描述了将机器学习(ML)实验用于生产部署的过程。在这篇后续文章中,我概述了有助于用户简化和扩展整个机器学习生命周期的七个人工智能行业趋势。我们将描述每个趋势,讨论为什么它对操作机器学习很重要,以及当企业决定利用趋势来加速或改进其操作ML实践时,应该考虑哪些因素。
图1显示了一个典型的机器学习(ML)生命周期。随着时间的推移,ML功能相对于业务需求得到进一步优化,这个循环会重复。
趋势一:数据市场
许多机器学习计划的第一个挑战是找到一个可接受的数据集。数据市场试图解决数据集的短缺,尤其是在医疗和物联网等关键领域,通过提供一个:个人可以分享他们的数据、公司可以使用数据进行人工智能AI和分析的平台。市场平台保证了安全性、私密性,并提供了一个经济模型来激励参与者。
数据市场可以提供其他难以获得的丰富的数据,而且市场可以提供数据源并沿袭那些以后管理数据和确保质量所需要的信息。
趋势二:综合数据服务
解决数据集短缺的另一个角度是合成数据集市场。机器学习技术的进步已经证明,机器学习本身可以产生真实的数据集来训练其他ML算法,特别是在深度学习空间中。人工合成数据因其潜力而广受赞誉,因为相对于能够访问大量数据集的大型组织,人工智能AI可以为规模较小的公司提供公平的竞争环境。合成数据可以是真实数据集的匿名版本,也可以是真实数据样本生成的扩展数据集,还可以是模拟环境,比如用于训练自动驾驶汽车的虚拟环境。
趋势三:标签服务
好的数据集是稀缺的,被标记的好的数据集更加稀缺。为了解决这个问题,出现了一个数据标签市场,它经常关注特定的数据类型(比如图像中的对象)。其中一些标签来自于跨地理区域协调并通过协调软件管理的人工贴标签者。公司正在这个领域进行创新,将人工和基于机器学习的标签结合起来,这是一个有潜力降低纯人工标签成本的趋势。这一领域的其他创新包括使企业能够与标识服务提供者直接交互的服务。
趋势四:自动化机器学习模型 一旦找到合适的数据集并贴上标签,下一个挑战就是找到一个好的算法并训练一个模型。自动化机器学习(AutoML)技术使算法/模型选择和调优过程自动化,获取一个输入数据集,运行大量训练算法和超参数选项,以选择建议部署的最终模型。与AutoML相关(并且经常在内部提供),是利用深度特性合成等技术实现的特征工程自动化功能合成。AutoML软件有时也可以对输入数据集执行偏差检测。一些自动解决方案是SaaS产品,而另一些是可下载的软件,可以在云环境或内部环境中以容器形式运行。
趋势五:预制容器 对于那些可能正在开发自己模型的人来说,容器是生产部署的一种完善的设计模式,因为它们使任何训练或推理代码都能够在定义良好的可移植和可伸缩的环境中运行。Kubernetes等编制工具进一步支持基于容器的机器学习ML的伸缩性和灵活性。然而,组装容器可能是一项具有挑战性的任务,因为必须解决依赖关系,并对整个堆栈进行调优和配置。预先构建的容器市场解决了这个问题,为预先配置的容器提供了预先安装和配置的必要库,特别是对于复杂的环境,如GPUs。
趋势六:模型市场 如果你不想建立或训练自己的模型,有模型市场。模型市场使客户能够购买预先构建的算法,有时还可以购买经过训练的模型。这些对于以下用例是有用的: (a)用例是足够通用的,因此不需要训练定制模型,也不需要将训练/推理代码装备到定制容器中; (b)像转移学习这样的机制可以用来扩展和定制基本模型; (c)用户没有足够的训练数据来建立自己的模型。 在模型市场中,处理数据和训练一个好的模型这样重要的工作可以被卸载,使用户能够专注于操作化的其他方面。也就是说,模型市场的一个关键挑战是筛选内容,以找到适合您需求的资产。
趋势七:应用级人工智能服务 最后,对于跨业务存在的常见用例,应用程序级别的人工智能AI服务可以消除对整个操作机器学习ML生命周期的需求。人们可以订阅执行人工智能任务的终端服务,而不是创建模型、训练和部署它们。应用级人工智能AI服务包括视觉、视频分析、自然语言处理(NLP)、表单处理、自然语言翻译、语音识别、聊天机器人等任务。
好处和注意事项 上述所有趋势都使用户能够简化或加快一个或多个操作机器学习ML生命周期的各个阶段,通过卸载、重用预构建项,或者通过特定阶段的自动化。考虑到迭代机器学习ML流程是如何实现的(例如,训练通常包括数十到数百个实验),自动化这些流程可以产生更可跟踪、可重现和可管理的工作流。外包这些任务甚至更容易,尤其是在强化了模型和算法的情况下(除了您自己的环境之外,已经在许多环境中测试过)可以用于基本任务。
也就是说,在您的环境中使用这些服务之前,有几个因素需要考虑:
1:考虑适用性 并不是所有的趋势都适用于所有的用例。最普遍适用的趋势是AutoML,它的应用范围很广。类似地,模型市场有非常广泛的模型和算法可用。数据集市和合成数据集趋向于特定于用例的类,而预构建的容器可以特定于不同的硬件配置(如GPUs),而这些硬件配置又适用于特定的用途。许多数据标签服务也有特定的用途(比如图像分类和表单阅读),但一些咨询公司确实提供定制的标签服务。最后,端到端人工智能AI服务非常特定于用例。
2:人工智能信任 随着更多的ML被部署,人类普遍对黑箱人工智能系统的恐惧表现为对信任的担忧和对监管力度的加大上。为了从人工智能AI中获益,企业不仅要考虑生产机器学习ML的机制,还要考虑管理任何客户社区的关注点。如果不加以解决,这些担忧可能会在客户流失、企业出糗、品牌价值损失或法律风险中具体化。
信任是一个复杂而广泛的主题,但其核心是需要理解和解释机器学习ML,并确信ML在预期的参数范围内正确运行,不受恶意入侵。特别是,生产ML所做的决策应该是可解释的——即必须提供可信服的解释。这在诸如GDPR的解释权条款等法规中变得越来越有必要。可解释性与公平性密切相关——需要确信人工智能AI不是无意或故意做出有偏见的决策。例如,亚马逊(Amazon)Rekognition等人工智能AI服务也因存在偏见而受到关注。
由于上面提到的几乎所有趋势都涉及到将机器学习ML生命周期的某些方面卸载或“外包”给第三方或自动化系统,因此需要在每个阶段进行额外的了解,以确保最终的生产生命周期能够交付信任的核心原则。这包括了解所部署的算法,用于训练它们的数据集是否没有偏见,等等。这些需求不会改变生命周期本身,但是需要付出额外的努力来确保正确的沿袭跟踪、配置跟踪和诊断报告。
考虑3:可诊断性和运营管理
无论机器学习ML生命周期的组件来自何处,您的企业都将负责管理和维护ML服务在其生命周期中的健康状态(除了人工智能趋势7中完全外包的服务之外)。 如果是这样,数据科学家和工程师必须了解正在部署的模型、用于训练模型的数据集以及这些模型的预期安全操作参数。由于许多服务和市场都是新生的,所以目前还没有标准化。用户有责任理解他们所使用的服务,并确保服务能够与生命周期的其余部分一起得到充分的管理。
从哪里开始比较好?
1:买一本周志华教授的<机器学习>,俗称西瓜书,国内最好的机器学习入门书籍,没有之一。如果想迅速动手敲代码,那么《机器学习实战》不得不推荐
2:哔哩哔哩的李宏毅教授的《机器学习》《深度学习》视频,林轩田教授的《机器学习》系列。中文免费的哦,对机器学习的数学推导详细的令人发指。
3:斯坦福大学的cs231n教程,作业请撸一遍。
4:机器学习的相关框架如tensorflow,keras等。
5:吴恩达教授的机器学习视频,(全英文)。
6:其它经典书籍推荐PRML《Pattern Recognition and Machine Learning》,ESL《The Elements of Statistical Learning》《统计学习方法》《非线性规划》
机器学习需要过硬的数学知识,高配置的电脑,建议显卡1080以上,不要低于1060,请楼主做好心理准备。
深度学习和普通的机器学习有什么区别?
人工智能(AI)是一个大概念,从有效的老式人工智能(GOFAI)到联结主义结构,无所不包。而机器学习(ML)则是人工智能领域的一个小分支,如果说AI是一个合集,那么ML就是AI的子集。任何通过数据训练的学习算法的相关研究都属于机器学习,包括很多已经发展多年的技术,比如线性回归(Linear Regression)、K均值(K-means,基于原型的目标函数聚类方法)、决策树(Decision Trees,运用概率分析的一种图解法)、随机森林(Random Forest,运用概率分析的一种图解法)、PCA(Principal Component Analysis,主成分分析)、SVM(Support Vector Machine,支持向量机)以及ANN(Artificial Neural Networks,人工神经网络)。而人工神经网络则是深度学习的起源。
目前深度学习的热点主要是:我们已经拥有了可以商用的机器,只要给它们足够多的数据和足够长的时间,它们就能够自己学习。这要么是夸大了深度学习的现有技术水平,要么就是将深度学习的实践过于简化了。在过去的几年里,深度学习产生了大量的想法和技术,这些在以前要么是未知的,要么是站不住脚的。起初,这些概念是碎片化而且毫无关联的,但是随着时间的推移,大量的模式和方法开始涌现,深度学习设计模式这一领域也变得热闹起来。
今天的深度学习不仅仅是具备多层架构的感知器,而是一系列能够用来构建可组合可微分的体系结构的技术和方法。这些具有超强能力的机器学习系统只不过是我们目前所能看到的冰山一角。关键在于,虽然深度学习目前看起来像点金术,但是总有一天我们会学会如何像操控化学一样操控它。有了这个基础,我们将能够更好的预测机器学习未来所能具备的能力。
2017年机器学习面临解决的十大问题是什么?
查了下资料:1: “数据稀释性”:训练一个模型,需要大量(标注)数据,但是数据往往比较稀疏。比如,我们想训练一个模型表征某人 “购物兴趣”,但是这个人在网站上浏览行为很少,购物历史很少,很难训练出一个 “meaningful model” 来预测应该给这个人推荐什么商品等 …
2:“不平稳随机过程产生的数据”:机器学习模型往往假设数据的产生是 “平稳随机过程”。但是有些互联网数据(比如 spam 邮件,spam 网站等)的产生是动态的,不平稳随机过程 …
3~4:高数量和高质量 “标定数据” 是机器学习效果的保障,但是获取标定数据需要耗费大量人力和财力。而且,人会出错,人有主观性。如何获取高数量和高质量标定数据,或者用机器学习方法只标定 “关键” 数据 (active learning) 值得深入研究 …
5:”Scalability” 是互联网的核心问题之一。搜索引擎索引的重要网页超过 100 亿: 如果1台机器每秒处理1000 网页,需要至少100天。所以出现了 MapReduce, MPI, Spark, Pegasus, Pregel, Hama … 等分布式计算构架。选择什么样的计算平台,和算法设计紧密相关 …
6:“速度” 是互联网核心的用户体验。线下模型训练可以花费很长时间:比如,Google 某个模型更新一次需要几千台机器,大约训练半年时间。但是,线上使用模型的时候 要求一定要 “快,实时 (real-time)” …
7: 互联网 每时每刻 都在产生大量新数据,要求模型随之不停更新,所以 “online learning” 是机器学习的一个重要研究方向。人也是一样: Life is an online learning process … “online learning” 也是人最重要的能力之一
8:“Cold- Start” (冷启动) 是互联网应用的典型问题:一个好互联网产品,用的人多,得到的数据多;得到的数据越多,模型训练的越好,产品会变得更好用,用的人就会更多 … 进入 “良性循环”。对于一个新产品,在初期,要面临数据不足的 “冷启动” 问题 …
9: 机器学习之美在于对于不同的问题需要不同建模方法。我去给讲座的时候,经常听有人说:“SVM 做过,Naive Bayes 做过 … 但效果不好”;做过很简单,但能否 “做到极致”? 这个世界你能想到别人想不到的事情概率极低,只有一件你花十倍努力做到极致的事情!
10:“Human + Machine” 机器学习应用在一个特定领域,需要特定领域的专家知识:机器学习应用在 “医学”,需要一个经验丰富的医生;应用在 “股票”,需要一个有10年以上经验的操盘手;应用在 “互联网”,需要一个上网时间超过 1万小时的 PM …


还没有评论,来说两句吧...