关于启动机器学习项目的 4 个误区
这不是一件可以掉以轻心的事情——对于想要利用这一 IT 趋势但可能缺乏内部知识来真正了解机器学习的来龙去脉的高管来说,开始机器学习项目可能是一个令人畏惧的过程。学习项目打勾。
在这里,我们将讨论一些对公司如何在快速变化的市场中开发机器学习技术产生影响的基本误解。(数据科学是企业正在实施的另一个领域,但它与机器学习有什么不同?在数据科学或机器学习中找出答案?以下是如何发现差异。)
误区一:数据越多越好
这确实是机器学习最大的神话之一。人们认为更多的数据意味着更有能力磨练出可行的见解。在某些情况下,他们是对的,但更多时候,情况可能恰恰相反。
如果相关数据能够丰富整体情况,那么数据越多越好。数据必须适合机器学习模型,否则程序可能会遇到所谓的“过度拟合”,即机器学习结果无法以应有的方式出现。
Jason Brownlee 在《精通机器学习》中写道:“机器学习性能不佳的原因要么是数据过度拟合,要么拟合不足。 ”
在统计学中,拟合是指对目标函数的近似程度。这是在机器学习中使用的一个很好的术语,因为监督机器学习 算法试图在给定输入变量的情况下逼近输出变量的未知基础映射函数。统计数据通常描述拟合优度,它是指用于估计函数近似值与目标函数匹配程度的度量。
简而言之,无关的数据可能会导致严重的问题。在启动机器学习项目之前,高管和其他利益相关者需要集思广益,找出哪些特定类型的数据将为前进提供正确的基础。
误区#2:我们拥有的数据已经足够好
同样,机器学习过程适用于非常精确的数据模型。除非数据有明确的目标,并且经过剔除或评估以考虑偏差和方差等因素,否则数据还不够好。
在机器学习世界中,您经常听到的一件事是不受控制的偏见。机器学习利用了人类的偏见,并通过将程序获取的数据进行搅拌,产生潜在的极端结果,从而放大了这些偏见。
这意味着数据必须更加有针对性才能弥补这种趋势。
误区#3:现在对我们来说还为时过早!
一些公司担心现在涉足机器学习还为时过早。但如果你与很多创新者和企业家交谈,他们会说现在正是进入底层的时候。
无论 IT 趋势在哪里,您都希望处于领先地位。处于先锋位置是最好的。从长远来看,等待一切都变得完美可能会让企业付出代价。(要了解企业尚未实施 ML 的更多原因,请参阅阻碍机器学习采用的 4 个障碍。)
误区#4:机器学习总是一样的
机器学习程序的范围肯定很广。
其中一些本质上运行于单一算法——它们在数学上清晰且透明。工程师可以看到输入的数据与系统输出的数据如何关联。
其他机器学习过程要复杂得多,也更难理解。由人工神经元组成的神经网络本质上可以成为一个“黑匣子”,即使是最好的工程师也很难通过系统跟踪数据或解释算法如何工作。
“最有能力的技术——即深度神经网络——是出了名的不透明,几乎没有提供关于它们如何得出结论的线索,”《科学美国人》的阿里尔·布莱彻(Ariel Bleicher)在探讨这一基本难题的各个方面时写道。
像回声状态网络这样的工具采用了这个黑匣子想法并运行它。这使得真正完全确定这些系统如何工作变得更加困难。
误区#5:机器学习仅适用于精心策划的数据
虽然上述关于精度数据的观点仍然正确,但两种不同类型的机器学习的工作基础却截然不同。
一种称为监督机器学习的机器学习处理标记数据——训练数据已经有标签来描述其属性和类别。
另一种机器学习称为无监督机器学习。它处理未标记的数据。
无监督机器学习获取原始数据,机器本质上分析它的特征并自行将其分组。这两种类型的机器学习都有很大的潜力,但使用带标签数据设置用于监督机器学习的程序更容易。对于许多公司来说,无监督机器学习是一种未知领域。
这些是您可能有的一些考虑因素,以及对机器学习的误解,可能会导致企业采用时出现问题。希望这有助于消除有关机器学习项目的一些困惑。