ad

《认知计算与深度学习》_基于物联网云平台的智能应用_1.4.1 数据挖掘与机器学习

admin 150 2023-10-25

【摘要】 本书摘自《认知计算与深度学习》一书中第1章,第4节,为陈敏、黄铠所著。

1.4.1 数据挖掘与机器学习

我们将数据挖掘分成三类,即关联分析、分类和聚类分析。同样对于机器学习技术我们 也分为三类,比如监督学习、无监督学习以及其他学习方法,其中包括增强学习、主动学习、迁移学习以及深度学习等。

《认知计算与深度学习》_基于物联网云平台的智能应用_1.4.1 数据挖掘与机器学习

数 据 挖 掘 与 机 器 学 习。数据挖掘与机器学习紧密相连。数据挖掘是在大数据中发现模式 的计算过程,包括的方法涉及人工智能、机器学习、统计以及与数据库系统的交叉。数据挖 掘的总体目标就是从数据集中提取信息,并将其转化成可以理解的结构以供未来使用。除了 原始的分析步骤,它还包括数据库的数据管理、数据预处理、模型的建立、推理的产生、兴趣度量、复杂性考虑、可视化以及在线更新。

机器学习探究结构并研究算法,使之能够从数据中学习并做出预测。这样的算法由实 例输入建造模型,目的是做出数据驱动的预测和决策,而不仅仅是严格地遵循静态程序 指令。这两个术语通常会被混淆,因为二者经常利用相同的方法,并且在很大程度上有

重叠。

机器学习更接近于应用和用户端。它专注于基于训练数据中学习到的已知属性做出预测。如图1-16所示,我们将机器学习技术分为三类:监督学习,比如回归模型,决策树等;

非监督学习,比如聚类、异常检测等;其他的学习算法,比如增强学习、迁移学习、主动学习以及深度学习等。

数据挖掘更倾向于对数据源的分析。它专注于发现数据的未知属性,这也被认为是数 据库分析步骤中的知识发现。如图1-16所示,经典的数据挖掘技术被分为三类:关联分析, 包括Apriori算法、 FP-growing 算法;分类算法,包括决策树、支持向量机 (SVM)、K 近邻、 朴素贝叶斯、贝叶斯信念网络以及人工神经网络 (ANN) 等;聚类算法,包括K 均值、带有噪声的基于密度的空间聚类。

大数据分析目前面临着很多挑战,但是现阶段的研究只是处于开始的阶段。我们需要相 当多的研究成果来提高数据表示、数据存储与数据分析的效率。研究团体需要更加严格的大 数据定义。我们需要关于大数据的结构模型,大数据的形式化描述以及数据科学的理论系统等。数据质量的评价体系以及数据计算效率的评价标准也需要被及时提出。

很多大数据应用的解决方案声称它们能够在各个方面提高数据处理和分析能力,但是现 在并不存在一个统一的评价标准和基准,无法利用严格的数学方法来平衡大数据的计算效 率。性能只能由系统的实施和部署来进行评估,然而这并不能横向比较不同解决方案的优势 和劣势,同样也不能比较使用大数据前后的效率来判定其优劣程度。此外,由于数据质量是 数据预处理、简化和筛选的一个重要基准,那么有效的评估数据质量也是一个迫切的问题。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们 18664393530@aliyun.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:看《Excel人力资源管理实操全流程演练》如何教你做更好的表格_6.1 人员面试数据处理
下一篇:阅读《时空大数据与云平台 理论篇》_走进云的世界_2.2.1 T-C-V 软件结构提出
相关文章

 发表评论

暂时没有评论,来抢沙发吧~

×