ad

《认知计算与深度学习》_基于物联网云平台的智能应用_1.3.2 大数据的采集与预处理

admin 127 2023-10-25

【摘要】 本书摘自《认知计算与深度学习》一书中第1章,第3节,为陈敏、黄铠所著。

1.3.2 大数据的采集与预处理

《认知计算与深度学习》_基于物联网云平台的智能应用_1.3.2 大数据的采集与预处理

预处理是大数据采集、挖掘和分析中最复杂的过程,其中包括转换、复制、清除、标准 化、筛选和组织数据等操作。我们可以建立一个虚拟数据库来查询和汇总来自不同数据源

的数据,但这样的数据库中不含数据。反之,它包含与实际数据相关的信息、元数据及其状

态。"存储-读取"这种方法并不能满足数据流的高性能要求与搜索程序所提出的需求。

一般情况下,数据集成方法都伴随着流处理引擎和搜索引擎,如以下四个方面。

● 数据选择:选择要执行的数据集或数据样本的子集。

● 数据传输:通过删除不需要的变量来简化数据集。然后,分析可以用来表示数据的 有用特征,当然这取决于目标或任务。

● 数据挖掘:搜寻一个特定的有代表性的模式或一组表述,如分类规则或决策树、回 归、聚类等。

● 评估与学科表述:评估学科模式,并运用可视化技术将知识生动地呈现。

大数据采集。 大数据采集作为第二阶段,包括数据收集、数据传输和数据预处理。在大 数据采集过程中, 一旦收集到原始数据,就利用一个有效的传输机制将其发送到适当的存储 管理系统中,以支持不同的应用。收集的数据集有时可能包括大量的冗余或无用的数据,这 会增加不必要的存储空间,并影响后续的数据分析。表1-8总结了主要的数据采集方法和预处理操作。

举个例子,在环境监测中,传感器收集到的数据集具有高冗余度,可以使用数据压缩技 术来减少冗余。因此,数据预处理操作对于确保高效的数据存储和开发是必不可少的,而数 据收集是利用特殊的数据收集技术,从一个特定的数据生成环境中获取原始数据。下面分别介绍一些常见的数据收集和预处理方法。

日志文件。 日志文件是由数据源系统自动生成的记录文件,以记录指定的文件格式的活 动,以供后续分析。通常,日志文件被应用于几乎所有的数字设备中。例如, Web 服务器在 日志文件中记录点击次数、点击率、访问和其他Web 用户属性。为了采集网站用户的活动, Web 服务器主要包括以下三个日志文件格式:公用日志文件格式 (NCSA)、 扩展日志格式(W3C) 和 IS 日志格式 (Microsoft)。 这三种类型的日志文件都是ASCII 文本格式。除文本文件以外的数据库有时可以用来存储日志信息,以提高海量日志存储的查询效率。但也有其 他的一些基于数据收集的日志文件,例如财务应用中的股票指标以及网络监控和交通管理中运作状况的确定。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们 18664393530@aliyun.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:阅读《时空大数据与云平台 理论篇》_走进云的世界_2.1.4 面向共享的架构技术
下一篇:《JAVA服务端研发知识图谱》_让你更懂Java后台研发_1.3.3 For
相关文章

 发表评论

暂时没有评论,来抢沙发吧~

×