ad

阅读《时空大数据与云平台 理论篇》_走进云的世界_5.1.1 时空大数据汇聚

admin 126 2023-10-25

【摘要】 本书摘自《时空大数据与云平台 理论篇》一书中第1章,第1节,作者是吴信才。

5.1.1 时空大数据汇聚

3. 数据预处理

测绘遥感的空间数据有严格的产品标准和生产技术规程,而社会感知的非空间数据 没有标准规范,模态多样、杂乱无章,如何梳理成可信的数据是一大挑战。若信息数据 和空间数据两类数据要进行融合,需要解决数据量不一致、时空尺度不一致、精度不一 致、可靠性不一致的问题。

因此,多源异构数据和实时数据汇聚接入服务器后,需要经过一系列数据预处理才 能进行数据管理及利用,数据预处理是数据挖掘至关重要的环节。笔者认为,时空大数 据的预处理应包括以下步骤。

1)数据抽取

阅读《时空大数据与云平台 理论篇》_走进云的世界_5.1.1 时空大数据汇聚

数据抽取是数据进入大数据库的第一个步骤,它负责数据的迁移。由于大数据中心 是一个独立的数据环境,它需要能访问各种不同数据类型和数据存储方式的数据,并通 过抽取过程将数据从各种类型数据的数据源中导入到大数据中心。数据抽取的方式有增 量抽取和全量抽取等。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监 控等方面。数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序对大数据 中心中信息的有效性至关重要。

2)数据清洗

随着数据量急剧增加,数据质量问题是制约大数据中心应用的“瓶颈”之一,特别 是在进行大数据集成时,由于录入数据源的复杂性,其中包括滥用缩写词、数据输入错 误、数据中的内嵌控制信息、重复记录、丢失值、拼写变化、过时的编码等,给数据集 成和时空大数据库的创建与维护都带来非常大的困难。因此,数据在入库前应该提供入 库清洗,以确保时空大数据库中数据的一致性和准确性。

A. 数据清洗内容

数据清洗是消除数据的错误和不一致、解决对象标识的过程。数据清洗并不是简单 地用优质数据更新记录,它还涉及数据的分解与重组等,它是提供高质量数据的重要保 证。空间数据的清洗处理内容包括以下六方面。

(1)数据探查:了解和分析数据源,将数据加载到时空大数据库前防止出现数据质 量问题。

(2)数据标准化:统一数据的时间基准和空间基准,将数据转换为符合行业标准的 数据。

(3)字典表建立:根据需加载到时空大数据库中的数据建立数据字典。

(4)码清洗:对一些位置上出现无自然语义的控制符等所形成无意义的乱码进行 清洗。

(5)脏数据修改:对不符合标准的数据修改和对冗余数据的删除等处理。

(6)数据匹配:检查来自不同数据源的数据语义、命名等方面是否匹配。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们 18664393530@aliyun.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:《零基础Linux 从入门到精通》_从零开始_轻松掌握Linux操作系统_18.5 PHP使用
下一篇:《给所有人的Python》_第四版_也是给你的一本知识宝典_4.1 作为对象的内置类型概述
相关文章

 发表评论

暂时没有评论,来抢沙发吧~

×