如何在云计算基础架构平台中创建云主机
126
2023-10-25
【摘要】 本书摘自《时空大数据与云平台 理论篇》一书中第1章,第1节,作者是吴信才。
5.1.1 时空大数据汇聚
3. 数据预处理
测绘遥感的空间数据有严格的产品标准和生产技术规程,而社会感知的非空间数据 没有标准规范,模态多样、杂乱无章,如何梳理成可信的数据是一大挑战。若信息数据 和空间数据两类数据要进行融合,需要解决数据量不一致、时空尺度不一致、精度不一 致、可靠性不一致的问题。
因此,多源异构数据和实时数据汇聚接入服务器后,需要经过一系列数据预处理才 能进行数据管理及利用,数据预处理是数据挖掘至关重要的环节。笔者认为,时空大数 据的预处理应包括以下步骤。
1)数据抽取
数据抽取是数据进入大数据库的第一个步骤,它负责数据的迁移。由于大数据中心 是一个独立的数据环境,它需要能访问各种不同数据类型和数据存储方式的数据,并通 过抽取过程将数据从各种类型数据的数据源中导入到大数据中心。数据抽取的方式有增 量抽取和全量抽取等。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监 控等方面。数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序对大数据 中心中信息的有效性至关重要。
2)数据清洗
随着数据量急剧增加,数据质量问题是制约大数据中心应用的“瓶颈”之一,特别 是在进行大数据集成时,由于录入数据源的复杂性,其中包括滥用缩写词、数据输入错 误、数据中的内嵌控制信息、重复记录、丢失值、拼写变化、过时的编码等,给数据集 成和时空大数据库的创建与维护都带来非常大的困难。因此,数据在入库前应该提供入 库清洗,以确保时空大数据库中数据的一致性和准确性。
A. 数据清洗内容
数据清洗是消除数据的错误和不一致、解决对象标识的过程。数据清洗并不是简单 地用优质数据更新记录,它还涉及数据的分解与重组等,它是提供高质量数据的重要保 证。空间数据的清洗处理内容包括以下六方面。
(1)数据探查:了解和分析数据源,将数据加载到时空大数据库前防止出现数据质 量问题。
(2)数据标准化:统一数据的时间基准和空间基准,将数据转换为符合行业标准的 数据。
(3)字典表建立:根据需加载到时空大数据库中的数据建立数据字典。
(4)码清洗:对一些位置上出现无自然语义的控制符等所形成无意义的乱码进行 清洗。
(5)脏数据修改:对不符合标准的数据修改和对冗余数据的删除等处理。
(6)数据匹配:检查来自不同数据源的数据语义、命名等方面是否匹配。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们 18664393530@aliyun.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~