当前位置:天才代写 > tutorial > 大数据教程 > 数据仓库中的数据清洗的讲解

数据仓库中的数据清洗的讲解

2018-05-18 08:00 星期五 所属: 大数据教程 浏览:356

在众多学习中,文章也许不起眼,但是重要的下面我们就来讲解一下!!

什么是数据清洗?
“数据清洗确保无法辨认的数据不会进入数据仓库。无法辨认的数据将影响到数据仓库中通过联机分析处理(OLAP)、数据挖掘和关键绩效指标(KPI)所产生的报表。”
在哪里会用到数据清洗的一个简单例子是,数据是如何储存在不同的应用系统中的。例如:2007年3月11号可以储存为“03/11/07”或“11/03/07”及其他格式。一个数据仓库项目将数据输入数据仓库之前需要将不同格式的日期转变成一个统一的格式标准。
为什么要进行提取,转换和加载(ETL)?
提取、转换和加载 (ETL) 指的是一种可以oracle教程帮助确保数据在进入数据仓库之前被清洗过(即符合标准)的工具。供应商提供的提取、转换和加载 (ETL) 工具更加容易被用来管理持续进行的数据清洗。供应商提供的提取、转换和加载 (ETL) 工具坐镇在数据仓库之前,监测输入的数据。如果它遇到了程序指定转换的数据,它就会在数据载入数据仓库之前对其进行转换。

经李克强总理签批,2015年9月,国务院印发《促进大数据发展行动纲要》(以下简称《纲要》),系统部署大数据发展工作。
《纲要》明确,推动大数据发展和应用,在未来5至10年打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系,开启大众创业、万众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态。
《纲要》部署三方面主要任务。一要加快政府数据开放共享,推动资源整合,提升治理能力oracle视频教程。大力推动政府部门数据共享,稳步推动公共数据资源开放,统筹规划大数据基础设施建设,支持宏观调控科学化,推动政府治理精准化,推进商事服务便捷化,促进安全保障高效化,加快民生服务普惠化。二要推动产业创新发展,培育新兴业态,助力经济转型。发展大数据在工业、新兴产业、农业农村等行业领域应用,推动大数据发展与科研创新有机结合,推进基础研究和核心技术攻关,形成大数据产品体系,完善大数据产业链。三要强化安全保障,提高管理水平,促进健康发展。健全大数据安全保障体系,强化安全支撑。[11] 
2015年9月18日贵州省启动我国首个大数据综合试验区的建设工作,力争通过3至5年的努力,将贵州大数据综合试验区建设成为全国数据汇聚应用新高地、综合治理示范区、产业发展聚集区、创业创新首选地、政策创新先行区。
围绕这一目标,贵州省将重点构建“三大体系”,重点打造“七大平台”,实施“十大工程”。
“三大体系”是指构建先行先试的政策法规体系、跨界融合的产业生态体系、防控一体的安全保障体系;oracle视频“七大平台”则是指打造大数据示范平台、大数据集聚平台、大数据应用平台、大数据交易平台、大数据金融服务平台、大数据交流合作平台和大数据创业创新平台;“十大工程”即实施数据资源汇聚工程、政府数据共享开放工程、综合治理示范提升工程、大数据便民惠民工程、大数据三大业态培育工程、传统产业改造升级工程、信息基础设施提升工程、人才培养引进工程、大数据安全保障工程和大数据区域试点统筹发展工程。
此外,贵州省将计划通过综合试验区建设,探索大数据应用的创新模式,培育大数据交易新的做法,开展数据交易的市场试点,鼓励产业链上下游之间的数据交换,规范数据资源的交易行为,促进形成新的业态。
国家发展改革委有关专家表示,大数据综合试验区建设不是简单的建产业园、建数据中心、建云平台等,而是要充分依托已有的设施资源,把现有的利用好,把新建的规划好,避免造成空间资源的浪费和损失。探索大数据应用新的模式,围绕有数据、用数据、管数据,开展先行先试,更好地服务国家大数据发展战略。

数据仓库中的数据清洗的讲解
提取、转换和加载 (ETL) 工具也可以用来从远程数据库或者通过自动设定的事件或通过人工干预提取数据。有替代工具可以替换ETL工具,这要取决于你项目的复杂性和预算。数据库管理员们 (DBA) 可以编写脚本来完成提取、转换和加载 (ETL) 的功能,通常能满足较小的项目需要。微软的SQL服务器都有一个免费的被称为数据转换服务 (DTS) 的提取、转换和加载 (ETL) 工具。数据转换服务 (DTS) 是一款不错的免费工具,但它确实有其局限性,尤其是在数据清洗的持续管理上。
提取、转换和加载 (ETL) 的供应商有Informatica、IBM(Cognos)及Pentaho等。 在对所有产品进行选择时,在接触供应商之前列出你认为对一个提取、转换和加载 (ETL) 供应商的需求。从咨询顾问那里获得服务还是值得的,它能在产品的选择上帮助你进行需求分析。
数据清洗和提取、转换和加载(ETL)对一个数据仓库项目的成功有多重要?oracle数据库教程
在数据仓库产生的结果符合利益相关者的期望值时,提取、转换和加载 (ETL) 通常被忽视和置于脑后的。结果是,提取、转换和加载 (ETL) 冠以数据仓库项目的“沉默的杀手”的称号。大多数数据仓库项目由于数据清洗方面的意外情况而体验到延迟和预算超支的情况。
如何规划数据清洗?
及早开始对将要进入数据仓库的数据进行筹划是很重要的,这一筹划可能会随着项目的成熟发展而改变,但当你需要获得数据拥有者在没有事先通知的情况下不会改动数据的格式的承诺时,这些文件的踪迹就变得极为有价值。
创建一个需要提取、转换和加载的数据列表。为极有可能需要转换格式的数据设立一个独立的列表。对是否需要购买提取、转换和加载(ETL)工具做出决定,并留出一个全面的预算。从该领域的专家那里听取建议并评估产品是否适用于你企业的整体技术层次。
更多视频课程文章的课程,可到课课家官网查看。我在等你哟!!!

 

    关键字:

天才代写-代写联系方式