8 resultados para Business Intelligence, ETL, Data Warehouse, Metadati, Reporting

em Chinese Academy of Sciences Institutional Repositories Grid Portal


Relevância:

100.00% 100.00%

Publicador:

Resumo:

ETL过程是一个从分布数据源(包括数据库、应用系统、文件系统等)抽取数据,进行转换、集成和传输,并最终加载到目标系统的过程。传统的ETL过程主要服务于数据仓库(Data Warehouse),属于企业决策支持系统的一部分。随着数据集成技术的发展和轻量级的数据集成中间件的出现,ETL过程广泛应用于企业数据集成与数据交换系统。在ETL过程中,数据质量控制是一个极为重要的基本组件和功能,它对集成中的数据进行检测、转换、清洗,以防止“脏”数据进入目标系统。在ETL过程中如果缺少对数据质量的有效控制,就会导致数据集成项目无法圆满实现目标或彻底失败。 针对ETL过程中存在的数据质量问题,设计并实现面向ETL过程的数据质量控制系统,是本文研究的重点。论文通过对ETL过程中各阶段可能产生的数据质量问题进行了分类,并对质量控制需求建模,提出一个面向ETL过程的数据质量控制框架,该框架通过对源端数据的分析来指导ETL的设计,通过灵活、可配置、可扩展的数据处理机制实现数据的过滤、转换与清洗,并支持对数据质量处理全过程进行监控。在该框架基础上,论文特别在灵活的数据处理机制、数据分析、数据过滤和数据清洗四个方面进行了探讨。在数据处理机制方面,提出了基于插件元模型的数据处理机制,该机制可以满足用户对数据过滤、数据转换与数据清洗等功能的各种定制需求,并具有较强的可扩展性;在数据分析方面,根据字段类型对数据进行分类统计,并针对大数据量统计分析问题,提出了可自动配置的不同数据统计策略;在数据过滤方面,通过将抽取数据的SQL语句重写的方式,过滤不满足完整性约束的元组;在数据清洗方法方面给出了一种利用统计信息动态确定属性相似度权重的方法,对基于字段的相似记录检测算法的领域无关算法进行了改进,提高了数据检测的准确性。在上述工作基础上,在数据集成中间件OnceDI中设计并实现了数据质量控制系统,并在设计中通过设计模式的应用增强系统的可扩展性。

Relevância:

100.00% 100.00%

Publicador:

Resumo:

在介绍了数据分析代理的概念后,提出了数据分析代理模式的体系结构,讨论了在不同类型企业中数据分析代理的具体应用模式企业内代理模式和企业外代理模式,对比分析了数据分析传统模式和代理模式二者之间特点,最后举例说明了数据分析代理模式在企业中的具体实践。

Relevância:

100.00% 100.00%

Publicador:

Resumo:

随着国内金融行业的逐步开放,中国银联也面临着跨国银行卡组织的激烈竞争,跨国银行卡组织拥有先进的IT技术和经营管理经验,和中国银联相比,具有很大竞争优势。银联为了积极面对跨国银行卡组织的挑战,成为一个知名品牌,必须加快信息化建设,转变经营观念,从传统的以业务为中心转移到以客户为中心,而商业智能技术——数据仓库和数据挖掘正是银联信息化建设的重要保障。 本文首先分析了银联的实际业务需求,结合银联的具体业务特点,设计与实现了银联的数据仓库系统,着重对数据仓库技术在银联中的应用现状进行了详细表述;该系统采用总线式的设计架构,有很好的一致性和可扩展性;系统采用维度建模方法进行数据仓库的逻辑设计,维度建模方法能很好地提高系统查询性能,在逻辑设计基础上本文也进行了数据仓库的物理设计。同时本文也详细介绍了数据仓库的重点部分——ETL系统的设计和实现,该ETL系统采用模块化的设计方法,采用元数据作为驱动方式,加强了调度管理和监控的功能,使该ETL工具更具智能性和更好的适应性。 本文在完成银联数据仓库系统建设的基础上,详细分析了银联业务系统要实现的OLAP分析目标,介绍了数据挖掘技术在银联客户分类中的应用,首次尝试在银联数据仓库系统中构建客户分类模型。在客户分类模型的构建中,我们首先采用聚类技术进行客户群分类,然后使用改进的SLIQ算法构建分类模型,本文对SLIQ算法中的符号型属性处理方法及其剪枝算法进行改进,并对结果进行对比分析,得到了一个较为合理的客户分类模型,取得了很好的应用效果,从而为银联数据仓库系统开发应用提供了可借鉴的操作思路。

Relevância:

100.00% 100.00%

Publicador:

Resumo:

随着信息系统在企业应用的不断发展,越来越多的企业高层领导已不满足从MIS、MRPII中获取的信息.本文结合在企业实际中应用的JSCIMS领导信息系统,首先介绍了CIMS环境下企业领导对信息系统的需求,然后给出了EIS的概念和EIS的CSFs,并在通用数据仓库模型基础上,提出了JSCIMS中EIS数据仓库的模型及建立过程.