OnceDI中可视化ETL工具的设计与实现


Autoria(s): 赵迪
Data(s)

05/06/2008

Resumo

随着网络技术的快速发展、企业信息化的不断深入,企业中分布的数据、信息和知识更加多样,更加复杂,企业信息系统更加开放。如何实现企业中这些数据、信息和知识集成和共享已成为关键性问题。数据集成技术正是针对这种需求,实现分布、异构、复杂数据、信息和知识的动态、灵活、实时的集成和共享。 OnceDI 2.0很好的解决了在数据级别上异构数据源的互操作问题,满足不同的数据集成需求,跨平台,跨多种数据源,具有增量传输,冲突解决等多种实用机制,并提供完善的安全和管理工具。然而,它也存在缺陷,包括:接收数据源只能根据接收到的数据块定义,这时已经完成了数据的发送过程;发送数据源和接收数据源的字段对应关系必须完全由人工构建等问题。 数据集成的目标是为用户访问多个分布的、独立的、异构的数据源提供统一的应用界面。在ETL(Extract-Transform-Load,即数据抽取、转换和加载)过程可视化配置中,包含如何让用户更好地理解ETL过程以及如何让用户更有效地、更容易地配置、管理和执行ETL过程等问题。 论文在研究数据集成过程特点基础上,围绕数据集成中的可视化ETL过程的问题,确立了本文关于数据集成中数据转换和数据过滤的研究方向。针对数据转换,论文从模式匹配和实例转换两方面入手。在模式匹配方面,论文提出一种本体辅助的自动化模式匹配算法,它包括三部分:决策树学习和WordNet词汇本体相结合的方法计算属性名称匹配,定义属性数据类型本体解决带数据类型的属性匹配以及利用领域本体构建属性间的非直接映射关系解决一对多的语义匹配。该方法使得数据转换的可视化过程操作更加简便,自动化匹配结果更令用户满意。在实例转换方面,论文提出一种实例转换工具的设计方案,界面更加友好,更重要地,使得用户对实例级别的转换操作更加清晰、简单。针对数据过滤,论文从数据质量控制条件设置的特点入手,提出一种数据质量控制条件设置工具设计方案。 最后,本文针对OnceDI 3.0中的数据集成模型和OnceDI 3.0客户端-控制中心-DI服务器的三层体系结构设计实现数据集成中的可视化ETL工具,在设计中通过设计模式的应用增强了系统的可扩展性。

Identificador

http://ir.iscas.ac.cn/handle/311060/6664

http://www.irgrid.ac.cn/handle/1471x/105772

Idioma(s)

中文

Fonte

OnceDI中可视化ETL工具的设计与实现.赵迪[d].中国科学院软件研究所,2008.20-25

Palavras-Chave #数据集成 #ETL #数据转换 #中间件
Tipo

学位论文