12 resultados para ETL

em Chinese Academy of Sciences Institutional Repositories Grid Portal


Relevância:

20.00% 20.00%

Publicador:

Resumo:

ETL过程是一个从分布数据源(包括数据库、应用系统、文件系统等)抽取数据,进行转换、集成和传输,并最终加载到目标系统的过程。传统的ETL过程主要服务于数据仓库(Data Warehouse),属于企业决策支持系统的一部分。随着数据集成技术的发展和轻量级的数据集成中间件的出现,ETL过程广泛应用于企业数据集成与数据交换系统。在ETL过程中,数据质量控制是一个极为重要的基本组件和功能,它对集成中的数据进行检测、转换、清洗,以防止“脏”数据进入目标系统。在ETL过程中如果缺少对数据质量的有效控制,就会导致数据集成项目无法圆满实现目标或彻底失败。 针对ETL过程中存在的数据质量问题,设计并实现面向ETL过程的数据质量控制系统,是本文研究的重点。论文通过对ETL过程中各阶段可能产生的数据质量问题进行了分类,并对质量控制需求建模,提出一个面向ETL过程的数据质量控制框架,该框架通过对源端数据的分析来指导ETL的设计,通过灵活、可配置、可扩展的数据处理机制实现数据的过滤、转换与清洗,并支持对数据质量处理全过程进行监控。在该框架基础上,论文特别在灵活的数据处理机制、数据分析、数据过滤和数据清洗四个方面进行了探讨。在数据处理机制方面,提出了基于插件元模型的数据处理机制,该机制可以满足用户对数据过滤、数据转换与数据清洗等功能的各种定制需求,并具有较强的可扩展性;在数据分析方面,根据字段类型对数据进行分类统计,并针对大数据量统计分析问题,提出了可自动配置的不同数据统计策略;在数据过滤方面,通过将抽取数据的SQL语句重写的方式,过滤不满足完整性约束的元组;在数据清洗方法方面给出了一种利用统计信息动态确定属性相似度权重的方法,对基于字段的相似记录检测算法的领域无关算法进行了改进,提高了数据检测的准确性。在上述工作基础上,在数据集成中间件OnceDI中设计并实现了数据质量控制系统,并在设计中通过设计模式的应用增强系统的可扩展性。

Relevância:

20.00% 20.00%

Publicador:

Resumo:

随着网络技术的快速发展、企业信息化的不断深入,企业中分布的数据、信息和知识更加多样,更加复杂,企业信息系统更加开放。如何实现企业中这些数据、信息和知识集成和共享已成为关键性问题。数据集成技术正是针对这种需求,实现分布、异构、复杂数据、信息和知识的动态、灵活、实时的集成和共享。 OnceDI 2.0很好的解决了在数据级别上异构数据源的互操作问题,满足不同的数据集成需求,跨平台,跨多种数据源,具有增量传输,冲突解决等多种实用机制,并提供完善的安全和管理工具。然而,它也存在缺陷,包括:接收数据源只能根据接收到的数据块定义,这时已经完成了数据的发送过程;发送数据源和接收数据源的字段对应关系必须完全由人工构建等问题。 数据集成的目标是为用户访问多个分布的、独立的、异构的数据源提供统一的应用界面。在ETL(Extract-Transform-Load,即数据抽取、转换和加载)过程可视化配置中,包含如何让用户更好地理解ETL过程以及如何让用户更有效地、更容易地配置、管理和执行ETL过程等问题。 论文在研究数据集成过程特点基础上,围绕数据集成中的可视化ETL过程的问题,确立了本文关于数据集成中数据转换和数据过滤的研究方向。针对数据转换,论文从模式匹配和实例转换两方面入手。在模式匹配方面,论文提出一种本体辅助的自动化模式匹配算法,它包括三部分:决策树学习和WordNet词汇本体相结合的方法计算属性名称匹配,定义属性数据类型本体解决带数据类型的属性匹配以及利用领域本体构建属性间的非直接映射关系解决一对多的语义匹配。该方法使得数据转换的可视化过程操作更加简便,自动化匹配结果更令用户满意。在实例转换方面,论文提出一种实例转换工具的设计方案,界面更加友好,更重要地,使得用户对实例级别的转换操作更加清晰、简单。针对数据过滤,论文从数据质量控制条件设置的特点入手,提出一种数据质量控制条件设置工具设计方案。 最后,本文针对OnceDI 3.0中的数据集成模型和OnceDI 3.0客户端-控制中心-DI服务器的三层体系结构设计实现数据集成中的可视化ETL工具,在设计中通过设计模式的应用增强了系统的可扩展性。

Relevância:

20.00% 20.00%

Publicador:

Resumo:

University of Twente; Centre for Telematics and Information Technology; Netherlands Organisation for Scientific Research; Jacquard; Capgemini

Relevância:

10.00% 10.00%

Publicador:

Resumo:

油菜素甾醇类(Brassinosteroids,BRs)是一类新的植物内源激素,在植物整个生长发育周期中发挥着很重要的作用。拟南芥中BR信号转导途径基本清晰,从膜受体BRI1到细胞质中的负调控因子BIN2,再到核内的转录因子BZR1和BES1。但是从BR信号感知到细胞质内的传递,再到细胞核内的调控特异基因的表达都还有很多问题有待于进一步的探索。 本研究运用激活标签pDSK15-11对大约5000株拟南芥bzr1-1D进行了转化, 得到抗性植株约50000株,构建了一个拟南芥激活标签突变体库,从中筛选到和BR相关的突变体七个,并对其中的B26和B16突变体进行了详细的分析。此外还筛选到若干个和BR没有关系的突变体,并对其中的一个表皮毛缺陷的突变体B11进行了分析。 B26是一株恢复了bzr1-1D茎叶处打弯表型的突变体,并且具有矮化、叶色深绿、晚花等特点。B26部分抑制了bzr1-1D对BR合成抑制剂BRZ的不敏感性,但仍然对BR超敏感。BR上调的基因SAUR-AC1在bzr1-1D中表达上升,而在B26突变体中SAUR-AC1的表达量比bzr1-1D中有所下降。B26突变体显示的表型是依赖于bzr1-1D突变的。我们通过T-DNA侧翼序列,RT-PCR,以及重现实验证实造成突变表型的基因,并命名为BZS1。BZS1编码一个B类锌指蛋白,在植物发育的各个时期各个器官中都有表达。亚细胞定位分析显示BZS1定位于细胞质和细胞核中,以上这些结果说明BZS1可能在BR信号途径中是位于BZR1的下游,作为一个负的调节因子调控下游BR反应基因的表达。 B16是从突变体库中筛选得到的一个叶柄明显增长,营养生长期延长,开花晚,结实率比较低的突变体。T-DNA侧翼序列和基因表达分析显示B16突变体中T-DNA插入点附近的一个基因表达量升高,这一基因被命名为BZE1。BZE1编码一个含有bHLH结构域的蛋白。BZE1 RNAi转基因植株的叶柄比对照明显变短,说明BZE1调控叶柄的伸长。在B16突变体中,CPD和DWF4的表达较bzr1-1D中增强了,而SAUR-AC1的表达减弱了,这一结果说明BZE1过表达减弱了BZR1对CPD的反馈抑制。Pro35S:BZE1 /bzr1-1D转基因植株对BRZ的敏感度与bzr1-1D相似。BR不调节BZE1的转录水平,却可以促进BZE1蛋白在核内积累。这些结果都说明BR处理不改变BZE1的转录水平,只是通过促进BZE1在核内的积累增加,从而参与调控下游基因的表达,如CPD。随着这些突变体研究的进一步深入,将有助于我们更好的理解BR信号转导途径。 B11是一个叶片(包括莲座叶和茎生叶)和茎表皮毛缺失,但根毛发育正常的突变体,T-DNA侧翼序列和基因表达分析显示B11突变体表型是由于ETL1的过量表达造成的。ETL1可能是一个表皮毛特异表达的基因,对根毛的发育影响不大。功能缺失突变体etl1-1和野生型拟南芥具有相似的表皮毛数量和分布,根毛的数量和分布也没有明显的变化,这就说明ETL1可能与其他同源基因功能冗余。ETL1在gl1中表达量增加,由此推测ETL1在表皮毛的发育中可能起负调控的作用。

Relevância:

10.00% 10.00%

Publicador:

Resumo:

数据集成是企业间和企业内部信息资源交换和共享的关键技术,随着企业信息系统规模的不断扩大,数据集成系统呈现出分布式、复杂化、运行环境敏感等特点。对数据集成系统进行监视有助于把握系统的状态和行为,保证系统运行质量。部署在广域网环境中的分布式数据集成系统,运行环境复杂,如何准确、高效、低开销地对其进行监视是非常值得研究的问题。 论文对数据集成系统的监视需求进行了总结,指出广域网中对分布式数据集成系统进行监视所面临的特殊问题:信息传输的不可靠性和较高的监视开销。在此基础上,围绕ETL运行时监视,系统状态和性能监视、客户端监视信息的获取和监视数据的统计四个方面展开研究。在ETL运行时监视方面,论文提出了一种通过匹配监视事件模型来对监视事件进行还原的方法,在一定程度上解决了复杂网络环境下监视机制中可靠性与高效性的矛盾,在此基础上,论文提出了基于关键事件的捎带和校验技术,进一步提高了监视的准确性,并可以降低监视开销;在系统状态和性能监视方面,论文采用基于心跳的服务器状态监视方法,使用有序的服务器映射表进行状态维护;在客户端监视信息获取方面,论文通过将请求、命令、执行体分离,对请求进行标准化和最小化处理,并使用线程池技术,降低了监视开销并使系统易于扩展;在监视数据的统计方面,论文归纳了常用的数据集成统计指标,有助于在较高的层面上了解系统和系统中对象的性能和行为变化。 最后,论文应用以上研究成果,为数据集成中间件OnceDI设计和实现了监视系统。

Relevância:

10.00% 10.00%

Publicador:

Resumo:

ZSM-5 zeolites with similar SUM ratio were synthesized successfully using various templates (n-butylamine (BTA), ethylamine (ETA), isopropylamine (IPA), ethylenediamine (EDA), ethanol (ETL), ethanol-ammonium (ETL-AM) and no template (NT)) under hydrothermal conditions. The samples were characterized by XRD, SEM, XRF, NH3-TPD and BET surface area measurements in order to understand the template effects and the differences of the ZSM-5 samples. The synthesis of ZSM-5 with organic templates was relatively easier than those with inorganic templates and without template. SEM results revealed that ZSM-5 synthesized with different templates had different morphology and particle size. The Si/Al ratio and BET specific surface area of the sample with ethanol as template was the lowest. NH3-TPD results showed that the sample synthesized without template had fewer strong acid sites than others. n-Hexane cracking reaction was carried out over the samples to evaluate the catalytic properties. All ZSM-5 zeolites were effective in n-hexane cracking reaction, especially for the sample synthesized without template. (C) 2004 Elsevier B.V. All rights reserved.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

经过多年的信息化建设,北京市电子政务水平得到了极大的提升,在配备了完善的IT基础设施的同时,也开发了许多应用系统;市政府下属各个区县的信息中心及部门也基本建成了政府门户网站和基于自身业务需要的应用系统,并且积累了大量政务信息资源,北京市的电子政务正在从最初的政府上网阶段全面向电子政务应用阶段推进。随着应用的广泛深入,不同政府部门之间的交互日益增多,政务信息资源在政府部门之间共享的要求越来越迫切,但是目前的电子政务架构显然难以满足政务信息资源在政府部门之间实现互联互通的需求。为此,北京市提出了建设政务信息资源共享交换平台的要求,为政务信息资源的共享交换提供一个场所,在资源提供部门提供资源和资源需求部门获取资源之间起到桥梁和纽带的作用。本文对共享交换平台涉及的技术进行了讨论,提出了共享交换平台的一种设计和实现方案,并且对该方案在北京市西城区政务信息资源共享交换平台建设中的实施效果进行了分析。首先,文章对共享交换平台建设过程中涉及的技术以及这些技术在电子政务中的应用进行了介绍,包括元数据与目录服务相关技术、数据仓库与数据挖掘技术、数据抽取、转换与加载(ETL)技术、商务智能与政务智能技术等。对各种技术目前的应用状况与平台需求的不一致性进行了分析,提出了需要完善和改进的要求。其次,文章提出了一种政务信息资源共享交换平台的设计方案,并对其中关键部分进行了详细的分析。针对北京市电子政务的需求,我们提出了以目录管理、数据交换和统计分析为基础的平台设计方案:通过目录管理系统,资源提供部门上传本部门可以提供的资源信息,资源需求部门可以了解到平台的共享资源以及获取资源的渠道;利用数据交换系统,将各部门内部的数据交换到平台的共享数据库中,真正实现政务信息资源在不同部门之间的共享;对于经过处理进入平台的大量准确、一致的资源,政府领导可以通过统计分析系统进行统计,获取各种统计图表,为领导更好的决策提供依据。该方案综合考虑了共享交换平台用户多方面的需求,借鉴了学术上、技术上已有成果,并进行了改进,具有较好的研究价值和实用价值。最后,论文以北京市西城区政务信息资源共享交换平台的设计开发为例,介绍如何将本文提出的平台设计方案应用到实践中,并对实际应用效果进行了分析。结果表明,该方案较好地满足了西城区电子政务的需求,取得了良好的实施效果。

Relevância:

10.00% 10.00%

Publicador:

Resumo:

We have found that organic light-emitting diode (OLED) performance was highly improved by using europium oxide (Eu2O3) as a buffer layer on indium tin oxide (ITO) in OLEDs based on tris-(8-hydroxyquinoline) aluminium (Alq(3)), which showed low turn-on voltage, high luminance, and high electroluminescent (EL) efficiency. The thickness of Eu2O3 generally was 0.5-1.5 nm. We investigated the effects of Eu2O3 on internal electric field distributions in the device through the analysis of current-voltage characteristics, and found that the introduction of the buffer layer balanced the internal electric field distributions in hole transport layer (HTL) and electron transport layer (ETL), which should fully explain the role of the buffer layer in improving device performance. Our investigation demonstrates that the hole injection is Fowler-Nordheim (FN) tunnelling and the electron injection is Richardson-Schottky (RS) thermionic emission, which are very significant in understanding the operational mechanism and improving the performance, of OLEDs.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

90年代Gartner Group提出客户关系管理(CRM)的概念,CRM可以说是针对一系列与客户有关的问题的处理方案。随着中国加入WTO,许多企业已经认识到了CRM的重要性,银行就是其中一个典型的例子。利用CRM的管理理论,建立适合银行的CRM系统是本文要研究的问题。 在CRM系统的实施过程中,涉及到几类必不可少的相关技术。数据仓库的实施是CRM系统实施的基石,为实现对客户资料的分析与知识的挖掘奠定了数据的组织基础。联机分析处理技术(OLAP)和数据挖掘技术的运用则是CRM系统有效实施的核心,合理的分析结果是CRM系统建设成功的关键。 按照辽宁省工商银行提出的需求,主要完成绩效考核管理、降低营销成本以及进行风险控制的目标。本文旨在通过将数据仓库技术、OLAP和数据挖掘技术的结合,构建一个完整的、高效的银行CRM系统,为银行的加快信息化建设提供帮助。 通过系统的设计与实现,本文完成的主要工作成果有: (1)根据可以获得的银行数据以及系统目标确立分析主题,以主题为依据组织数据,进行数据仓库的模型设计。 (2)设计并实现了银行数据仓库的ETL系统,改善了现有ETL工具的不足,实现了数据的自动抽取,使用配置文件增强了系统的灵活性,在系统恢复等几方面优化了系统的性能,完成了高效,准确,安全的ETL过程。 (3)结合具体分析目标,选择合适的统计学方法、OLAP技术和数据挖掘技术运用于系统中,设计并实现了系统的五个分析模型,分别为绩效考核管理模型,客户价值评价模型,客户分类模型,交叉销售模型以及信贷风险分析模型。并以实际数据为依据,得到了较好的分析结果。 (4)在信贷风险分析模型中,对现有决策树算法C45算法做出了改进。通过对测试属性选择的控制,在一定程度上提高了算法的准确性和预测性,并给出了模型结果的比较分析。 本文设计并实现了完整的基于数据仓库技术的银行CRM系统,较好的完成了系统的分析目标。本文的研究对商业银行充分利用客户资源,提高竞争力具有十分重要的意义。

Relevância:

10.00% 10.00%

Publicador:

Resumo:

银行属于数据密集型企业,每天产生海量的业务数据,蕴含有大量有用的信息。如何利用这些数据,让其发挥巨大作用,成为提高银行竞争力的重要内容。当前,随着银行转变经营理念、信息技术的飞速发展,银行信息化已经进入一个全新的发展时期,数据仓库技术等新兴技术已成为银行数据分析和决策必不可少的重要工具。但目前,很多数据仓库应用显得功能不够实用,效果也没有预想的明显。为此,结合业务来深入研究数据仓库的使用机理,挖掘分析功能成为银行当前迫在眉睫的任务。 本文首先通过分析银行现有的实际业务需求,着重对数据仓库技术在银行业中的应用现状进行了详细表述,并根据数据仓库和数据挖掘技术的深入研究,结合银行的具体业务特点,设计与实现了商业银行分布式数据仓库系统;同时对分布式数据仓库系统的构建机理和实施步骤进行了详细描述。利用构件方式重新设计和实现了数据仓库中的重要部分——ETL系统,并加入ETL服务器的线程池缓冲区机制,实现系统性能的优化。 本文在建立数据仓库系统的基础上,利用联机分析处理OLAP技术和改进数据挖掘K-means聚类算法——X-means算法,实现了银行数据仓库系统的客户管理分析功能,取得了很好的应用效果,从而为银行数据仓库系统开发应用提供了可借鉴的操作思路。

Relevância:

10.00% 10.00%

Publicador:

Resumo:

随着国内金融行业的逐步开放,中国银联也面临着跨国银行卡组织的激烈竞争,跨国银行卡组织拥有先进的IT技术和经营管理经验,和中国银联相比,具有很大竞争优势。银联为了积极面对跨国银行卡组织的挑战,成为一个知名品牌,必须加快信息化建设,转变经营观念,从传统的以业务为中心转移到以客户为中心,而商业智能技术——数据仓库和数据挖掘正是银联信息化建设的重要保障。 本文首先分析了银联的实际业务需求,结合银联的具体业务特点,设计与实现了银联的数据仓库系统,着重对数据仓库技术在银联中的应用现状进行了详细表述;该系统采用总线式的设计架构,有很好的一致性和可扩展性;系统采用维度建模方法进行数据仓库的逻辑设计,维度建模方法能很好地提高系统查询性能,在逻辑设计基础上本文也进行了数据仓库的物理设计。同时本文也详细介绍了数据仓库的重点部分——ETL系统的设计和实现,该ETL系统采用模块化的设计方法,采用元数据作为驱动方式,加强了调度管理和监控的功能,使该ETL工具更具智能性和更好的适应性。 本文在完成银联数据仓库系统建设的基础上,详细分析了银联业务系统要实现的OLAP分析目标,介绍了数据挖掘技术在银联客户分类中的应用,首次尝试在银联数据仓库系统中构建客户分类模型。在客户分类模型的构建中,我们首先采用聚类技术进行客户群分类,然后使用改进的SLIQ算法构建分类模型,本文对SLIQ算法中的符号型属性处理方法及其剪枝算法进行改进,并对结果进行对比分析,得到了一个较为合理的客户分类模型,取得了很好的应用效果,从而为银联数据仓库系统开发应用提供了可借鉴的操作思路。