ETL过程是一个从分布数据源(包括数据库、应用系统、文件系统等)抽取数据,进行转换、集成和传输,并最终加载到目标系统的过程。传统的ETL过程主要服务于数据仓库(Data Warehouse),属于企业决策支持系统的一部分。随着数据集成技术的发展和轻量级的数据集成中间件的出现,ETL过程广泛应用于企业数据集成与数据交换系统。在ETL过程中,数据质量控制是一个极为重要的基本组件和功能,它对集成中的数据进行检测、转换、清洗,以防止“脏”数据进入目标系统。在ETL过程中如果缺少对数据质量的有效控制,就会导致数据集成项目无法圆满实现目标或彻底失败。 针对ETL过程中存在的数据质量问题,设计并实现面向ETL过程的数据质量控制系统,是本文研究的重点。论文通过对ETL过程中各阶段可能产生的数据质量问题进行了分类,并对质量控制需求建模,提出一个面向ETL过程的数据质量控制框架,该框架通过对源端数据的分析来指导ETL的设计,通过灵活、可配置、可扩展的数据处理机制实现数据的过滤、转换与清洗,并支持对数据质量处理全过程进行监控。在该框架基础上,论文特别在灵活的数据处理机制、数据分析、数据过滤和数据清洗四个方面进行了探讨。在数据处理机制方面,提出了基于插件元模型的数据处理机制,该机制可以满足用户对数据过滤、数据转换与数据清洗等功能的各种定制需求,并具有较强的可扩展性;在数据分析方面,根据字段类型对数据进行分类统计,并针对大数据量统计分析问题,提出了可自动配置的不同数据统计策略;在数据过滤方面,通过将抽取数据的SQL语句重写的方式,过滤不满足完整性约束的元组;在数据清洗方法方面给出了一种利用统计信息动态确定属性相似度权重的方法,对基于字段的相似记录检测算法的领域无关算法进行了改进,提高了数据检测的准确性。在上述工作基础上,在数据集成中间件OnceDI中设计并实现了数据质量控制系统,并在设计中通过设计模式的应用增强系统的可扩展性。
随着网络技术的快速发展、企业信息化的不断深入,企业中分布的数据、信息和知识更加多样,更加复杂,企业信息系统更加开放。如何实现企业中这些数据、信息和知识集成和共享已成为关键性问题。数据集成技术正是针对这种需求,实现分布、异构、复杂数据、信息和知识的动态、灵活、实时的集成和共享。 OnceDI 2.0很好的解决了在数据级别上异构数据源的互操作问题,满足不同的数据集成需求,跨平台,跨多种数据源,具有增量传输,冲突解决等多种实用机制,并提供完善的安全和管理工具。然而,它也存在缺陷,包括:接收数据源只能根据接收到的数据块定义,这时已经完成了数据的发送过程;发送数据源和接收数据源的字段对应关系必须完全由人工构建等问题。 数据集成的目标是为用户访问多个分布的、独立的、异构的数据源提供统一的应用界面。在ETL(Extract-Transform-Load,即数据抽取、转换和加载)过程可视化配置中,包含如何让用户更好地理解ETL过程以及如何让用户更有效地、更容易地配置、管理和执行ETL过程等问题。 论文在研究数据集成过程特点基础上,围绕数据集成中的可视化ETL过程的问题,确立了本文关于数据集成中数据转换和数据过滤的研究方向。针对数据转换,论文从模式匹配和实例转换两方面入手。在模式匹配方面,论文提出一种本体辅助的自动化模式匹配算法,它包括三部分:决策树学习和WordNet词汇本体相结合的方法计算属性名称匹配,定义属性数据类型本体解决带数据类型的属性匹配以及利用领域本体构建属性间的非直接映射关系解决一对多的语义匹配。该方法使得数据转换的可视化过程操作更加简便,自动化匹配结果更令用户满意。在实例转换方面,论文提出一种实例转换工具的设计方案,界面更加友好,更重要地,使得用户对实例级别的转换操作更加清晰、简单。针对数据过滤,论文从数据质量控制条件设置的特点入手,提出一种数据质量控制条件设置工具设计方案。 最后,本文针对OnceDI 3.0中的数据集成模型和OnceDI 3.0客户端-控制中心-DI服务器的三层体系结构设计实现数据集成中的可视化ETL工具,在设计中通过设计模式的应用增强了系统的可扩展性。
Nous présentons nos grilles de modèles d'atmosphères pour les étoiles sous-naines chaudes de type O (sdO) soit : des modèles classiques hors-ETL H, He, des modèles hors-ETL avec, en plus, du C, N, O et finalement des modèles incluant C, N, O, Fe. En utilisant les raies de Balmer et d'hélium dans le domaine du visible, nous avons fait des comparaisons entre les spectres théoriques de nos différentes grilles afin de caractériser les effets des métaux. On trouve que ces effets dépendent à la fois de la température et de la gravité. De plus, l'abondance d'hélium a une influence importante sur les effets des métaux; une abondance d'hélium faible (log N(He)/N(H) < -1,5) occasionne des effets assez importants alors qu'une abondance plus élevée tend à réduire ces mêmes effets. Nous avons aussi trouvé que l'ajout du fer (en abondance solaire) ne cause que des changements relativement faibles à la structure en température et, par le fait même, aux profils des raies d'hydrogène et d'hélium, par rapport aux changements déjà produits par le C, N, O (en abondance solaire). Nous avons utilisé nos grilles pour faire une analyse spectroscopique du spectre à haut signal sur bruit (180) et basse résolution (9 Å) de SDSS J160043.6+074802.9 obtenu au télescope Bok. Notre meilleure ajustement a été obtenu avec notre grille de spectres synthétiques incluant C, N, O et Fe en quantité solaire, menant aux paramètres suivants : Teff = 68 500 ± 1770 K, log g = 6,09 ± 0,07, and log N(He)/N(H) = -0,64 ± 0,05, où les incertitudes proviennent uniquement de la procédure d'ajustement. Ces paramètres atmosphériques, particulièrement la valeur de l'abondance d'hélium, placent notre étoile dans une région où les effets des métaux ne sont pas très marqués.
Avec la mise en place dans les dernières années d'une grappe d'ordinateurs (CALYS) dédiés aux calculs de modèles stellaires pour notre groupe de recherche, il nous est désormais possible d'exploiter à leur plein potentiel les modèles d'atmosphères hors équilibre thermodynamique local (HETL) en y incluant des éléments métalliques. Ce type de modèles, plutôt exigeant en temps de calcul, est toutefois essentiel pour analyser correctement les spectres d'étoiles chaudes comme les sous-naines de type O (sdO). Les travaux effectués dans le cadre de cette thèse ont comme point commun l'utilisation de tels modèles d'atmosphères pour faire l'analyse spectroscopique d'étoiles sous-naines chaudes dans des contextes variés. Le coeur de cette thèse porte sur Bd+28 4211, une étoile standard de type sdO très chaude, dans laquelle le problème des raies de Balmer, qui empêche de reproduire ces dernières avec une unique, et réaliste, combinaison de paramètres atmosphériques, est bien présent. Dans un premier temps nous présentons une analyse approfondie de son spectre ultraviolet (UV). Cela nous permet de déterminer les abondances de métaux dans l'atmosphère de l'étoile et de contraindre sa température effective et sa gravité de surface. Par la suite, ces résultats servent de point de départ à l'analyse du spectre optique de l'étoile, dans lequel le problème des raies de Balmer se fait sentir. Cette analyse nous permet de conclure que l'inclusion des abondances métalliques propres à l'étoile dans les modèles d'atmosphères HETL n'est pas suffisant pour surmonter le problème des raies de Balmer. Toutefois, en y incluant des abondances dix fois solaires, nous arrivons à reproduire correctement les raies de Balmer et d'hélium présentes dans les spectres visibles lors d'un ajustement de paramètres. De plus, les paramètres résultants concordent avec ceux indiqués par le spectre UV. Nous concluons que des sources d'opacité encore inconnues ou mal modélisées sont à la source de ce problème endémique aux étoiles chaudes. Par la suite nous faisons une étude spectroscopique de Feige 48, une étoile de type sdB pulsante particulièrement importante. Nous arrivons à reproduire très bien le spectre visible de cette étoile, incluant les nombreuses raies métalliques qui s'y trouvent. Les paramètres fondamentaux obtenus pour Feige 48 corroborent ceux déjà présents dans la littérature, qui ont été obtenus avec des types de modèles d'atmosphères moins sophistiqués, ce qui implique que les effets HETL couplés à la présence de métaux ne sont pas importants dans l'atmosphère de cette étoile particulière. Nous pouvons donc affirmer que les paramètres de cette étoile sont fiables et peuvent servir de base à une future étude astérosismologique quantitative. Finalement, 38 étoiles sous-naines chaudes appartenant à l'amas globulaire omega Centauri ont été analysées afin de déterminer, outre leur température et gravité de surface, leurs abondances d'hélium et de carbone. Nous montrons qu'il existe une corrélation entre les abondances photosphériques de ces deux éléments. Nous trouvons aussi des différences entre les étoiles riches en hélium de l'amas du celles du champ. Dans leur ensemble, nos résultats remettent en question notre compréhension du mécanisme de formation des sous-naines riches en hélium.
Las herramientas ETL (Extract, Transform, Load – extraer, transformar, cargar) permiten modelizar flujos de datos, facilitando la ejecución automática de procesos repetitivos. El intercambio de información entre dos modelos de datos heterogéneos es un claro ejemplo del tipo de tareas que pueden abordarse con software ETL. El proyecto Kettle es una herramienta ETL con licencia LGPL (Library General Public License) que utiliza técnicas de computación grid (ejecución paralela y distribuida) para poder procesar grandes cantidades de datos en un tiempo reducido. Kettle combina una potente ejecución en modo servidor con una intuitiva herramienta de escritorio para modelar los procesos y configurar los parámetros de ejecución. GeoKettle es una extensión de Kettle, que añade la posibilidad de tratar datos con componente geográfica, si bien está limitado a datos vectoriales y a ciertas operaciones espaciales muy concreta. El Centro Temático Europeo de Usos del Suelo e Información Espacial (ETC-LUSI) está impulsando un proyecto complementario, llamado BeETLe, que pretende ampliar drásticamente las capacidades de análisis y transformación espacial de GeoKettle. Para ello se ha elegido el proyecto Sextante, una librería de análisis espacial que incluye más de doscientos algoritmos ráster y vectoriales. La intención del proyecto BeETLe es integrar el conjunto de algoritmos de Sextante en GeoKettle, de forma que estén disponibles como transformaciones de GeoKettle. Las principales características de la herramienta BeETLe incluyen: automatización de procesos de análisis espacial o de transformaciones repetitivas de datos espaciales, ejecución paralela y distribuida (grid computing), capacidad para procesar grandes cantidades de datos sin limitaciones de memoria, y soporte de datos ráster y vectorial. Los usuarios actuales de Sextante descubrirán que BeETLe les propone una forma de trabajo sencilla e intuitiva, que añade a Sextante toda la potencia que ofrecen las herramientas ETL para procesar y transformar información en bases de datos
The ultrastructural functions of the electron-dense glycopeptidolipid-containing outermost layer (OL), the arabinogalactan-mycolic acid-containing electron-transparent layer (ETL), and the electron-dense peptidoglycan layer (PGL) of the mycobacterial cell wall in septal growth and constriction are not clear. Therefore, using transmission electron microscopy, we studied the participation of the three layers in septal growth and constriction in the fast-growing saprophytic species Mycobacterium smegmatis and the slow-growing pathogenic species Mycobacterium xenopi and Mycobacterium tuberculosis in order to document the processes in a comprehensive and comparative manner and to find out whether the processes are conserved across different mycobacterial species. A complete septal partition is formed first by the fresh synthesis of the septal PGL (S-PGL) and septal ETL (S-ETL) from the envelope PGL (E-PGL) in M. smegmatis and M. xenopi. The S-ETL is not continuous with the envelope ETL (E-ETL) due to the presence of the E-PGL between them. The E-PGL disappears, and the S-ETL becomes continuous with the E-ETL, when the OL begins to grow and invaginate into the S-ETL for constriction. However, in M. tuberculosis, the S-PGL and S-ETL grow from the E-PGL and E-ETL, respectively, without a separation between the E-ETL and S-ETL by the E-PGL, in contrast to the process in M. smegmatis and M. xenopi. Subsequent growth and invagination of the OL into the S-ETL of the septal partition initiates and completes septal constriction in M. tuberculosis. A model for the conserved sequential process of mycobacterial septation, in which the formation of a complete septal partition is followed by constriction, is presented. The probable physiological significance of the process is discussed. The ultrastructural features of septation and constriction in mycobacteria are unusually different from those in the well-studied organisms Escherichia coli and Bacillus subtilis.
ENGLISH: Age composition of catch, and growth rate, of yellowfin tuna have been estimated by Hennemuth (1961a) and Davidoff (1963). The relative abundance and instantaneous total mortality rate of yellowfin tuna during 1954-1959 have been estimated by Hennenmuth (1961b). It is now possible to extend this work, because more data are available; these include data for 1951-1954, which were previously not available, and data for 1960-1962, which were collected subsequent to Hennemuth's (1961b) publication. In that publication, Hennemuth estimated the total instantaneous mortality rate (Z) during the entire time period a year class is present in the fishery following full recruitment. However, this method may lead to biased estimates of abundance, and hence mortality rates, because of both seasonal migrations into or out of specific fishing areas and possible seasonal differences in availability or vulnerability of the fish to the fishing gear. Schaefer, Chatwin and Broadhead (1961) and Joseph etl al. (1964) have indicated that seasonal migrations of yellowfin occur. A method of estimating mortality rates which is not biased by seasonal movements would be of value in computations of population dynamics. The method of analysis outlined and used in the present paper may obviate this bias by comparing the abundance of an individual yellowfin year class, following its period of maximum abundance, in an individual area during a specific quarter of the year with its abundance in the same area one year later. The method was suggested by Gulland (1955) and used by Chapman, Holt and Allen (1963) in assessing Antarctic whale stocks. This method, and the results of its use with data for yellowfin caught in the eastern tropical Pacific from 1951-1962 are described in this paper. SPANISH: La composición de edad de la captura, y la tasa de crecimiento del atún aleta amarilla, han sido estimadas por Hennemuth (1961a) y Davidoff (1963). Hennemuth (1961b), estimó la abundancia relativa y la tasa de mortalidad total instantánea del atún aleta amarilla durante 1954-1959. Se puede ampliar ahora, este trabajo, porque se dispone de más datos; éstos incluyen datos de 1951 1954, de los cuales no se disponía antes, y datos de 1960-1962 que fueron recolectados después de la publicación de Hennemuth (1961b). En esa obra, Hennemuth estimó la tasa de mortalidad total instantánea (Z) durante todo el período de tiempo en el cual una clase anual está presente en la pesquería, consecutiva al reclutamiento total. Sin embargo, este método puede conducir a estimaciones con bias (inclinación viciada) de abundancia, y de aquí las tasas de mortalidad, debidas tanto a migraciones estacionales dentro o fuera de las áreas determinadas de pesca, como a posibles diferencias estacionales en la disponibilidad y vulnerabilidad de los peces al equipo de pesca. Schaefer, Chatwin y Broadhead (1961) y Joseph et al. (1964) han indicado que ocurren migraciones estacionales de atún aleta amarilla. Un método para estimar las tasas de mortalidad el cual no tuviera bias debido a los movimientos estacionales, sería de valor en los cómputos de la dinámica de las poblaciones. El método de análisis delineado y usado en el presente estudio puede evitar este bias al comparar la abundancia de una clase anual individual de atún aleta amarilla, subsecuente a su período de abundancia máxima en un área individual, durante un trimestre específico del año, con su abundancia en la misma área un año más tarde. Este método fue sugerido por Gulland (1955) y empleado por Chapman, Holt y Allen (1963) en la declaración de los stocks de la ballena antártica. Este método y los resultados de su uso, en combinación con los datos del atún aleta amarilla capturado en el Pacífico oriental tropical desde 1951-1962, son descritos en este estudio.
油菜素甾醇类(Brassinosteroids,BRs)是一类新的植物内源激素,在植物整个生长发育周期中发挥着很重要的作用。拟南芥中BR信号转导途径基本清晰,从膜受体BRI1到细胞质中的负调控因子BIN2,再到核内的转录因子BZR1和BES1。但是从BR信号感知到细胞质内的传递,再到细胞核内的调控特异基因的表达都还有很多问题有待于进一步的探索。 本研究运用激活标签pDSK15-11对大约5000株拟南芥bzr1-1D进行了转化, 得到抗性植株约50000株,构建了一个拟南芥激活标签突变体库,从中筛选到和BR相关的突变体七个,并对其中的B26和B16突变体进行了详细的分析。此外还筛选到若干个和BR没有关系的突变体,并对其中的一个表皮毛缺陷的突变体B11进行了分析。 B26是一株恢复了bzr1-1D茎叶处打弯表型的突变体,并且具有矮化、叶色深绿、晚花等特点。B26部分抑制了bzr1-1D对BR合成抑制剂BRZ的不敏感性,但仍然对BR超敏感。BR上调的基因SAUR-AC1在bzr1-1D中表达上升,而在B26突变体中SAUR-AC1的表达量比bzr1-1D中有所下降。B26突变体显示的表型是依赖于bzr1-1D突变的。我们通过T-DNA侧翼序列,RT-PCR,以及重现实验证实造成突变表型的基因,并命名为BZS1。BZS1编码一个B类锌指蛋白,在植物发育的各个时期各个器官中都有表达。亚细胞定位分析显示BZS1定位于细胞质和细胞核中,以上这些结果说明BZS1可能在BR信号途径中是位于BZR1的下游,作为一个负的调节因子调控下游BR反应基因的表达。 B16是从突变体库中筛选得到的一个叶柄明显增长,营养生长期延长,开花晚,结实率比较低的突变体。T-DNA侧翼序列和基因表达分析显示B16突变体中T-DNA插入点附近的一个基因表达量升高,这一基因被命名为BZE1。BZE1编码一个含有bHLH结构域的蛋白。BZE1 RNAi转基因植株的叶柄比对照明显变短,说明BZE1调控叶柄的伸长。在B16突变体中,CPD和DWF4的表达较bzr1-1D中增强了,而SAUR-AC1的表达减弱了,这一结果说明BZE1过表达减弱了BZR1对CPD的反馈抑制。Pro35S:BZE1 /bzr1-1D转基因植株对BRZ的敏感度与bzr1-1D相似。BR不调节BZE1的转录水平,却可以促进BZE1蛋白在核内积累。这些结果都说明BR处理不改变BZE1的转录水平,只是通过促进BZE1在核内的积累增加,从而参与调控下游基因的表达,如CPD。随着这些突变体研究的进一步深入,将有助于我们更好的理解BR信号转导途径。 B11是一个叶片(包括莲座叶和茎生叶)和茎表皮毛缺失,但根毛发育正常的突变体,T-DNA侧翼序列和基因表达分析显示B11突变体表型是由于ETL1的过量表达造成的。ETL1可能是一个表皮毛特异表达的基因,对根毛的发育影响不大。功能缺失突变体etl1-1和野生型拟南芥具有相似的表皮毛数量和分布,根毛的数量和分布也没有明显的变化,这就说明ETL1可能与其他同源基因功能冗余。ETL1在gl1中表达量增加,由此推测ETL1在表皮毛的发育中可能起负调控的作用。
The performance of polymer-fullerene bulk heterojunction (BHJ) solar cells is strongly dependent on the vertical distribution of the donor and acceptor regions within the BHJ layer. In this work, we investigate in detail the effect of the hole transport layer (HTL) physical properties and the thermal annealing on the BHJ morphology and the solar cell performance. For this purpose, we have prepared solar cells with four distinct formulations of poly(3,4- ethylenedioxythiophene) poly(styrenesulfonate) (PEDOT:PSS) buffer layers. The samples were subjected to thermal annealing, applied either before (pre-annealing) or after (post-annealing) the cathode metal deposition. The effect of the HTL and the annealing process on the BHJ ingredient distribution - namely, poly(3-hexylthiophene) (P3HT) and [6,6]-phenyl C61 butyric acid methyl ester (PCBM) - has been studied by spectroscopic ellipsometry and atomic force microscopy. The results revealed P3HT segregation at the top region of the films, which had a detrimental effect on all pre-annealed devices, whereas PCBM was found to accumulate at the bottom interface. This demixing process depends on the PEDOT:PSS surface energy; the more hydrophilic the surface the more profound is the vertical phase separation within the BHJ. At the same time those samples suffer from high recombination losses as evident from the analysis of the J-V measurements obtained in the dark. Our results underline the significant effect of the HTL-active and active-ETL (electron transport layer) interfacial composition that should be taken into account during the optimization of all polymer-fullerene solar cells. © 2012 The Royal Society of Chemistry.
数据集成是企业间和企业内部信息资源交换和共享的关键技术,随着企业信息系统规模的不断扩大,数据集成系统呈现出分布式、复杂化、运行环境敏感等特点。对数据集成系统进行监视有助于把握系统的状态和行为,保证系统运行质量。部署在广域网环境中的分布式数据集成系统,运行环境复杂,如何准确、高效、低开销地对其进行监视是非常值得研究的问题。 论文对数据集成系统的监视需求进行了总结,指出广域网中对分布式数据集成系统进行监视所面临的特殊问题:信息传输的不可靠性和较高的监视开销。在此基础上,围绕ETL运行时监视,系统状态和性能监视、客户端监视信息的获取和监视数据的统计四个方面展开研究。在ETL运行时监视方面,论文提出了一种通过匹配监视事件模型来对监视事件进行还原的方法,在一定程度上解决了复杂网络环境下监视机制中可靠性与高效性的矛盾,在此基础上,论文提出了基于关键事件的捎带和校验技术,进一步提高了监视的准确性,并可以降低监视开销;在系统状态和性能监视方面,论文采用基于心跳的服务器状态监视方法,使用有序的服务器映射表进行状态维护;在客户端监视信息获取方面,论文通过将请求、命令、执行体分离,对请求进行标准化和最小化处理,并使用线程池技术,降低了监视开销并使系统易于扩展;在监视数据的统计方面,论文归纳了常用的数据集成统计指标,有助于在较高的层面上了解系统和系统中对象的性能和行为变化。 最后,论文应用以上研究成果,为数据集成中间件OnceDI设计和实现了监视系统。
ZSM-5 zeolites with similar SUM ratio were synthesized successfully using various templates (n-butylamine (BTA), ethylamine (ETA), isopropylamine (IPA), ethylenediamine (EDA), ethanol (ETL), ethanol-ammonium (ETL-AM) and no template (NT)) under hydrothermal conditions. The samples were characterized by XRD, SEM, XRF, NH3-TPD and BET surface area measurements in order to understand the template effects and the differences of the ZSM-5 samples. The synthesis of ZSM-5 with organic templates was relatively easier than those with inorganic templates and without template. SEM results revealed that ZSM-5 synthesized with different templates had different morphology and particle size. The Si/Al ratio and BET specific surface area of the sample with ethanol as template was the lowest. NH3-TPD results showed that the sample synthesized without template had fewer strong acid sites than others. n-Hexane cracking reaction was carried out over the samples to evaluate the catalytic properties. All ZSM-5 zeolites were effective in n-hexane cracking reaction, especially for the sample synthesized without template. (C) 2004 Elsevier B.V. All rights reserved.