2 resultados para PDF (Format)

em Instituto Politécnico do Porto, Portugal


Relevância:

60.00% 60.00%

Publicador:

Resumo:

Esta dissertação apresenta uma proposta de sistema capaz de preencher a lacuna entre documentos legislativos em formato PDF e documentos legislativos em formato aberto. O objetivo principal é mapear o conhecimento presente nesses documentos de maneira a representar essa coleção como informação interligada. O sistema é composto por vários componentes responsáveis pela execução de três fases propostas: extração de dados, organização de conhecimento, acesso à informação. A primeira fase propõe uma abordagem à extração de estrutura, texto e entidades de documentos PDF de maneira a obter a informação desejada, de acordo com a parametrização do utilizador. Esta abordagem usa dois métodos de extração diferentes, de acordo com as duas fases de processamento de documentos – análise de documento e compreensão de documento. O critério utilizado para agrupar objetos de texto é a fonte usada nos objetos de texto de acordo com a sua definição no código de fonte (Content Stream) do PDF. A abordagem está dividida em três partes: análise de documento, compreensão de documento e conjunção. A primeira parte da abordagem trata da extração de segmentos de texto, adotando uma abordagem geométrica. O resultado é uma lista de linhas do texto do documento; a segunda parte trata de agrupar os objetos de texto de acordo com o critério estipulado, produzindo um documento XML com o resultado dessa extração; a terceira e última fase junta os resultados das duas fases anteriores e aplica regras estruturais e lógicas no sentido de obter o documento XML final. A segunda fase propõe uma ontologia no domínio legal capaz de organizar a informação extraída pelo processo de extração da primeira fase. Também é responsável pelo processo de indexação do texto dos documentos. A ontologia proposta apresenta três características: pequena, interoperável e partilhável. A primeira característica está relacionada com o facto da ontologia não estar focada na descrição pormenorizada dos conceitos presentes, propondo uma descrição mais abstrata das entidades presentes; a segunda característica é incorporada devido à necessidade de interoperabilidade com outras ontologias do domínio legal, mas também com as ontologias padrão que são utilizadas geralmente; a terceira característica é definida no sentido de permitir que o conhecimento traduzido, segundo a ontologia proposta, seja independente de vários fatores, tais como o país, a língua ou a jurisdição. A terceira fase corresponde a uma resposta à questão do acesso e reutilização do conhecimento por utilizadores externos ao sistema através do desenvolvimento dum Web Service. Este componente permite o acesso à informação através da disponibilização de um grupo de recursos disponíveis a atores externos que desejem aceder à informação. O Web Service desenvolvido utiliza a arquitetura REST. Uma aplicação móvel Android também foi desenvolvida de maneira a providenciar visualizações dos pedidos de informação. O resultado final é então o desenvolvimento de um sistema capaz de transformar coleções de documentos em formato PDF para coleções em formato aberto de maneira a permitir o acesso e reutilização por outros utilizadores. Este sistema responde diretamente às questões da comunidade de dados abertos e de Governos, que possuem muitas coleções deste tipo, para as quais não existe a capacidade de raciocinar sobre a informação contida, e transformá-la em dados que os cidadãos e os profissionais possam visualizar e utilizar.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

The aim of this paper is to present the main Portuguese results from a multi-national study on reading format preferences and behaviors from undergraduate students from Polytechnic Institute of Porto (Portugal). For this purpose we apply an adaptation of the Academic Reading Questionnaire previously created by Mizrachi (2014). This survey instrument has 14 Likert-style statements regarding the format influence in the students reading behavior, including aspects such as ability to remember, feelings about access convenience, active engagement with the text by highlighting and annotating, and ability to review and concentrate on the text. The importance of the language and dimension of the text to determine the preference format is also inquired. Students are also asked about the electronic device they use to read digital documents. Finally, some demographic and academic data were gathered. The analysis of the results will be contextualized on a review of the literature concerning youngsters reading format preferences. The format (digital or print) in which a text is displayed and read can impact comprehension, which is an important information literacy skill. This is a quite relevant issue for class readings in academic context because it impacts learning. On the other hand, students preferences on reading formats will influence the use of library services. However, literature is not unanimous on this subject. Woody, Daniel and Baker (2010) concluded that the experience of reading is not the same in electronic or print context and that students prefer print books than e-books. This thesis is reinforced by Ji, Michaels and Waterman (2014) which report that among 101 undergraduates the large majority self-reported to read and learn more when they use printed format despite the fact that they prefer electronically supplied readings instead of those supplied in printed form. On the other side, Rockinson-Szapkiw, et al (2013) conducted a study were they demonstrate that e-textbook is as effective for learning as the traditional textbook and that students who choose e-textbook had significantly higher perceived learning than students who chose to use print textbooks.