995 resultados para semantic patterns


Relevância:

100.00% 100.00%

Publicador:

Resumo:

In this paper we present an automatic system for the extraction of syntactic semantic patterns applied to the development of multilingual processing tools. In order to achieve optimum methods for the automatic treatment of more than one language, we propose the use of syntactic semantic patterns. These patterns are formed by a verbal head and the main arguments, and they are aligned among languages. In this paper we present an automatic system for the extraction and alignment of syntactic semantic patterns from two manually annotated corpora, and evaluate the main linguistic problems that we must deal with in the alignment process.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

In the last few years, there has been a wide development in the research on textual information systems. The goal is to improve these systems in order to allow an easy localization, treatment and access to the information stored in digital format (Digital Databases, Documental Databases, and so on). There are lots of applications focused on information access (for example, Web-search systems like Google or Altavista). However, these applications have problems when they must access to cross-language information, or when they need to show information in a language different from the one of the query. This paper explores the use of syntactic-sematic patterns as a method to access to multilingual information, and revise, in the case of Information Retrieval, where it is possible and useful to employ patterns when it comes to the multilingual and interactive aspects. On the one hand, the multilingual aspects that are going to be studied are the ones related to the access to documents in different languages from the one of the query, as well as the automatic translation of the document, i.e. a machine translation system based on patterns. On the other hand, this paper is going to go deep into the interactive aspects related to the reformulation of a query based on the syntactic-semantic pattern of the request.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Most existing approaches to Twitter sentiment analysis assume that sentiment is explicitly expressed through affective words. Nevertheless, sentiment is often implicitly expressed via latent semantic relations, patterns and dependencies among words in tweets. In this paper, we propose a novel approach that automatically captures patterns of words of similar contextual semantics and sentiment in tweets. Unlike previous work on sentiment pattern extraction, our proposed approach does not rely on external and fixed sets of syntactical templates/patterns, nor requires deep analyses of the syntactic structure of sentences in tweets. We evaluate our approach with tweet- and entity-level sentiment analysis tasks by using the extracted semantic patterns as classification features in both tasks. We use 9 Twitter datasets in our evaluation and compare the performance of our patterns against 6 state-of-the-art baselines. Results show that our patterns consistently outperform all other baselines on all datasets by 2.19% at the tweet-level and 7.5% at the entity-level in average F-measure.

Relevância:

70.00% 70.00%

Publicador:

Resumo:

The Leximancer system is a relatively new method for transforming lexical co-occurrence information from natural language into semantic patterns in an unsupervised manner. It employs two stages of co-occurrence information extraction-semantic and relational-using a different algorithm for each stage. The algorithms used are statistical, but they employ nonlinear dynamics and machine learning. This article is an attempt to validate the output of Leximancer, using a set of evaluation criteria taken from content analysis that are appropriate for knowledge discovery tasks.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Det har knappast undgått någon som är språkligt medveten att finlandssvenskan och sverigesvenskan skiljer sig åt till vissa delar. Olikheterna återfinns på olika språkliga nivåer. Mest kända och omskrivna är de lexikologiska skillnaderna, dvs. skillnaderna på ordplanet. Betydligt mindre uppmärksamhet har ägnats syntaktiska skillnader, dvs. skillnader i hur satser och meningar byggs upp. För att öka kunskapen om finlandssvensk syntax initierade Språkvetenskapliga nämnden vid Svenska litteratursällskapet i Finland projektet Svenskan i Finland – syntaktiska drag i ett jämförande perspektiv, som pågick åren 2004–2006. Min avhandling har kommit till inom ramen för det projektet. Prepositionerna (t.ex. av, i, på, för, till, åt osv.) är så kallade funktionsord som har till uppgift att binda samman de mer betydelsetunga orden till satser och meningar. Den finlandssvenska prepositionsanvändningen skiljer sig i viss mån från den sverigesvenska, och ”åt” är en av de prepositioner som ofta lyfts fram som exempel. Finlandssvenskarna säger t.ex. ”han gav en bok åt Lena” i stället för ”han gav en bok till Lena” eller ”han gav Lena en bok”. De säger ”berätta något åt någon” (i stället för ”för”) och de säger ”ringa åt någon” i stället för ”ringa någon”. Ett huvudsyfte med min undersökning är att ta reda på hur pass stora skillnaderna är om man ser till samtliga belägg på ”åt” i ett material och inte bara till sådana som man fäster sig vid för att man vet att de avviker i finlandssvenskan. Undersökningen är korpusbaserad. Det betyder att jag letat efter alla belägg på kombinationer av verb och prepositionen ”åt” i rätt stora textmassor som finns tillgängliga i elektronisk form. Materialet ligger i Språkbanken i Finland och omfattar huvudsakligen tidningstext och skönlitteratur. Jag har använt mig av en textmassa på sammanlagt ungefär 40 miljoner löpande ord, drygt 23 miljoner finlandssvenska och drygt 19 miljoner sverigesvenska. Det materialet gav ca 20 000 åt-belägg att studera, och det visade sig något oväntat att ”åt” inte alls är vanligare i finlandssvenskan än i sverigesvenskan när det gäller skriftspråk, åtminstone inte i professionella skribenters språk. Om man kompenserar för att den finlandssvenska och den sverigesvenska korpusen inte är helt lika i fråga om genrefördelning och ålder, kommer man fram till i stort sett samma frekvens för ”åt” i båda korpusarna. För den närmare analysen av vilka mönster åt-beläggen uppvisar har jag först och främst utnyttjat konstruktionsgrammatik men också ramsemantik och valensteori. Konstruktionsgrammatiken är ingen enhetlig teori, men tanken om grammatiska konstruktioner är gemensam. Konstruktioner representerar allt från generella syntaktiska mönster till specifika mönster för språkliga enskildheter. Uppfattningen om vad som ska inbegripas i begreppet varierar, men definitionen av ”konstruktion” som ”par (eller konstellationer) av form och betydelse” är gemensam. ”Konstruktion” avser aldrig konkreta belägg i texter eller yttranden utan alltid det abstrakta mönstret bakom dessa. Och varje yttrande är resultatet av att en stor mängd konstruktioner samverkar. I min analys har jag utgått ifrån att beläggen med ”åt” kan återföras på olika konstruktioner eller mönster utifrån vad som är gemensamt för grupper av belägg. Jag har sett på vad åt-frasen i samverkan med verbet har för funktion i beläggen. En åt-fras är syntaktiskt en prepositionsfras och består av en preposition och en rektion. Exempelvis utgör ordparet ”åt skogen” en prepositionsfras där ”skogen” är rektion. Ur mitt material har jag kunnat abstrahera fram fem övergripande mönster där referenten för rektionen har olika så kallade semantiska roller. Åt-frasen kan i kombination med verbet ange mål eller riktmärke, som i t.ex. svänga åt höger, dra åt helvete, ta sig åt hjärtat, luta åt en seger för IFK. Den kan för det andra ange mottagare (t.ex. ge varsin kaka åt hundarna, bygga en bastu åt sina svärföräldrar, skaffa biljetter åt en kompis). För det tredje kan åt-frasen avse en referent som har nytta (eller skada) av en aktion (t.ex. klippa häcken åt grannen, ställa in digitalboxen åt sin moster). Åt-frasen kan slutligen avse den eller det som är föremål antingen för en kommunikationsaktion (vinka åt sin son, skratta åt eländet) eller en attityd eller känsla (glädja sig åt framgången). Utöver dessa huvudmönster finns det ett antal smärre grupper av belägg som bildar egna mönster, men de utgör sammanlagt under 3 % i bägge korpusarna. Inom grupperna kan undermönster urskiljas. I t.ex. mottagargruppen representerar ”ge varsin kaka åt hundarna” överföringskonstruktion, ”bygga en bastu åt sina svärföräldrar” produktionskonstruktion och ”skaffa biljetter åt en kompis” ombesörjningskonstruktion. Alla typer är gemensamma för bägge materialen, men andelen belägg som representerar de olika typerna skiljer sig betydligt. I det sverigesvenska materialet står t.ex. det mönster där åt-frasen avser mål eller riktmärke för en mycket större andel av beläggen än i finlandssvenskan. Också andelen belägg där åt-frasen avser någon som har nytta (eller skada) av en aktion är mycket högre i det sverigesvenska materialet. I det finlandssvenska materialet står i gengäld mottagarbeläggen för över 50 % av beläggen medan andelen i det sverigesvenska materialet är bara 30 %. Inom gruppen utgör belägg av produktions- och ombesörjningstyp dessutom en mindre andel i det finlandssvenska materialet än i det sverigesvenska. Dessa står till sin funktion nära den typ som avser den som har nytta av aktionen. De konkreta beläggen på överföring (ge varsin kaka åt hundarna) utgör en större andel i det finlandssvenska materialet än i det sverigesvenska (ca 8 % mot 3 %), men typiskt för båda materialen är hög kollokationsgrad (”kollokation” avser par eller grupper av ord som uppträder oftare tillsammans än de statiskt sett skulle göra vid helt slumpmässig förekomst). Största delen av mottagarbeläggen utgörs av fraser av typen ”ge arbete åt någon, ge eftertryck åt något, ge liv åt något; ägna tid åt något, ägna sitt liv åt något, ägna uppmärksamhet åt något”. De här slutsatserna gäller alltså skriftspråk. I talspråk ser fördelningen annorlunda ut. Typiskt för prepositionen ”åt” är överhuvudtaget hög kollokationsgrad. Det förefaller som om språkanvändarna har tydliga, färdiga mallar för var ”åt” kan komma in. Det enda mönster som verkar helt produktivt, i den meningen att elementen är i stort sett fritt kombinerbara, är kombinationer av verb och åt-fras där åt-frasen avser den som har nytta av något. Att någon utför något för någons räkning verkar överlag kunna uttryckas med prepositionen ”åt”: t.ex. ”tvätta bilen åt pappa, ringa efter en taxi åt kunden”. Till och med belägg av typen ”hon drömde åt honom att bli ordinarie adjunkt” förekommer i någon mån. Konstruktionen är produktiv i båda språkvarieteterna men uppenbart är att konstruktion med mottagare har tolkningsföreträde i vissa fall i finlandssvenskan: ”Filip skrev ett brev åt sin syster” tolkas av sverigesvenskar som att Filip skrev brevet för systerns räkning, medan finlandssvenskar överlag uppenbarligen tolkar det som att Filip skrev till sin syster, att systern var mottagare av brevet. Ungefär 20 % av alla belägg i båda materialen representerar fall där ”åt” utgör partikel. Verb och ”åt” är närmare förbundna med varandra än när ”åt” utgör normal preposition. Exempel på partikelbelägg är ”han kom inte åt strömbrytaren, det gick åt mängder med saft, landet får dra åt svångremmen, de roffade åt sig de bästa platserna”. Också partikelmaterialet ser på ett generellt plan väldigt lika ut i båda språkvarieteterna. Den största skillnaden uppvisar den reflexiva typen ”roffa åt sig”. Medan typen är mycket homogen i det sverigesvenska materialet är variationen större i det finlandsvenska. Dels uppträder fler verb i kombinationen (han köpte åt sig ett par jeans), dels vacklar ordföljden (han nappade åt sig ett paraply ~ han nappade ett paraply åt sig). Att ”åt” används mer i vissa funktioner i finlandsvenskan brukar förklaras med påverkan från finskans allativ (ändelsen -lle: hän antoi kirjan Astalle > hon gav en bok åt Asta). Allt tyder dock på att den finlandssvenska åt-användningen delvis är en relikt. I äldre sverigesvenska källor träffar man på ”åt” i sådana kontexter som numera är typiska för finlandsvenskan. Det finlandssvenska språkområdet ligger ute i periferin i relation till det språkliga centrum som förändringar sprider sig från (för svenskans del främst Stockholmstrakten) och typiskt för perifera områden är att de uppvisar ålderdomliga drag också när inga kontaktfenomen spelar in. Allativen kan naturligtvis ha bidragit till att bevara användningen av ”åt” i finlandssvenskan. Att det är just ”åt” som används” beror antagligen på att prepositionen har flest funktioner gemensamt med allativen rent kognitivt om man jämför med de betydligt mer frekventa prepositionerna ”till” och ”för”. Uppenbart är också att åt-användningen därtill lever sitt eget liv i finlandssvenskan. I vissa varieteter av finlandssvenska kan man t.ex. höra yttranden av typ ”alla fiskarna dog åt dom”. Som språklig enskildhet har det ingen finsk förebild med allativ. Yttrandet är ett exempel på töjning av en svensk konstruktion. Modell finns dels i det mönster där åt avser den som har nytta eller skada av något, dels i relationell användning av ”åt”: han är hantlangare åt Eriksson ~ han är Erikssons hantlangare. Vid språkkontakt är det överlag konstruktioner som har förebild i det låntagande språket som lånas in från det långivande språket, medan konstruktioner som saknar förebild är betydligt mindre benägna att vinna insteg.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

La minería de opinión o análisis de sentimiento es un tipo de análisis de texto que pretende ayudar a la toma de decisiones a través de la extracción y el análisis de opiniones, identificando las opiniones positivas, negativas y neutras; y midiendo su repercusión en la percepción de un tópico. En este trabajo se propone un modelo de análisis de sentimiento basado en diccionarios, que a través de la semántica y de los patrones semánticos que conforman el texto a clasificar, permite obtener la polaridad del mismo, en la red social Twitter. Para el conjunto de datos de entrada al sistema se han considerado datos públicos obtenidos de la red social Twitter, de compañías del sector de las telecomunicaciones que operan en el mercado Español.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

Finding and labelling semantic features patterns of documents in a large, spatial corpus is a challenging problem. Text documents have characteristics that make semantic labelling difficult; the rapidly increasing volume of online documents makes a bottleneck in finding meaningful textual patterns. Aiming to deal with these issues, we propose an unsupervised documnent labelling approach based on semantic content and feature patterns. A world ontology with extensive topic coverage is exploited to supply controlled, structured subjects for labelling. An algorithm is also introduced to reduce dimensionality based on the study of ontological structure. The proposed approach was promisingly evaluated by compared with typical machine learning methods including SVMs, Rocchio, and kNN.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

The study of semantic memory in patients with Alzheimer's disease (AD) has raised important questions about the representation of conceptual knowledge in the human brain. It is still unknown whether semantic memory impairments are caused by localized damage to specialized regions or by diffuse damage to distributed representations within nonspecialized brain areas. To our knowledge, there have been no direct correlations of neuroimaging of in vivo brain function in AD with performance on tasks differentially addressing visual and functional knowledge of living and nonliving concepts. We used a semantic verification task and resting 18-fluorodeoxyglucose positron emission tomography in a group of mild to moderate AD patients to investigate this issue. The four task conditions required semantic knowledge of (1) visual, (2) functional properties of living objects, and (3) visual or (4) functional properties of nonliving objects. Visual property verification of living objects was significantly correlated with left posterior fusiform gyrus metabolism (Brodmann's area [BA] 37/19). Effects of visual and functional property verification for non-living objects largely overlapped in the left anterior temporal (BA 38/20) and bilateral premotor areas (BA 6), with the visual condition extending more into left lateral precentral areas. There were no associations with functional property verification for living concepts. Our results provide strong support for anatomically separable representations of living and nonliving concepts, as well as visual feature knowledge of living objects, and against distributed accounts of semantic memory that view visual and functional features of living and nonliving objects as distributed across a common set of brain areas.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Semantic Web offers many possibilities for future Web technologies. Therefore, it is a need to search for ways that can bring the huge amount of unstructured documents from current Web to Semantic Web automatically. One big challenge in searching for such ways is how to understand patterns by both humans and machine. To address this issue, we present an innovative model which interprets patterns to high level concepts. These concepts can explain the patterns' meanings in a human understandable way while improving the information filtering performance. The model is evaluated by comparing it against one state-of-the-art benchmark model using standard Reuters dataset. The results show that the proposed model is successful. The significance of this model is three fold. It gives a way to interpret text mining output, provides a technique to find concepts relevant to the whole set of patterns which is an essential feature to understand the topic, and to some extent overcomes information mismatch and overload problems of existing models. This model will be very useful for knowledge based applications.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Multi-document summarization addressing the problem of information overload has been widely utilized in the various real-world applications. Most of existing approaches adopt term-based representation for documents which limit the performance of multi-document summarization systems. In this paper, we proposed a novel pattern-based topic model (PBTMSum) for the task of the multi-document summarization. PBTMSum combining pattern mining techniques with LDA topic modelling could generate discriminative and semantic rich representations for topics and documents so that the most representative and non-redundant sentences can be selected to form a succinct and informative summary. Extensive experiments are conducted on the data of document understanding conference (DUC) 2007. The results prove the effectiveness and efficiency of our proposed approach.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Achieving a clearer picture of categorial distinctions in the brain is essential for our understanding of the conceptual lexicon, but much more fine-grained investigations are required in order for this evidence to contribute to lexical research. Here we present a collection of advanced data-mining techniques that allows the category of individual concepts to be decoded from single trials of EEG data. Neural activity was recorded while participants silently named images of mammals and tools, and category could be detected in single trials with an accuracy well above chance, both when considering data from single participants, and when group-training across participants. By aggregating across all trials, single concepts could be correctly assigned to their category with an accuracy of 98%. The pattern of classifications made by the algorithm confirmed that the neural patterns identified are due to conceptual category, and not any of a series of processing-related confounds. The time intervals, frequency bands and scalp locations that proved most informative for prediction permit physiological interpretation: the widespread activation shortly after appearance of the stimulus (from 100. ms) is consistent both with accounts of multi-pass processing, and distributed representations of categories. These methods provide an alternative to fMRI for fine-grained, large-scale investigations of the conceptual lexicon. © 2010 Elsevier Inc.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

The Supreme Court of the United States in Feist v. Rural (Feist, 1991) specified that compilations or databases, and other works, must have a minimal degree of creativity to be copyrightable. The significance and global diffusion of the decision is only matched by the difficulties it has posed for interpretation. The judgment does not specify what is to be understood by creativity, although it does give a full account of the negative of creativity, as ‘so mechanical or routine as to require no creativity whatsoever’ (Feist, 1991, p.362). The negative of creativity as highly mechanical has particularly diffused globally.

A recent interpretation has correlated ‘so mechanical’ (Feist, 1991) with an automatic mechanical procedure or computational process, using a rigorous exegesis fully to correlate the two uses of mechanical. The negative of creativity is then understood as an automatic computation and as a highly routine process. Creativity is itself is conversely understood as non-computational activity, above a certain level of routinicity (Warner, 2013).

The distinction between the negative of creativity and creativity is strongly analogous to an independently developed distinction between forms of mental labour, between semantic and syntactic labour. Semantic labour is understood as human labour motivated by considerations of meaning and syntactic labour as concerned solely with patterns. Semantic labour is distinctively human while syntactic labour can be directly humanly conducted or delegated to machine, as an automatic computational process (Warner, 2005; 2010, pp.33-41).

The value of the analogy is to greatly increase the intersubjective scope of the distinction between semantic and syntactic mental labour. The global diffusion of the standard for extreme absence of copyrightability embodied in the judgment also indicates the possibility that the distinction fully captures the current transformation in the distribution of mental labour, where syntactic tasks which were previously humanly performed are now increasingly conducted by machine.

The paper has substantive and methodological relevance to the conference themes. Substantively, it is concerned with human creativity, with rationality as not reducible to computation, and has relevance to the language myth, through its indirect endorsement of a non-computable or not mechanical semantics. These themes are supported by the underlying idea of technology as a human construction. Methodologically, it is rooted in the humanities and conducts critical thinking through exegesis and empirically tested theoretical development

References

Feist. (1991). Feist Publications, Inc. v. Rural Tel. Service Co., Inc. 499 U.S. 340.

Warner, J. (2005). Labor in information systems. Annual Review of Information Science and Technology. 39, 2005, pp.551-573.

Warner, J. (2010). Human Information Retrieval (History and Foundations of Information Science Series). Cambridge, MA: MIT Press.

Warner, J. (2013). Creativity for Feist. Journal of the American Society for Information Science and Technology. 64, 6, 2013, pp.1173-1192.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

This paper contributes a new approach for developing UML software designs from Natural Language (NL), making use of a meta-domain oriented ontology, well established software design principles and Natural Language Processing (NLP) tools. In the approach described here, banks of grammatical rules are used to assign event flows from essential use cases. A domain specific ontology is also constructed, permitting semantic mapping between the NL input and the modeled domain. Rules based on the widely-used General Responsibility Assignment Software Principles (GRASP) are then applied to derive behavioral models.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

In this study, we introduce an original distance definition for graphs, called the Markov-inverse-F measure (MiF). This measure enables the integration of classical graph theory indices with new knowledge pertaining to structural feature extraction from semantic networks. MiF improves the conventional Jaccard and/or Simpson indices, and reconciles both the geodesic information (random walk) and co-occurrence adjustment (degree balance and distribution). We measure the effectiveness of graph-based coefficients through the application of linguistic graph information for a neural activity recorded during conceptual processing in the human brain. Specifically, the MiF distance is computed between each of the nouns used in a previous neural experiment and each of the in-between words in a subgraph derived from the Edinburgh Word Association Thesaurus of English. From the MiF-based information matrix, a machine learning model can accurately obtain a scalar parameter that specifies the degree to which each voxel in (the MRI image of) the brain is activated by each word or each principal component of the intermediate semantic features. Furthermore, correlating the voxel information with the MiF-based principal components, a new computational neurolinguistics model with a network connectivity paradigm is created. This allows two dimensions of context space to be incorporated with both semantic and neural distributional representations.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Cette thèse constitue une étude systématique du lexique du déné sųłiné, une langue athabaskane du nord-ouest canadien. Elle présente les définitions et les patrons de combinatoire syntaxique et lexicale de plus de 200 unités lexicales, lexèmes et phrasèmes, qui représentent une partie importante du vocabulaire déné sųłiné dans sept domaines: les émotions, le caractère humain, la description physique des entités, le mouvement des êtres vivants, la position des entités, les conditions atmospheriques et les formations topologiques, en les comparant avec le vocubulaire équivalent de l'anglais. L’approche théorique choisie est la Théorie Sens-Texte (TST), une approche formelle qui met l’accent sur la description sémantique et lexicographique empiriques. La présente recherche relève d'importantes différences entre le lexique du déné sųłiné et celui de l'anglais à tous les niveaux: dans la correspondence entre la représentation conceptuelle, considérée (quasi-)extralinguistique, et la structure sémantique; dans les patrons de lexicalisation des unités lexicales, et dans les patrons de combinatoire syntaxique et lexicale, qui montrent parfois des traits propres au déné sųłiné intéressants.