Patterns in permuted binary matrices


Autoria(s): Junttila, Esa
Contribuinte(s)

Helsingin yliopisto, matemaattis-luonnontieteellinen tiedekunta, tietojenkäsittelytieteen laitos

Helsingfors universitet, matematisk-naturvetenskapliga fakulteten, institutionen för datavetenskap

University of Helsinki, Faculty of Science, Department of Computer Science

Data(s)

10/08/2011

Resumo

Reorganizing a dataset so that its hidden structure can be observed is useful in any data analysis task. For example, detecting a regularity in a dataset helps us to interpret the data, compress the data, and explain the processes behind the data. We study datasets that come in the form of binary matrices (tables with 0s and 1s). Our goal is to develop automatic methods that bring out certain patterns by permuting the rows and columns. We concentrate on the following patterns in binary matrices: consecutive-ones (C1P), simultaneous consecutive-ones (SC1P), nestedness, k-nestedness, and bandedness. These patterns reflect specific types of interplay and variation between the rows and columns, such as continuity and hierarchies. Furthermore, their combinatorial properties are interlinked, which helps us to develop the theory of binary matrices and efficient algorithms. Indeed, we can detect all these patterns in a binary matrix efficiently, that is, in polynomial time in the size of the matrix. Since real-world datasets often contain noise and errors, we rarely witness perfect patterns. Therefore we also need to assess how far an input matrix is from a pattern: we count the number of flips (from 0s to 1s or vice versa) needed to bring out the perfect pattern in the matrix. Unfortunately, for most patterns it is an NP-complete problem to find the minimum distance to a matrix that has the perfect pattern, which means that the existence of a polynomial-time algorithm is unlikely. To find patterns in datasets with noise, we need methods that are noise-tolerant and work in practical time with large datasets. The theory of binary matrices gives rise to robust heuristics that have good performance with synthetic data and discover easily interpretable structures in real-world datasets: dialectical variation in the spoken Finnish language, division of European locations by the hierarchies found in mammal occurrences, and co-occuring groups in network data. In addition to determining the distance from a dataset to a pattern, we need to determine whether the pattern is significant or a mere occurrence of a random chance. To this end, we use significance testing: we deem a dataset significant if it appears exceptional when compared to datasets generated from a certain null hypothesis. After detecting a significant pattern in a dataset, it is up to domain experts to interpret the results in the terms of the application.

Aineiston uudelleenjärjestäminen paljastaa sen sisäisen rakenteen Elektroniset aineistot ovat usein suuria ja niiden sisältämät hahmot aluksi tuntemattomia, joten hahmojen löytämiseen tarvitaan tehokkaita tietokoneohjelmia. Hahmojen tunnistaminen auttaa kuvailemaan esimerkiksi nisäkäs- ja murresana-aineistojen sekä sosiaalisten verkostojen rakennetta. Parhaimmillaan tämä auttaa aineistoihin liittyvien tosimaailman ilmiöiden selittämisessä. Helsingin yliopistossa tarkastettava Esa Junttilan tietojenkäsittelytieteen alan väitöskirjatutkimus esittelee uusia automaattisia menetelmiä, jotka tunnistavat säännönmukaisuuksia aineistoissa. Uudet menetelmät perustuvat aineiston uudelleenjärjestämiseen, joka tuo aineiston sisältämän hahmon esiin. Aineistolla tarkoitetaan taulukkomuotoista dataa, joka sisältää vain ykkösiä ja nollia. Esimerkiksi ykköset nisäkkäiden levinneisyystaulukossa merkitsevät, että tietty nisäkäs elää tietyllä seudulla. Menetelmissä taulukon rivit ja sarakkeet järjestetään niin, että hahmo erottuu ihmisille mahdollisimman selvästi. Nisäkäsaineistolle sovellettuna kuvatut menetelmät voivat tuottaa esimerkiksi nisäkkäiden hierarkian, ryhmittymiä tai muun järjestyksen. Teoreettinen tarkastelu synnyttää hahmojen etsintään nopeita algoritmeja, jotka pystyvät käsittelemään tuhansia rivejä ja sarakkeita. Haasteena on menetelmien kyky sietää virheitä: esiintyvä hahmo on löydettävä silloinkin, kun aineiston laatu on kehno. Räätälöidyt tilastolliset testit kertovat lopulta löydetyn hahmon merkitsevyyden. Väittelijä on etsinyt kuvatuilla menetelmillä hahmoja esimerkiksi geneettisestä aineistosta, sosiaalisista verkostoista sekä nisäkkäiden, murresanojen ja fossiilien esiintymistä. Löydetty säännönmukaisuus vahvisti käsitystä tutkittujen aineistojen sisäisestä rakenteesta ja rohkaisee jatkotutkimuksiin vastaavilla tutkimusaloilla, kuten ekologiassa ja paleontologiassa. Esa Junttila väittelee matemaattis-luonnontieteellisessä tiedekunnassa 10.8.2011 kello 12 tietojenkäsittelytieteen alan tutkimuksellaan Patterns in Permuted Binary Matrices. Väitöstilaisuus järjestetään Yliopiston päärakennuksen salissa 13 (Fabianinkatu 33, 3. kerros). Vastaväittäjänä on professori Matti Nykänen (Itä-Suomen yliopisto) ja kustoksena professori Hannu Toivonen (Helsingin yliopisto). Lisätiedot: Esa Junttila, puhelin 040-8234987, esa.junttila@helsinki.fi

Formato

application/pdf

Identificador

URN:ISBN:978-952-10-7117-1

http://hdl.handle.net/10138/27248

Idioma(s)

en

Publicador

Helsingin yliopisto

Helsingfors universitet

University of Helsinki

Relação

URN:ISBN:978-952-10-7116-4

Helsinki: Helsinki University Print (Unigrafia), 2011, Series of publications / Department of Computer Science, University of Helsinki. A. 1238-8645

Direitos

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.

This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.

Publikationen är skyddad av upphovsrätten. Den får läsas och skrivas ut för personligt bruk. Användning i kommersiellt syfte är förbjuden.

Palavras-Chave #tietojenkäsittelytiede (tiedonlouhinta)
Tipo

Väitöskirja (monografia)

Doctoral dissertation (monograph)

Doktorsavhandling (monografi)

Text