Aplicação de classificadores Bayesianos e regressão logística na análise de desempenho dos alunos de graduação


Autoria(s): Kuribara, Alex Rodrigo
Contribuinte(s)

Sicsú, Abraham Laredo

Sicsú, Abraham Laredo

Aaltonen, Alex

Barth, Nelson Lerner

Data(s)

05/01/2016

05/01/2016

15/12/2015

Resumo

Este trabalho minera as informações coletadas no processo de vestibular entre 2009 e 2012 para o curso de graduação de administração de empresas da FGV-EAESP, para estimar classificadores capazes de calcular a probabilidade de um novo aluno ter bom desempenho. O processo de KDD (Knowledge Discovery in Database) desenvolvido por Fayyad et al. (1996a) é a base da metodologia adotada e os classificadores serão estimados utilizando duas ferramentas matemáticas. A primeira é a regressão logística, muito usada por instituições financeiras para avaliar se um cliente será capaz de honrar com seus pagamentos e a segunda é a rede Bayesiana, proveniente do campo de inteligência artificial. Este estudo mostre que os dois modelos possuem o mesmo poder discriminatório, gerando resultados semelhantes. Além disso, as informações que influenciam a probabilidade de o aluno ter bom desempenho são a sua idade no ano de ingresso, a quantidade de vezes que ele prestou vestibular da FGV/EAESP antes de ser aprovado, a região do Brasil de onde é proveniente e as notas das provas de matemática fase 01 e fase 02, inglês, ciências humanas e redação. Aparentemente o grau de formação dos pais e o grau de decisão do aluno em estudar na FGV/EAESP não influenciam nessa probabilidade.

This dissertation mines a database with information gathered from 2009 to 2012 during the application process to join the business administration course offered by FGV-EAESP. The goal is to develop classifiers which estimate whether a new student will have good performance. The methodology of this dissertation is based on KDD process (Knowledge Discovery in Database) developed by Fayyad et al. (1996a); in addition, the classifiers will be developed by using two theories. The first one is the logistic regression, broadly adopted in financial institutions to assess the potential default of their customers in the credit market. The second one Bayesian networks from artificial intelligence field. The outcomes of this dissertation show that both classifiers have the same discriminant capacity. In addition, the student’s age, the number of times she/he applied for FGV/EAESP before joining the school, the region of Brazil she/he comes from and the grades of five exams: Mathematics phase 01 and phase 02, English, Human Science and Essay influence the student performance. However, neither the parents’ formal education background nor the student’s willingness to join FGV/EAESP impact on such performance.

Identificador

http://hdl.handle.net/10438/15043

Idioma(s)

pt_BR

Palavras-Chave #Redes bayesianas #KDD #Mineração de dados #Estudantes - Brasil - Avaliação de desempenho #Teoria bayesiana de decisão estatística #Análise de regressão logística #Mineração de dados (Computação)
Tipo

Dissertation