Criterios de información bayesianos para la elección de modelos

En  un artículo anterior hacíamos una introducción sobre la estadísitica bayesiana y hablábamos de algunos usos que se le daban dentro de las finanzas.  En este artículo presentaremos los criterios de información bayesianos.

Estos criterios son de gran utilidad cuando tenemos que seleccionar un modelo entre varios.  Los criterios de información determinarán el ajuste o capacidad predictiva de los modelos que creamos.

Los indicadores con criterios de información más conocidos son el AIC, el BIC y el DIC. Estos métodos lo que buscan es encontrar el modelo más estable entre un conjunto de modelos. Para ello deben ser capaz de medir la capacidad explicativa del modelo y a la misma vez penalizar de alguna forma la complejidad en ellos.

Son muy prácticos ya que una de las disyuntivas que nos encontramos cuando creamos modelos es que cuanto más complejos son estos, es decir, más variables introducimos, menos adaptables a diferentes situaciones son. A pesar de que su capacidad predictiva o de ajuste puede ser mayor para ese estado o situación concreta su fiabilidad decae mucho si se producen cambios de escenarios.

De forma que si encuentras un modelo más sencillo con menos variables es posible que sea mucho más generalizable y se podrá usar en múltiples circunstancias.

La idea que subyace en el empleo de criterios de información es encontrar el modelo que mejor predice o con más capacidad explicativa tiene con el menor número de parámetros o variables.

A pesar de que son muy parecidos tienen algunas peculiaridades que hay que tener en cuenta

Por ejemplo tanto AIC como BIC utilizan la máxima verosimilitud para determinar el ajuste del modelo, mientras que el DIC es más avanzados y se basa en las cadenas de Markov- Montecarlo(MCMC).

 

  • Criterio de Información de Akaike ( AIC)

Este es el más antiguo de los tres. Se utiliza muchísimo, sobretodo cuando se dispone de una gran cantidad de modelos a evaluar.

El AIC nos proporcionará una medida de la calidad relativa del modelo. Su fórmula es :

AIC = 2k – ln(L)

Donde k es el número de parámetros y L es el máximo valor de la función de verosimilitud.

De forma que el AIC mide el ajuste con la verosimilitud y a la vez penaliza la utilización de muchos parámetros. La penalización de 2del AIC es equivalente a hacer la validación cruzada del modelo dejando un dato fuera.

El AIC es mucho menos restrictivo que los otros criterios a la hora de determinar la complejidad ya que acaba perdonando que el modelo sea muy complejo en parámetros siempre y cuando tenga muchos datos(n).

 

  • Criterio de Información Bayesiano (BIC)

Este criterio es muy parecido al AIC. Su fórmula es :

Donde, de nuevo es el número de parámetros, L es el valor de máxima verosimilitud y n es el número de datos. Se basa en la máxima verosimilitud como forma de medida de la bondad de ajuste, exactamente igual que el AIC. Podemos apreciar que la medida de la complejidad introduce tanto k como ln(n). Este hecho da lugar a que penalice más la inclusión de muchas variables de lo que lo hace el AIC.

Por tanto el BIC acabará eligiendo el modelo más simple o sencillo y cuyas predicciones son hechas a menor detalle. Por otra parte el AIC escogerá el modelo más completo y que hace predicciones más certeras pero siempre dentro de nuestros propios datos.

 

  • Criterio de Información de la Devianza(DIC)

El DIC es un criterio jerárquico generalizado del AIC y el BIC que está basado en la metodología bayesiana, ya que utiliza las cadenas de Markov- Montecarlo (MCMC). El DIC lo que hace es obtener la devianza, la cuál tiene en cuenta la función completa de verosimilitud.

Por tanto la medida de ajuste será el promedio de la devianza

Para medir la complejidad del modelo el DIC utiliza también la devianza, estudiando las covarianzas entre los parámetros del modelo.

Al final, el DIC se representa como :

Esto da lugar a que el DIC englobe para su implementación tanto el tamaño muestral como el número de parámetros, así como la relación de covariación entre estos.

Claramente vemos como es un criterio más completo que los anteriores, aunque también tiene alguna desventaja con respecto a los otros. Esta es que la penalización del número de parámetros no sigue un proceso de validación cruzada.

Para ejemplificar todo, imaginemos que queremos modelizar una serie financiera, en este caso es la serie del NIKKEI japonés. Nuestra idea es utilizar un modelo ARIMA para esto, pero no sabemos cuál elegir.

Vamos a hacerlo solo comparando dos modelos ARIMA para simplificar, pero se podría hacer con más. Nuestro criterio de selección será el AIC.

Por tanto el primero será un ARIMA (1,0,1) y el segundo un ARIMA(2,0,2).

  1. ArJapan<-arima(dNIKKEI,order=c(1,0,1))

ArJapan

  1. ArJapan2<-arima(dNIKKEI,order=c(2,0,2))

ArJapan2

Una vez hecho esto, nos fijamos como en el primer modelo el AIC es de 2165.8 mientras que en el segundo es de 2169.07. Por tanto en este caso elegiremos el primero ya que el criterio de Akaike es menor. Igual sería si lo hiciéramos con el BIC.

De la misma forma que lo hemos realizado aquí se puede hacer en múltiples casos, como por ejemplo en la regresión múltiple u otros tipos de modelos como los ARCH…

 

Bibliografía de referencia:

https://en.wikipedia.org/wiki/Deviance_information_criterion

https://jgrubalcaba.wordpress.com/2016/02/21/cosas-que-conviene-saber-al-usar-aic-dic-y-otros-criterios-de-informacion/

https://es.wikipedia.org/wiki/Criterio_de_informaci%C3%B3n_bayesiano

http://www.eco.uc3m.es/~jgonzalo/teaching/EconometriaII/SeleccionModelos.pdf