Modelado y Validación de Riesgo de Crédito:
Una Aproximación Estadística Integral
Victor Raul Miranda
CFA & FRM Level II Professional Training
Credit Risk Modelling & Validation Expert
Enero 2026
Resumen

El presente documento constituye una exploración comprehensiva y sistemática de los fundamentos estadísticos y matemáticos que sustentan el modelado de riesgo de crédito en instituciones financieras modernas. Desarrollado desde una perspectiva tanto teórica como práctica, este trabajo aborda tres pilares fundamentales: (1) los fundamentos estadísticos esenciales, incluyendo distribuciones de probabilidad, medidas de tendencia central y dispersión, y pruebas de hipótesis; (2) el desarrollo e implementación de scorecards crediticios para aplicación, comportamiento y cobranza; y (3) los modelos regulatorios requeridos bajo el marco de Basilea III e IFRS 9, específicamente los modelos de Probabilidad de Default (PD), Loss Given Default (LGD), y Exposure at Default (EAD).

La metodología empleada enfatiza la construcción sistemática del conocimiento, partiendo desde conceptos estadísticos fundamentales hasta llegar a aplicaciones avanzadas en gestión de riesgo crediticio. Se presentan múltiples ejemplos numéricos detallados, casos de estudio del sector bancario, y aplicaciones prácticas que ilustran la implementación de cada concepto teórico. Particular atención se dedica al Análisis de Varianza (ANOVA) y su conexión con modelos de regresión, proporcionando las bases para el desarrollo subsecuente de modelos predictivos.

Los resultados demuestran que una sólida comprensión de los fundamentos estadísticos es indispensable para el desarrollo, validación y gestión efectiva de modelos de riesgo crediticio. El documento concluye estableciendo las bases para futuras investigaciones en regresión logística y técnicas de machine learning aplicadas al scoring crediticio.

Palabras clave: Riesgo de Crédito, Modelado Estadístico, ANOVA, Distribuciones de Probabilidad, Scorecards Crediticios, Basilea III, IFRS 9, Probabilidad de Default, Validación de Modelos
Tabla de Contenidos

1. Introducción

1.1 Motivación y Contexto

La gestión efectiva del riesgo de crédito constituye uno de los pilares fundamentales de la estabilidad financiera en instituciones bancarias modernas. Según el Comité de Basilea sobre Supervisión Bancaria, el riesgo de crédito se define como "la posibilidad de pérdida debido al fracaso de una contraparte en cumplir sus obligaciones contractuales". Esta definición aparentemente simple encapsula un universo de complejidad técnica, regulatoria y metodológica que requiere herramientas estadísticas y matemáticas sofisticadas para su adecuada cuantificación y gestión.

Los eventos de las últimas dos décadas—desde la crisis financiera global de 2007-2008 hasta los recientes desafíos económicos derivados de la pandemia de COVID-19—han demostrado de manera contundente que modelos de riesgo crediticio inadecuados, mal calibrados o insuficientemente validados pueden conducir no solo al fracaso de instituciones individuales, sino a crisis sistémicas con consecuencias económicas devastadoras a nivel global.

En este contexto, el desarrollo de modelos robustos de riesgo crediticio no es meramente un ejercicio técnico o un requisito regulatorio, sino una necesidad imperativa para la sostenibilidad del sistema financiero. Los modelos modernos deben ser capaces de:

1.2 Estructura del Documento

Este documento adopta un enfoque pedagógico y sistemático, construyendo el conocimiento desde fundamentos estadísticos básicos hasta aplicaciones avanzadas en modelado de riesgo crediticio. La estructura ha sido diseñada para servir tanto a profesionales que buscan refrescar conceptos fundamentales como a aquellos que se aproximan al campo por primera vez.

Cada sección del documento incluye:

1.3 Los Tres Pilares del Modelado de Riesgo

El enfoque metodológico adoptado en este documento se estructura alrededor de tres pilares fundamentales e interconectados:

1.3.1 Pilar I: Estadística y Modelado Estadístico

Este pilar constituye la base matemática sobre la cual se construyen todos los modelos subsecuentes. Comprende:

Ejemplo Fundamental: Portfolio Crediticio

Considere un banco con un portfolio de 10,000 préstamos personales. Para gestionar efectivamente este portfolio, necesitamos:

  1. Caracterizar la distribución de FICO scores (media = 700, σ = 100) usando estadística descriptiva
  2. Modelar la probabilidad de default usando distribución binomial (cada préstamo: default/no default)
  3. Usar ANOVA para comparar tasas de default entre regiones geográficas
  4. Aplicar pruebas de hipótesis para validar si una nueva política de underwriting reduce defaults significativamente

1.3.2 Pilar II: Business Scorecards

Los scorecards crediticios son herramientas cuantitativas que transforman información del solicitante en una puntuación numérica que refleja el riesgo crediticio. Este pilar incluye tres tipos principales:

Application Scorecards: Utilizados en el momento de la solicitud de crédito para decidir aprobación/rechazo. Variables típicas incluyen:

Behavioral Scorecards: Utilizados para clientes existentes para gestionar líneas de crédito y detectar deterioro. Variables incluyen:

Collection Scorecards: Utilizados para cuentas en mora, priorizan esfuerzos de cobranza. Factores clave:

1.3.3 Pilar III: Modelos Regulatorios

Los requerimientos regulatorios de Basilea III e IFRS 9 mandatan el desarrollo de modelos específicos para cuantificar componentes del riesgo crediticio:

Modelos PD (Probability of Default):

$$PD = P(\text{Default dentro de horizonte temporal } T)$$

Estimación basada en regresión logística, análisis de supervivencia, o matrices de transición.

Modelos LGD (Loss Given Default):

$$LGD = 1 - \text{Recovery Rate} = \frac{\text{Exposición} - \text{Recuperación}}{\text{Exposición}}$$

Dependiente de colaterales, jerarquía de deuda, y eficiencia de procesos de recuperación.

Modelos EAD (Exposure at Default):

$$EAD = \text{Balance Actual} + \text{CCF} \times \text{Porción No Utilizada}$$

Donde CCF (Credit Conversion Factor) modela el drawdown en líneas de crédito antes de default.

Expected Loss (IFRS 9):

$$EL = PD \times LGD \times EAD$$

Nota Crítica: Estos tres pilares no son independientes sino profundamente interconectados. Los fundamentos estadísticos (Pilar I) son esenciales para desarrollar scorecards (Pilar II), que a su vez alimentan los modelos PD regulatorios (Pilar III). Una comprensión sólida del Pilar I es prerequisito absoluto para trabajo efectivo en los Pilares II y III.

2. Fundamentos Estadísticos

2.1 Clasificación de Datos

El primer paso en cualquier análisis cuantitativo es comprender la naturaleza de los datos con los que trabajamos. En modelado de riesgo crediticio, trabajamos con diversos tipos de datos, cada uno requiriendo técnicas estadísticas específicas.

2.1.1 Datos Cualitativos vs Cuantitativos

Definición 2.1: Datos Cualitativos

Los datos cualitativos (o categóricos) describen cualidades o características que no pueden ser expresadas numéricamente de manera inherente. Pueden ser:

Definición 2.2: Datos Cuantitativos

Los datos cuantitativos (o numéricos) son mediciones o conteos que pueden ser expresados numéricamente. Pueden ser:

Ejemplo 2.1: Clasificación de Variables en Riesgo Crediticio

Datos Cualitativos Nominales:

Datos Cualitativos Ordinales:

Datos Cuantitativos Discretos:

Datos Cuantitativos Continuos:

2.2 Escalas de Medición

Stevens (1946) identificó cuatro niveles fundamentales de medición, cada uno con propiedades matemáticas y operaciones estadísticas permitidas diferentes. Comprender estas escalas es crucial para seleccionar técnicas analíticas apropiadas.

2.2.1 Escala Nominal

Definición 2.3: Escala Nominal

La escala nominal clasifica datos en categorías mutuamente exclusivas sin orden inherente. Las únicas operaciones matemáticas permitidas son:

Operaciones NO permitidas: Promedios, ordenamiento, aritmética

Ejemplo 2.2: Variable Nominal en Scoring

Suponga que clasificamos clientes por Tipo de Empleo:

Categoría Código Frecuencia Default Rate
Asalariado 1 5,420 2.1%
Independiente 2 3,180 4.7%
Jubilado 3 1,200 1.5%
Desempleado 4 200 18.5%

Análisis Válido:

Análisis INVÁLIDO:

2.2.2 Escala Ordinal

Definición 2.4: Escala Ordinal

La escala ordinal clasifica datos en categorías con un orden o ranking natural, pero sin información sobre la magnitud de diferencias entre categorías.

Operaciones permitidas: Igualdad, ordenamiento, mediana, percentiles

Operaciones NO permitidas: Media, desviación estándar (porque intervalos no son uniformes)

Ejemplo 2.3: Ratings Crediticios Internos

Muchos bancos usan sistemas de rating ordinal para clasificar clientes:

Rating Descripción PD Range Número de Cuentas
AAA Riesgo Mínimo [0%, 0.5%) 1,250
AA Muy Bajo Riesgo [0.5%, 1%) 2,380
A Bajo Riesgo [1%, 2.5%) 3,450
BBB Riesgo Moderado [2.5%, 5%) 1,920
BB Alto Riesgo [5%, 10%) 850
B Muy Alto Riesgo [10%, 20%) 120
CCC Default Inminente [20%, 100%] 30

Análisis Válido:

Análisis Problemático:

Nota: Aunque técnicamente inapropiado calcular medias sobre datos ordinales, en la práctica bancaria a veces se asignan "pesos de riesgo" numéricos a ratings (AAA=1, AA=2, etc.) para calcular "rating promedio ponderado" de un portfolio. Esto es una aproximación conveniente pero debe usarse con cautela.

2.2.3 Escala de Intervalo

Definición 2.5: Escala de Intervalo

La escala de intervalo tiene todas las propiedades de escala ordinal, ADEMÁS de que las diferencias entre valores son significativas y uniformes. Sin embargo, NO tiene un cero absoluto verdadero.

Operaciones permitidas: Suma, resta, media, desviación estándar

Operaciones NO permitidas: Multiplicación, división, ratios (porque cero es arbitrario)

Ejemplo 2.4: Temperatura como Escala de Intervalo

Aunque la temperatura rara vez se usa directamente en scoring crediticio, ilustra perfectamente la escala de intervalo:

Temperatura en Celsius:

En el contexto crediticio, algunos argumentan que FICO scores son escala de intervalo: 700-650 = 50 puntos tiene el mismo significado que 750-700 = 50 puntos. Sin embargo, esto es debatible y depende de la calibración específica del score.

2.2.4 Escala de Razón (Ratio)

Definición 2.6: Escala de Razón

La escala de razón tiene todas las propiedades de escala de intervalo, ADEMÁS de un cero absoluto verdadero que representa ausencia completa de la cantidad medida.

Operaciones permitidas: TODAS las operaciones matemáticas (suma, resta, multiplicación, división, ratios, porcentajes)

Ejemplo 2.5: Variables de Razón en Riesgo Crediticio

Monto de Préstamo:

Debt-to-Income Ratio (DTI):

$$\text{DTI} = \frac{\text{Pagos Mensuales de Deuda}}{\text{Ingreso Mensual Bruto}} \times 100\%$$

Número de Días de Morosidad:

Implicaciones para Modelado:

— 1 —

3. Estadística Descriptiva

La estadística descriptiva proporciona herramientas para resumir, organizar y presentar datos de manera significativa. En el contexto de riesgo crediticio, estas técnicas nos permiten caracterizar portfolios completos, identificar patrones, y comunicar información compleja de manera concisa.

3.1 Medidas de Tendencia Central

Las medidas de tendencia central describen el valor "típico" o "central" de un conjunto de datos. En risk management, nos ayudan a responder preguntas como: "¿Cuál es el FICO score típico de nuestros clientes?" o "¿Cuál es la tasa de default promedio en nuestro portfolio?"

3.1.1 La Media Aritmética

Definición 3.1: Media Poblacional y Muestral

Media Poblacional (μ):

$$\mu = \frac{1}{N}\sum_{i=1}^{N} x_i$$ (3.1)

donde $N$ es el tamaño total de la población.

Media Muestral $(\bar{x})$:

$$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$$ (3.2)

donde $n$ es el tamaño de la muestra.

Propiedad 3.1: Estimador Insesgado

La media muestral $\bar{x}$ es un estimador insesgado de la media poblacional $\mu$:

$$E[\bar{x}] = \mu$$

donde $E[\cdot]$ denota el valor esperado.

Ejemplo 3.1: FICO Scores de Portfolio Hipotecario

Un banco regional tiene un portfolio de $n = 20$ préstamos hipotecarios con los siguientes FICO scores al momento de originación:

720, 685, 750, 695, 710, 730, 690, 755, 715, 700,
725, 680, 745, 705, 695, 760, 710, 690, 735, 720

Cálculo de la Media:

$$\begin{align} \bar{x} &= \frac{1}{20}(720 + 685 + 750 + \cdots + 735 + 720) \\ &= \frac{14,310}{20} \\ &= 715.5 \end{align}$$

Interpretación: El FICO score promedio de este portfolio es 715.5, lo cual representa un cliente "Prime" (FICO ≥ 670). Esto sugiere que el banco ha originado préstamos a borrowers de calidad crediticia relativamente buena.

Aplicación en Riesgo:

3.1.2 La Mediana

Definición 3.2: Mediana

La mediana es el valor que divide el conjunto de datos ordenado en dos mitades iguales:

$$\text{Mediana} = \begin{cases} x_{(n+1)/2} & \text{si } n \text{ es impar} \\ \frac{x_{n/2} + x_{(n/2)+1}}{2} & \text{si } n \text{ es par} \end{cases}$$

donde $x_{(i)}$ denota el $i$-ésimo valor ordenado.

Ejemplo 3.2: Mediana vs Media con Outliers

Considere dos portfolios de préstamos personales con los siguientes montos ($):

Portfolio A (sin outliers):

10,000 | 12,000 | 15,000 | 18,000 | 20,000

Portfolio B (con outlier):

10,000 | 12,000 | 15,000 | 18,000 | 100,000

Análisis:

Implicación para Risk Management: Cuando reportamos "exposición típica" a la alta gerencia, la mediana puede ser más informativa que la media si el portfolio contiene algunos préstamos muy grandes que distorsionarían la media.

3.1.3 La Moda

Definición 3.3: Moda

La moda es el valor que aparece con mayor frecuencia en el conjunto de datos.

Ejemplo 3.3: Moda en Categorización de Riesgo

Un portfolio de 100 tarjetas de crédito clasificadas por buckets de morosidad:

Bucket Descripción Frecuencia Porcentaje
Current 0 días de mora 82 82%
30 DPD 1-30 días 10 10%
60 DPD 31-60 días 5 5%
90+ DPD 90+ días 3 3%

Análisis Modal:

Nota: Para variables categóricas como esta, la moda es frecuentemente la medida de tendencia central más apropiada, ya que media y mediana no tienen interpretación natural.

3.2 Medidas de Dispersión

Las medidas de dispersión cuantifican la variabilidad o "spread" de los datos alrededor de la tendencia central. En gestión de riesgo, la dispersión es frecuentemente TAN importante como la tendencia central—dos portfolios pueden tener la misma media de default rate pero riesgos muy diferentes si uno tiene alta variabilidad.

3.2.1 Rango

Definición 3.4: Rango

El rango es la diferencia entre el valor máximo y mínimo:

$$\text{Rango} = x_{\max} - x_{\min}$$

Ventajas: Extremadamente simple de calcular e interpretar

Desventajas:

3.2.2 Varianza

Definición 3.5: Varianza Poblacional y Muestral

Varianza Poblacional ($\sigma^2$):

$$\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2$$ (3.3)

Varianza Muestral ($s^2$):

$$s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$$ (3.4)

¿Por qué $n-1$ en lugar de $n$? (Corrección de Bessel)

Esta es una de las preguntas más frecuentes en estadística. La razón fundamental es que $s^2$ con denominador $n-1$ es un estimador insesgado de $\sigma^2$:

$$E[s^2] = E\left[\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2\right] = \sigma^2$$

Intuición:

  1. Cuando calculamos $s^2$, usamos $\bar{x}$ (estimación) en lugar de $\mu$ (verdadero)
  2. $\bar{x}$ es calculado de la MISMA muestra, por lo que $(x_i - \bar{x})$ tiende a ser más pequeño que $(x_i - \mu)$
  3. Esta subestimación sistemática se corrige dividiendo por $n-1$ en lugar de $n$
  4. El divisor $n-1$ representa los grados de libertad: una vez conocemos $\bar{x}$, solo $n-1$ desviaciones son independientes

Consecuencia práctica: Si usas Excel, asegúrate de usar VAR.S() (sample variance con $n-1$) no VAR.P() (population variance con $n$) cuando trabajas con muestras.

Ejemplo 3.4: Cálculo Detallado de Varianza

Considere 5 tasas de default anuales (%) de un producto de tarjeta de crédito:

2.1, 3.5, 2.8, 4.2, 3.4

Paso 1: Calcular la media

$$\bar{x} = \frac{2.1 + 3.5 + 2.8 + 4.2 + 3.4}{5} = \frac{16.0}{5} = 3.2\%$$

Paso 2: Calcular desviaciones $(x_i - \bar{x})$

$x_i$ $x_i - \bar{x}$ $(x_i - \bar{x})^2$
2.1-1.11.21
3.5+0.30.09
2.8-0.40.16
4.2+1.01.00
3.4+0.20.04
Suma0.02.50

Nota: La suma de desviaciones siempre es cero: $\sum(x_i - \bar{x}) = 0$. Esta es una propiedad fundamental de la media.

Paso 3: Calcular varianza muestral

$$s^2 = \frac{\sum(x_i - \bar{x})^2}{n-1} = \frac{2.50}{5-1} = \frac{2.50}{4} = 0.625$$

Interpretación: La varianza de 0.625 (porcentaje al cuadrado) cuantifica la dispersión de las tasas de default alrededor de la media de 3.2%.

3.2.3 Desviación Estándar

Definición 3.6: Desviación Estándar

La desviación estándar es la raíz cuadrada de la varianza:

Poblacional:

$$\sigma = \sqrt{\sigma^2} = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2}$$

Muestral:

$$s = \sqrt{s^2} = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2}$$

¿Por qué usar desviación estándar en lugar de varianza?

Ejemplo 3.5: Desviación Estándar de Default Rates

Continuando del Ejemplo 3.4:

$$s = \sqrt{0.625} = 0.79\%$$

Interpretación:

Para Stress Testing: Si modelamos defaults como normalmente distribuidos, podríamos usar $\mu + 2\sigma = 3.2\% + 2(0.79\%) = 4.78\%$ como escenario "adverso" (representa aproximadamente el percentil 97.5 bajo normalidad).

3.2.4 Coeficiente de Variación

Definición 3.7: Coeficiente de Variación (CV)

El coeficiente de variación es una medida de dispersión relativa:

$$CV = \frac{\sigma}{\mu} \times 100\% \quad \text{(poblacional)}$$
$$CV = \frac{s}{\bar{x}} \times 100\% \quad \text{(muestral)}$$

¿Cuándo usar CV?

Ejemplo 3.6: Comparación de Riesgo con CV

Un banco maneja tres portfolios de crédito:

Portfolio Producto Media ($\bar{x}$) Desv. Est. ($s$) CV
A Hipotecas 2.5% 0.8% 32%
B Auto 4.0% 1.5% 37.5%
C Tarjeta Crédito 8.0% 4.0% 50%

Cálculo del CV:

Análisis:

Implicación para Capital: Bajo Basilea III, requerimientos de capital regulatorio consideran tanto la probabilidad de default esperada (media) como la volatilidad (desviación estándar). Portfolios con CV alto típicamente requieren mayor capital.

3.3 Población vs Muestra

La distinción entre parámetros poblacionales y estadísticos muestrales es fundamental en inferencia estadística. En la práctica bancaria, rara vez observamos toda la "población" de interés (ej: todos los clientes potenciales futuros), por lo que trabajamos con muestras.

Definición 3.8: Notación Estándar
Medida Población Muestra
Tamaño $N$ $n$
Media $\mu$ (mu) $\bar{x}$ (x-bar)
Varianza $\sigma^2$ (sigma cuadrado) $s^2$
Desviación Estándar $\sigma$ (sigma) $s$
Proporción $p$ $\hat{p}$ (p-hat)
Teorema 3.1: Propiedades de Estimadores Muestrales

Bajo muestreo aleatorio simple de una población con media $\mu$ y varianza $\sigma^2$:

1. Media muestral es insesgada:

$$E[\bar{x}] = \mu$$

2. Varianza de la media muestral:

$$\text{Var}(\bar{x}) = \frac{\sigma^2}{n}$$

Esto implica que el error estándar de la media es $SE(\bar{x}) = \frac{\sigma}{\sqrt{n}}$

3. Varianza muestral (con $n-1$) es insesgada:

$$E[s^2] = \sigma^2$$
Ejemplo 3.7: Estimación de PD desde Muestra

Contexto: Un banco quiere estimar la tasa de default poblacional para un nuevo producto de préstamo personal. No tiene datos históricos completos, solo una muestra de 500 clientes de un producto similar.

Datos de la muestra:

Pregunta: ¿Cuál es nuestra mejor estimación de la verdadera PD poblacional $p$?

Respuesta:

Interpretación: Estamos 95% confiados de que la verdadera tasa de default poblacional está entre 1.97% y 5.23%. Para ser conservadores en pricing/capital, podríamos usar el límite superior de 5.23%.

Nota sobre tamaño muestral: El error estándar $SE \propto \frac{1}{\sqrt{n}}$ implica que:

— 2 —

4. Distribuciones de Probabilidad

Las distribuciones de probabilidad son modelos matemáticos que describen el comportamiento de variables aleatorias. En riesgo crediticio, utilizamos distribuciones para modelar defaults, pérdidas, scores, y muchas otras variables de interés.

4.1 Distribución Normal

Definición 4.1: Distribución Normal

Una variable aleatoria continua $X$ sigue una distribución normal con media $\mu$ y varianza $\sigma^2$, denotada $X \sim N(\mu, \sigma^2)$, si su función de densidad de probabilidad es:

$$f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right), \quad -\infty < x < \infty$$ (4.1)
Teorema 4.1: Regla Empírica (68-95-99.7)

Para una distribución normal $N(\mu, \sigma^2)$:

Ejemplo 4.1: FICO Scores ~ Normal(700, 100²)

Suponga que FICO scores en un portfolio siguen $N(700, 100^2)$. Calculemos probabilidades clave:

P(FICO ≥ 670)? (FICO mínimo para "Prime")

Estandarizando:

$$Z = \frac{X - \mu}{\sigma} = \frac{670 - 700}{100} = -0.30$$
$$P(X \geq 670) = P(Z \geq -0.30) = 1 - P(Z < -0.30) = 1 - 0.3821 = 0.6179 = 61.79\%$$

P(FICO < 580)? (FICO para "Subprime")

$$Z = \frac{580 - 700}{100} = -1.20$$
$$P(X < 580) = P(Z < -1.20) = 0.1151 = 11.51\%$$

Aplicación en Underwriting:

4.2 Distribución Binomial

Definición 4.2: Distribución Binomial

Considere $n$ ensayos independientes, cada uno con probabilidad $p$ de "éxito". Sea $X$ = número de éxitos. Entonces $X \sim \text{Binomial}(n,p)$ con función de masa de probabilidad:

$$P(X = k) = \binom{n}{k}p^k(1-p)^{n-k}, \quad k = 0,1,2,\ldots,n$$ (4.2)

donde $\binom{n}{k} = \frac{n!}{k!(n-k)!}$ es el coeficiente binomial.

Media: $E[X] = np$

Varianza: $\text{Var}(X) = np(1-p)$

Ejemplo 4.2: Defaults en Portfolio de Préstamos

Contexto: Un portfolio de $n = 100$ préstamos personales, cada uno con PD = 3% = 0.03. Asumiendo defaults independientes, el número de defaults $D \sim \text{Binomial}(100, 0.03)$.

P(exactamente 5 defaults)?

$$\begin{align} P(D = 5) &= \binom{100}{5}(0.03)^5(0.97)^{95} \\ &= \frac{100!}{5! \cdot 95!}(0.03)^5(0.97)^{95} \\ &= 75,287,520 \times 2.43 \times 10^{-8} \times 0.0453 \\ &= 0.0828 = 8.28\% \end{align}$$

Número esperado de defaults:

$$E[D] = np = 100 \times 0.03 = 3 \text{ préstamos}$$

Desviación estándar:

$$\sigma_D = \sqrt{np(1-p)} = \sqrt{100 \times 0.03 \times 0.97} = \sqrt{2.91} = 1.71 \text{ préstamos}$$

P(≥ 10 defaults)? (escenario adverso)

Usando aproximación normal (válida si $np > 5$ y $n(1-p) > 5$, ambos satisfechos):

$$D \approx N(3, 2.91)$$
$$P(D \geq 10) \approx P\left(Z \geq \frac{10 - 3}{1.71}\right) = P(Z \geq 4.09) \approx 0.00002 = 0.002\%$$

Conclusión: La probabilidad de tener 10+ defaults es extremadamente baja (0.002%) bajo supuesto de independencia. Si observamos 10+ defaults en realidad, sugiere que el supuesto de independencia NO se sostiene (posible contagio o shock sistémico).

4.4 Teorema del Límite Central

Teorema 4.2: Teorema del Límite Central (CLT)

Sea $X_1, X_2, \ldots, X_n$ una muestra aleatoria de tamaño $n$ de una distribución con media $\mu$ y varianza finita $\sigma^2$. Entonces, cuando $n \to \infty$:

$$\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i \xrightarrow{d} N\left(\mu, \frac{\sigma^2}{n}\right)$$

O equivalentemente, la variable estandarizada:

$$Z_n = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \xrightarrow{d} N(0,1)$$

Implicaciones cruciales para riesgo crediticio:

Ejemplo 4.3: CLT en Pérdidas de Portfolio

Un portfolio de 1,000 préstamos idénticos. Cada préstamo:

Distribución de pérdida total del portfolio:

Pérdida total = $L = \sum_{i=1}^{1000} L_i$ donde $L_i$ = pérdida del préstamo $i$

Por CLT, para $n = 1000$ grande:

$$L \approx N\left(n\mu, n\sigma^2\right) = N(1000 \times 300, 1000 \times 800^2) = N(300,000, 640,000,000)$$

Por lo tanto: $\sigma_L = \sqrt{640,000,000} = 25,298$

VaR al 99% (Value at Risk):

$$\text{VaR}_{0.99} = \mu_L + z_{0.99}\sigma_L = 300,000 + 2.33(25,298) = $358,944$$

Interpretación: Con 99% de confianza, la pérdida del portfolio no excederá $358,944. Esto representa:

6. Análisis de Varianza (ANOVA)

6.1 Introducción a ANOVA

ANOVA (Analysis of Variance) es una técnica estadística para comparar medias de tres o más grupos. En riesgo crediticio, ANOVA nos permite responder preguntas como:

6.2 Descomposición de Varianza

Teorema 6.1: Descomposición Fundamental de ANOVA

La variabilidad total en los datos puede descomponerse en dos componentes:

$$\underbrace{\sum_{i=1}^k\sum_{j=1}^{n_i}(x_{ij} - \bar{x})^2}_{\text{TSS}} = \underbrace{\sum_{i=1}^k n_i(\bar{x}_i - \bar{x})^2}_{\text{ESS}} + \underbrace{\sum_{i=1}^k\sum_{j=1}^{n_i}(x_{ij} - \bar{x}_i)^2}_{\text{RSS}}$$

TSS (Total Sum of Squares) = ESS (Explained Sum of Squares) + RSS (Residual Sum of Squares)

Donde:

6.3 El Estadístico F

Definición 6.1: Estadístico F de ANOVA

El estadístico F compara la varianza entre grupos con la varianza dentro de grupos:

$$F = \frac{\text{MSE}}{\text{MSR}} = \frac{\text{ESS}/(k-1)}{\text{RSS}/(n-k)}$$ (6.1)

Donde:

Bajo $H_0: \mu_1 = \mu_2 = \cdots = \mu_k$, tenemos $F \sim F_{k-1, n-k}$

Ejemplo 6.1: ANOVA para Default Rates por Región

Contexto: Un banco quiere saber si las tasas de default (%) difieren significativamente entre tres regiones geográficas.

Datos:

Región A (Costa) Región B (Centro) Región C (Interior)
2.13.85.5
2.54.26.1
2.33.95.8
2.74.56.3
$\bar{x}_A = 2.4$ $\bar{x}_B = 4.1$ $\bar{x}_C = 5.925$

Paso 1: Calcular media global

$$\bar{x} = \frac{2.4 + 4.1 + 5.925}{3} = 4.142\%$$

Paso 2: Calcular ESS (Between Groups)

$$\begin{align} \text{ESS} &= n_1(\bar{x}_1 - \bar{x})^2 + n_2(\bar{x}_2 - \bar{x})^2 + n_3(\bar{x}_3 - \bar{x})^2 \\ &= 4(2.4 - 4.142)^2 + 4(4.1 - 4.142)^2 + 4(5.925 - 4.142)^2 \\ &= 4(3.037) + 4(0.002) + 4(3.179) \\ &= 12.148 + 0.008 + 12.716 = 24.872 \end{align}$$

Paso 3: Calcular RSS (Within Groups)

Para Región A:

$$(2.1-2.4)^2 + (2.5-2.4)^2 + (2.3-2.4)^2 + (2.7-2.4)^2 = 0.20$$

Similarmente: Región B: 0.22, Región C: 0.26

$$\text{RSS} = 0.20 + 0.22 + 0.26 = 0.68$$

Paso 4: Construir tabla ANOVA

Source SS df MS F
Between Groups 24.872 2 12.436 164.69
Within Groups 0.68 9 0.0756
Total 25.552 11

Paso 5: Calcular estadístico F

$$F = \frac{\text{MSE}}{\text{MSR}} = \frac{12.436}{0.0756} = 164.69$$

Paso 6: Decisión

Valor crítico $F_{0.05, 2, 9} = 4.26$ (de tabla F)

Como $F = 164.69 > 4.26$, rechazamos $H_0$

p-value < 0.0001 (extremadamente significativo)

Conclusión: Existe evidencia MUY fuerte de que las tasas de default difieren entre regiones. Región C (Interior) tiene significativamente mayor riesgo crediticio que Regiones A y B.

Aplicación práctica: El banco debería:

6.4 Aplicaciones en Riesgo de Crédito

6.4.1 Validación de Scorecards

ANOVA puede usarse para validar que un scorecard efectivamente discrimina entre niveles de riesgo:

Ejemplo 6.2: Validación de Discriminación del Scorecard

Hipótesis:

Si rechazamos $H_0$, confirmamos que el scorecard tiene poder discriminatorio.

6.4.2 Segmentación de Portfolio

Determinar si es necesario desarrollar modelos separados para diferentes segmentos.

7. Grados de Libertad

El concepto de "grados de libertad" (degrees of freedom, df) aparece consistentemente en estadística pero frecuentemente causa confusión. La mejor manera de entenderlo es através del ejemplo pedagógico clásico:

Ejemplo 7.1: El Problema de los Tres Números

Problema: Necesito seleccionar tres números que sumen exactamente 100.

Escenario 1 - Sin restricciones adicionales:

Grados de libertad = 2 (dos elecciones independientes)

Escenario 2 - Con restricción adicional:

Ahora además requiero que los primeros dos números sumen 50:

Grados de libertad = 1 (solo una elección independiente)

Definición 7.1: Grados de Libertad

Los grados de libertad representan el número de piezas de información que pueden variar independientemente después de imponer restricciones.

$$\text{df} = \text{Número de observaciones} - \text{Número de restricciones}$$

7.1 Grados de Libertad en Varianza Muestral

¿Por qué usamos $n-1$ en la varianza muestral?

Cuando calculamos:

$$s^2 = \frac{1}{n-1}\sum_{i=1}^n(x_i - \bar{x})^2$$

La razón del $(n-1)$ es que las desviaciones $(x_i - \bar{x})$ están sujetas a una restricción:

$$\sum_{i=1}^n (x_i - \bar{x}) = 0 \quad \text{(siempre)}$$

Esto significa:

7.2 Grados de Libertad en ANOVA

Source Degrees of Freedom Explicación
Between Groups (ESS) $k - 1$ $k$ medias grupales con restricción $\sum n_i\bar{x}_i = n\bar{x}$
Within Groups (RSS) $n - k$ $n$ observaciones menos $k$ medias estimadas
Total (TSS) $n - 1$ $n$ observaciones menos 1 media global estimada

Verificación: $(k-1) + (n-k) = n-1$ ✓

7.3 Implicaciones para Modelado

8. Conclusiones y Próximos Pasos

8.1 Síntesis del Contenido

Este documento ha proporcionado una base comprehensiva en estadística aplicada al modelado de riesgo crediticio. Hemos cubierto:

8.2 Conexión con los Tres Pilares

Hemos establecido sólidamente el Pilar I (Estadística), que ahora sirve como fundamento para los pilares subsecuentes:

Hacia el Pilar II: Business Scorecards

Los conceptos aprendidos se aplicarán directamente en:

Hacia el Pilar III: Modelos Regulatorios

Las bases estadísticas permitirán desarrollo de:

8.3 Próximos Temas

En las sesiones subsecuentes, cubriremos:

Sesión 2: Regresión

Sesión 3: Desarrollo de Scorecards

Sesiones 4-6: Modelos PD

Sesiones 7-9: Modelos LGD y EAD

Sesiones 10-12: IFRS 9

8.4 Reflexiones Finales

El modelado de riesgo crediticio es un campo que combina rigor matemático, intuición económica, y conocimiento del negocio bancario. Los fundamentos estadísticos cubiertos en este documento no son meramente académicos—son herramientas esenciales utilizadas diariamente por profesionales de riesgo en las instituciones financieras más sofisticadas del mundo.

Como famosamente declaró W. Edwards Deming: "In God we trust, all others must bring data." En el contexto de riesgo crediticio, agregamos: "...and understand the statistics behind that data."

El camino desde fundamentos estadísticos hasta modelos regulatorios complejos es largo pero sistemático. Cada concepto se construye sobre el anterior. La inversión en dominar estos fundamentos pagará dividendos sustanciales a medida que avanzamos hacia temas más complejos.

Para el estudiante diligente: Practique estos conceptos con datos reales. No hay sustituto para la experiencia práctica en limpieza de datos, ajuste de modelos, interpretación de resultados, y comunicación de hallazgos a stakeholders.

Para el profesional experimentado: Estos fundamentos sirven como referencia y recordatorio de los principios subyacentes que a veces se olvidan en la presión del trabajo diario. Revisitar los fundamentos frecuentemente fortalece la intuición y mejora la toma de decisiones.

— FIN DEL DOCUMENTO —

Referencias

[1] Basel Committee on Banking Supervision (2017). Basel III: Finalising post-crisis reforms. Bank for International Settlements.
[2] International Accounting Standards Board (2014). IFRS 9 Financial Instruments. IFRS Foundation.
[3] Anderson, R. (2007). The Credit Scoring Toolkit: Theory and Practice for Retail Credit Risk Management and Decision Automation. Oxford University Press.
[4] Merton, R. C. (1974). On the Pricing of Corporate Debt: The Risk Structure of Interest Rates. Journal of Finance, 29(2), 449-470.
[5] Altman, E. I. (1968). Financial Ratios, Discriminant Analysis and the Prediction of Corporate Bankruptcy. Journal of Finance, 23(4), 589-609.
[6] Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied Logistic Regression (3rd ed.). John Wiley & Sons.
[7] Siddiqi, N. (2017). Intelligent Credit Scoring: Building and Implementing Better Credit Risk Scorecards (2nd ed.). John Wiley & Sons.
[8] Stevens, S. S. (1946). On the Theory of Scales of Measurement. Science, 103(2684), 677-680.
[9] Student (1908). The Probable Error of a Mean. Biometrika, 6(1), 1-25.
[10] Fisher, R. A. (1925). Statistical Methods for Research Workers. Oliver and Boyd.

Autor: Victor Raul Miranda
Afiliación: CFA & FRM Level II Professional Training
Contacto: Especialista en Credit Risk Modelling & Validation
Fecha de Publicación: Enero 2026

Este documento ha sido desarrollado con fines educativos y de formación profesional. Las opiniones expresadas son del autor y no representan necesariamente las de ninguna institución financiera específica.

Citación sugerida: Miranda, V. R. (2026). Modelado y Validación de Riesgo de Crédito: Una Aproximación Estadística Integral. CFA & FRM Level II Professional Training Materials.