Modelado y Validación de Riesgo de Crédito:
Una Aproximación Estadística Integral

Victor Raul Miranda

CFA & FRM Level II Professional Training
Credit Risk Modelling & Validation Expert

Enero 2026

Resumen

El presente documento constituye una exploración comprehensiva y sistemática de los fundamentos estadísticos y matemáticos que sustentan el modelado de riesgo de crédito en instituciones financieras modernas. Desarrollado desde una perspectiva tanto teórica como práctica, este trabajo aborda tres pilares fundamentales: (1) los fundamentos estadísticos esenciales, incluyendo distribuciones de probabilidad, medidas de tendencia central y dispersión, y pruebas de hipótesis; (2) el desarrollo e implementación de scorecards crediticios para aplicación, comportamiento y cobranza; y (3) los modelos regulatorios requeridos bajo el marco de Basilea III e IFRS 9, específicamente los modelos de Probabilidad de Default (PD), Loss Given Default (LGD), y Exposure at Default (EAD).

La metodología empleada enfatiza la construcción sistemática del conocimiento, partiendo desde conceptos estadísticos fundamentales hasta llegar a aplicaciones avanzadas en gestión de riesgo crediticio. Se presentan múltiples ejemplos numéricos detallados, casos de estudio del sector bancario, y aplicaciones prácticas que ilustran la implementación de cada concepto teórico. Particular atención se dedica al Análisis de Varianza (ANOVA) y su conexión con modelos de regresión, proporcionando las bases para el desarrollo subsecuente de modelos predictivos.

Los resultados demuestran que una sólida comprensión de los fundamentos estadísticos es indispensable para el desarrollo, validación y gestión efectiva de modelos de riesgo crediticio. El documento concluye estableciendo las bases para futuras investigaciones en regresión logística y técnicas de machine learning aplicadas al scoring crediticio.

Palabras clave: Riesgo de Crédito, Modelado Estadístico, ANOVA, Distribuciones de Probabilidad, Scorecards Crediticios, Basilea III, IFRS 9, Probabilidad de Default, Validación de Modelos

Tabla de Contenidos

1. Introducción

1.1 Motivación y Contexto

1.2 Estructura del Documento

1.3 Los Tres Pilares del Modelado de Riesgo

2. Fundamentos Estadísticos

2.1 Clasificación de Datos

2.2 Escalas de Medición

3. Estadística Descriptiva

3.1 Medidas de Tendencia Central

3.2 Medidas de Dispersión

3.3 Población vs Muestra

4. Distribuciones de Probabilidad

4.1 Distribución Normal

4.2 Distribución Binomial

4.3 Distribución de Poisson

4.4 Teorema del Límite Central

4.5 Otras Distribuciones Importantes

5. Pruebas de Hipótesis

5.1 Fundamentos del Testing Estadístico

5.2 Errores Tipo I y Tipo II

5.3 Pruebas Estadísticas Comunes

6. Análisis de Varianza (ANOVA)

6.1 Introducción a ANOVA

6.2 Descomposición de Varianza

6.3 El Estadístico F

6.4 Aplicaciones en Riesgo de Crédito

7. Grados de Libertad

8. Conclusiones y Próximos Pasos

Referencias

1. Introducción

1.1 Motivación y Contexto

La gestión efectiva del riesgo de crédito constituye uno de los pilares fundamentales de la estabilidad financiera en instituciones bancarias modernas. Según el Comité de Basilea sobre Supervisión Bancaria, el riesgo de crédito se define como "la posibilidad de pérdida debido al fracaso de una contraparte en cumplir sus obligaciones contractuales". Esta definición aparentemente simple encapsula un universo de complejidad técnica, regulatoria y metodológica que requiere herramientas estadísticas y matemáticas sofisticadas para su adecuada cuantificación y gestión.

Los eventos de las últimas dos décadas—desde la crisis financiera global de 2007-2008 hasta los recientes desafíos económicos derivados de la pandemia de COVID-19—han demostrado de manera contundente que modelos de riesgo crediticio inadecuados, mal calibrados o insuficientemente validados pueden conducir no solo al fracaso de instituciones individuales, sino a crisis sistémicas con consecuencias económicas devastadoras a nivel global.

En este contexto, el desarrollo de modelos robustos de riesgo crediticio no es meramente un ejercicio técnico o un requisito regulatorio, sino una necesidad imperativa para la sostenibilidad del sistema financiero. Los modelos modernos deben ser capaces de:

Cuantificar con precisión la probabilidad de default de contrapartes individuales y portfolios completos
Estimar adecuadamente las pérdidas potenciales en caso de default, considerando garantías y procesos de recuperación
Proyectar dinámicamente las exposiciones futuras bajo diversos escenarios económicos
Cumplir rigurosamente con requerimientos regulatorios cada vez más stringentes (Basilea III, IFRS 9, CECL)
Adaptarse continuamente a cambios en condiciones macroeconómicas, comportamiento de clientes y estructuras de mercado

1.2 Estructura del Documento

Este documento adopta un enfoque pedagógico y sistemático, construyendo el conocimiento desde fundamentos estadísticos básicos hasta aplicaciones avanzadas en modelado de riesgo crediticio. La estructura ha sido diseñada para servir tanto a profesionales que buscan refrescar conceptos fundamentales como a aquellos que se aproximan al campo por primera vez.

Cada sección del documento incluye:

Desarrollo teórico riguroso: Presentación formal de definiciones, teoremas y propiedades matemáticas
Ejemplos numéricos detallados: Casos trabajados paso a paso para ilustrar aplicación práctica
Aplicaciones al riesgo crediticio: Conexión explícita entre teoría y práctica bancaria
Interpretación intuitiva: Explicaciones conceptuales que complementan la formalidad matemática

1.3 Los Tres Pilares del Modelado de Riesgo

El enfoque metodológico adoptado en este documento se estructura alrededor de tres pilares fundamentales e interconectados:

1.3.1 Pilar I: Estadística y Modelado Estadístico

Este pilar constituye la base matemática sobre la cual se construyen todos los modelos subsecuentes. Comprende:

Estadística Descriptiva: Herramientas para caracterizar y resumir datos crediticios (medias, varianzas, distribuciones empíricas)
Distribuciones de Probabilidad: Modelos teóricos que describen el comportamiento de variables aleatorias crediticias (Normal, Binomial, Poisson, etc.)
Inferencia Estadística: Técnicas para hacer inferencias sobre poblaciones de prestatarios a partir de muestras
Pruebas de Hipótesis: Metodologías para validar supuestos y comparar modelos
Análisis de Varianza (ANOVA): Técnicas para comparar tasas de default entre diferentes segmentos

Ejemplo Fundamental: Portfolio Crediticio

Considere un banco con un portfolio de 10,000 préstamos personales. Para gestionar efectivamente este portfolio, necesitamos:

Caracterizar la distribución de FICO scores (media = 700, σ = 100) usando estadística descriptiva
Modelar la probabilidad de default usando distribución binomial (cada préstamo: default/no default)
Usar ANOVA para comparar tasas de default entre regiones geográficas
Aplicar pruebas de hipótesis para validar si una nueva política de underwriting reduce defaults significativamente

1.3.2 Pilar II: Business Scorecards

Los scorecards crediticios son herramientas cuantitativas que transforman información del solicitante en una puntuación numérica que refleja el riesgo crediticio. Este pilar incluye tres tipos principales:

Application Scorecards: Utilizados en el momento de la solicitud de crédito para decidir aprobación/rechazo. Variables típicas incluyen:

Bureau scores (FICO, VantageScore)
Ingreso y estabilidad laboral
Ratio deuda/ingreso
Historial de cuenta bancaria

Behavioral Scorecards: Utilizados para clientes existentes para gestionar líneas de crédito y detectar deterioro. Variables incluyen:

Utilización de línea de crédito
Patrones de pago (meses de morosidad)
Cambios en bureau scores
Comportamiento transaccional

Collection Scorecards: Utilizados para cuentas en mora, priorizan esfuerzos de cobranza. Factores clave:

Días de morosidad
Monto adeudado vs. límite
Contactabilidad
Historial de promesas de pago

1.3.3 Pilar III: Modelos Regulatorios

Los requerimientos regulatorios de Basilea III e IFRS 9 mandatan el desarrollo de modelos específicos para cuantificar componentes del riesgo crediticio:

Modelos PD (Probability of Default):

$$PD = P(\text{Default dentro de horizonte temporal } T)$$

Estimación basada en regresión logística, análisis de supervivencia, o matrices de transición.

Modelos LGD (Loss Given Default):

$$LGD = 1 - \text{Recovery Rate} = \frac{\text{Exposición} - \text{Recuperación}}{\text{Exposición}}$$

Dependiente de colaterales, jerarquía de deuda, y eficiencia de procesos de recuperación.

Modelos EAD (Exposure at Default):

$$EAD = \text{Balance Actual} + \text{CCF} \times \text{Porción No Utilizada}$$

Donde CCF (Credit Conversion Factor) modela el drawdown en líneas de crédito antes de default.

Expected Loss (IFRS 9):

$$EL = PD \times LGD \times EAD$$

Nota Crítica: Estos tres pilares no son independientes sino profundamente interconectados. Los fundamentos estadísticos (Pilar I) son esenciales para desarrollar scorecards (Pilar II), que a su vez alimentan los modelos PD regulatorios (Pilar III). Una comprensión sólida del Pilar I es prerequisito absoluto para trabajo efectivo en los Pilares II y III.

2. Fundamentos Estadísticos

2.1 Clasificación de Datos

El primer paso en cualquier análisis cuantitativo es comprender la naturaleza de los datos con los que trabajamos. En modelado de riesgo crediticio, trabajamos con diversos tipos de datos, cada uno requiriendo técnicas estadísticas específicas.

2.1.1 Datos Cualitativos vs Cuantitativos

Definición 2.1: Datos Cualitativos

Los datos cualitativos (o categóricos) describen cualidades o características que no pueden ser expresadas numéricamente de manera inherente. Pueden ser:

Nominales: Categorías sin orden natural (ej: tipo de industria, estado civil, región geográfica)
Ordinales: Categorías con orden natural (ej: ratings crediticios AAA > AA > A, nivel educativo)

Definición 2.2: Datos Cuantitativos

Los datos cuantitativos (o numéricos) son mediciones o conteos que pueden ser expresados numéricamente. Pueden ser:

Discretos: Conteos de valores enteros (ej: número de defaults en un portfolio, meses de morosidad)
Continuos: Mediciones que pueden tomar cualquier valor en un intervalo (ej: FICO score, monto de préstamo, LTV ratio)

Ejemplo 2.1: Clasificación de Variables en Riesgo Crediticio

Datos Cualitativos Nominales:

Tipo de producto (Hipoteca, Auto, Personal, Tarjeta de Crédito)
Estado/Región (California, Texas, Florida, ...)
Sector de empleo (Tecnología, Manufactura, Servicios, ...)

Datos Cualitativos Ordinales:

Rating crediticio interno (A, B, C, D, E - peor a mejor)
Bucket de morosidad (Current, 30 DPD, 60 DPD, 90+ DPD)
Nivel educativo (High School, Bachelor's, Master's, PhD)

Datos Cuantitativos Discretos:

Número de cuentas crediticias abiertas: {0, 1, 2, 3, ...}
Número de consultas crediticias en últimos 6 meses: {0, 1, 2, 3, ...}
Meses en trabajo actual: {0, 1, 2, 3, ...}

Datos Cuantitativos Continuos:

FICO Score: [300, 850]
Loan-to-Value (LTV) ratio: [0%, 120%]
Debt-to-Income (DTI) ratio: [0%, 100%+]
Ingreso anual: ($0, $∞)

2.2 Escalas de Medición

Stevens (1946) identificó cuatro niveles fundamentales de medición, cada uno con propiedades matemáticas y operaciones estadísticas permitidas diferentes. Comprender estas escalas es crucial para seleccionar técnicas analíticas apropiadas.

2.2.1 Escala Nominal

Definición 2.3: Escala Nominal

La escala nominal clasifica datos en categorías mutuamente exclusivas sin orden inherente. Las únicas operaciones matemáticas permitidas son:

Igualdad: ¿A = B?
Conteo/Frecuencia: ¿Cuántos en cada categoría?
Moda: ¿Cuál es la categoría más frecuente?

Operaciones NO permitidas: Promedios, ordenamiento, aritmética

Ejemplo 2.2: Variable Nominal en Scoring

Suponga que clasificamos clientes por Tipo de Empleo:

Categoría	Código	Frecuencia	Default Rate
Asalariado	1	5,420	2.1%
Independiente	2	3,180	4.7%
Jubilado	3	1,200	1.5%
Desempleado	4	200	18.5%

Análisis Válido:

✅ Moda = "Asalariado" (categoría más frecuente)
✅ "Desempleado" tiene la mayor tasa de default (18.5%)
✅ 54.2% de clientes son "Asalariado"

Análisis INVÁLIDO:

❌ "Tipo de empleo promedio = 1.89" (sin sentido)
❌ "Asalariado < Independiente" (no hay orden inherente)

2.2.2 Escala Ordinal

Definición 2.4: Escala Ordinal

La escala ordinal clasifica datos en categorías con un orden o ranking natural, pero sin información sobre la magnitud de diferencias entre categorías.

Operaciones permitidas: Igualdad, ordenamiento, mediana, percentiles

Operaciones NO permitidas: Media, desviación estándar (porque intervalos no son uniformes)

Ejemplo 2.3: Ratings Crediticios Internos

Muchos bancos usan sistemas de rating ordinal para clasificar clientes:

Rating	Descripción	PD Range	Número de Cuentas
AAA	Riesgo Mínimo	[0%, 0.5%)	1,250
AA	Muy Bajo Riesgo	[0.5%, 1%)	2,380
A	Bajo Riesgo	[1%, 2.5%)	3,450
BBB	Riesgo Moderado	[2.5%, 5%)	1,920
BB	Alto Riesgo	[5%, 10%)	850
B	Muy Alto Riesgo	[10%, 20%)	120
CCC	Default Inminente	[20%, 100%]	30

Análisis Válido:

✅ AAA > AA > A > BBB > BB > B > CCC (ordenamiento)
✅ Mediana del rating = A (50% por encima, 50% por debajo)
✅ 70% de portfolio está en ratings A o mejor

Análisis Problemático:

⚠️ "Rating promedio = A" - técnicamente incorrecto pero a veces usado en práctica
❌ "Diferencia AAA-AA = Diferencia A-BBB" - NO, los intervalos de PD son diferentes

Nota: Aunque técnicamente inapropiado calcular medias sobre datos ordinales, en la práctica bancaria a veces se asignan "pesos de riesgo" numéricos a ratings (AAA=1, AA=2, etc.) para calcular "rating promedio ponderado" de un portfolio. Esto es una aproximación conveniente pero debe usarse con cautela.

2.2.3 Escala de Intervalo

Definición 2.5: Escala de Intervalo

La escala de intervalo tiene todas las propiedades de escala ordinal, ADEMÁS de que las diferencias entre valores son significativas y uniformes. Sin embargo, NO tiene un cero absoluto verdadero.

Operaciones permitidas: Suma, resta, media, desviación estándar

Operaciones NO permitidas: Multiplicación, división, ratios (porque cero es arbitrario)

Ejemplo 2.4: Temperatura como Escala de Intervalo

Aunque la temperatura rara vez se usa directamente en scoring crediticio, ilustra perfectamente la escala de intervalo:

Temperatura en Celsius:

✅ 20°C - 10°C = 30°C - 20°C = 10° (diferencias son comparables)
✅ Promedio de {10°C, 20°C} = 15°C (válido)
❌ 20°C NO es "el doble de caliente" que 10°C
❌ 0°C NO significa "ausencia de temperatura"

En el contexto crediticio, algunos argumentan que FICO scores son escala de intervalo: 700-650 = 50 puntos tiene el mismo significado que 750-700 = 50 puntos. Sin embargo, esto es debatible y depende de la calibración específica del score.

2.2.4 Escala de Razón (Ratio)

Definición 2.6: Escala de Razón

La escala de razón tiene todas las propiedades de escala de intervalo, ADEMÁS de un cero absoluto verdadero que representa ausencia completa de la cantidad medida.

Operaciones permitidas: TODAS las operaciones matemáticas (suma, resta, multiplicación, división, ratios, porcentajes)

Ejemplo 2.5: Variables de Razón en Riesgo Crediticio

Monto de Préstamo:

✅ $0 significa "no hay préstamo" (cero absoluto)
✅ $40,000 es el doble de $20,000 (ratios válidos)
✅ Promedio de {$10,000, $30,000} = $20,000

Debt-to-Income Ratio (DTI):

$$\text{DTI} = \frac{\text{Pagos Mensuales de Deuda}}{\text{Ingreso Mensual Bruto}} \times 100\%$$

✅ DTI = 0% significa "sin deuda" (cero absoluto)
✅ DTI = 80% es el doble de riesgoso que DTI = 40%
✅ Todas las operaciones aritméticas son válidas

Número de Días de Morosidad:

✅ 0 días significa "cuenta current" (cero absoluto)
✅ 60 días es el doble que 30 días
✅ Incremento de 30 a 60 días es +100%

Implicaciones para Modelado:

Variables de razón pueden usarse directamente en modelos de regresión lineal
Variables nominales requieren codificación one-hot (dummy variables)
Variables ordinales pueden tratarse como numéricas si se puede justificar intervalos uniformes, o como categóricas
La escala de medición determina qué transformaciones son apropiadas (log, raíz cuadrada, etc.)

— 1 —

3. Estadística Descriptiva

La estadística descriptiva proporciona herramientas para resumir, organizar y presentar datos de manera significativa. En el contexto de riesgo crediticio, estas técnicas nos permiten caracterizar portfolios completos, identificar patrones, y comunicar información compleja de manera concisa.

3.1 Medidas de Tendencia Central

Las medidas de tendencia central describen el valor "típico" o "central" de un conjunto de datos. En risk management, nos ayudan a responder preguntas como: "¿Cuál es el FICO score típico de nuestros clientes?" o "¿Cuál es la tasa de default promedio en nuestro portfolio?"

3.1.1 La Media Aritmética

Definición 3.1: Media Poblacional y Muestral

Media Poblacional (μ):

$$\mu = \frac{1}{N}\sum_{i=1}^{N} x_i$$ (3.1)

donde $N$ es el tamaño total de la población.

Media Muestral $(\bar{x})$:

$$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$$ (3.2)

donde $n$ es el tamaño de la muestra.

Propiedad 3.1: Estimador Insesgado

La media muestral $\bar{x}$ es un estimador insesgado de la media poblacional $\mu$:

$$E[\bar{x}] = \mu$$

donde $E[\cdot]$ denota el valor esperado.

Ejemplo 3.1: FICO Scores de Portfolio Hipotecario

Un banco regional tiene un portfolio de $n = 20$ préstamos hipotecarios con los siguientes FICO scores al momento de originación:

720, 685, 750, 695, 710, 730, 690, 755, 715, 700,
725, 680, 745, 705, 695, 760, 710, 690, 735, 720

Cálculo de la Media:

$$\begin{align} \bar{x} &= \frac{1}{20}(720 + 685 + 750 + \cdots + 735 + 720) \\ &= \frac{14,310}{20} \\ &= 715.5 \end{align}$$

Interpretación: El FICO score promedio de este portfolio es 715.5, lo cual representa un cliente "Prime" (FICO ≥ 670). Esto sugiere que el banco ha originado préstamos a borrowers de calidad crediticia relativamente buena.

Aplicación en Riesgo:

Si el banco establece política de "FICO mínimo = 680", entonces 17 de 20 préstamos (85%) cumplen este criterio
Para pricing, podríamos usar $\bar{x} = 715.5$ como benchmark para determinar tasa de interés
En stress testing, evaluaríamos impacto de una caída generalizada de 50 puntos en FICO

3.1.2 La Mediana

Definición 3.2: Mediana

La mediana es el valor que divide el conjunto de datos ordenado en dos mitades iguales:

$$\text{Mediana} = \begin{cases} x_{(n+1)/2} & \text{si } n \text{ es impar} \\ \frac{x_{n/2} + x_{(n/2)+1}}{2} & \text{si } n \text{ es par} \end{cases}$$

donde $x_{(i)}$ denota el $i$-ésimo valor ordenado.

Ejemplo 3.2: Mediana vs Media con Outliers

Considere dos portfolios de préstamos personales con los siguientes montos ($):

Portfolio A (sin outliers):

10,000 | 12,000 | 15,000 | 18,000 | 20,000

Media = (10,000 + 12,000 + 15,000 + 18,000 + 20,000) / 5 = $15,000
Mediana = valor central = $15,000

Portfolio B (con outlier):

10,000 | 12,000 | 15,000 | 18,000 | 100,000

Media = (10,000 + 12,000 + 15,000 + 18,000 + 100,000) / 5 = $31,000
Mediana = valor central = $15,000

Análisis:

En Portfolio A, media = mediana → distribución simétrica
En Portfolio B, media > mediana → distribución sesgada a la derecha
El outlier de $100,000 distorsiona la media pero NO afecta la mediana
La mediana es más robusta ante valores extremos

Implicación para Risk Management: Cuando reportamos "exposición típica" a la alta gerencia, la mediana puede ser más informativa que la media si el portfolio contiene algunos préstamos muy grandes que distorsionarían la media.

3.1.3 La Moda

Definición 3.3: Moda

La moda es el valor que aparece con mayor frecuencia en el conjunto de datos.

Unimodal: Un solo valor con máxima frecuencia
Bimodal: Dos valores con máxima frecuencia
Multimodal: Más de dos valores con máxima frecuencia
Sin moda: Todos los valores tienen la misma frecuencia

Ejemplo 3.3: Moda en Categorización de Riesgo

Un portfolio de 100 tarjetas de crédito clasificadas por buckets de morosidad:

Bucket	Descripción	Frecuencia	Porcentaje
Current	0 días de mora	82	82%
30 DPD	1-30 días	10	10%
60 DPD	31-60 días	5	5%
90+ DPD	90+ días	3	3%

Análisis Modal:

Moda = "Current" (82 cuentas)
La mayoría (82%) de cuentas están al corriente en pagos
Solo 18% presentan algún grado de morosidad

Nota: Para variables categóricas como esta, la moda es frecuentemente la medida de tendencia central más apropiada, ya que media y mediana no tienen interpretación natural.

3.2 Medidas de Dispersión

Las medidas de dispersión cuantifican la variabilidad o "spread" de los datos alrededor de la tendencia central. En gestión de riesgo, la dispersión es frecuentemente TAN importante como la tendencia central—dos portfolios pueden tener la misma media de default rate pero riesgos muy diferentes si uno tiene alta variabilidad.

3.2.1 Rango

Definición 3.4: Rango

El rango es la diferencia entre el valor máximo y mínimo:

$$\text{Rango} = x_{\max} - x_{\min}$$

Ventajas: Extremadamente simple de calcular e interpretar

Desventajas:

Usa solo dos valores, ignorando toda la distribución intermedia
Extremadamente sensible a outliers
No es útil para comparar datasets de diferentes tamaños

3.2.2 Varianza

Definición 3.5: Varianza Poblacional y Muestral

Varianza Poblacional ($\sigma^2$):

$$\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2$$ (3.3)

Varianza Muestral ($s^2$):

$$s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$$ (3.4)

¿Por qué $n-1$ en lugar de $n$? (Corrección de Bessel)

Esta es una de las preguntas más frecuentes en estadística. La razón fundamental es que $s^2$ con denominador $n-1$ es un estimador insesgado de $\sigma^2$:

$$E[s^2] = E\left[\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2\right] = \sigma^2$$

Intuición:

Cuando calculamos $s^2$, usamos $\bar{x}$ (estimación) en lugar de $\mu$ (verdadero)
$\bar{x}$ es calculado de la MISMA muestra, por lo que $(x_i - \bar{x})$ tiende a ser más pequeño que $(x_i - \mu)$
Esta subestimación sistemática se corrige dividiendo por $n-1$ en lugar de $n$
El divisor $n-1$ representa los grados de libertad: una vez conocemos $\bar{x}$, solo $n-1$ desviaciones son independientes

Consecuencia práctica: Si usas Excel, asegúrate de usar VAR.S() (sample variance con $n-1$) no VAR.P() (population variance con $n$) cuando trabajas con muestras.

Ejemplo 3.4: Cálculo Detallado de Varianza

Considere 5 tasas de default anuales (%) de un producto de tarjeta de crédito:

2.1, 3.5, 2.8, 4.2, 3.4

Paso 1: Calcular la media

$$\bar{x} = \frac{2.1 + 3.5 + 2.8 + 4.2 + 3.4}{5} = \frac{16.0}{5} = 3.2\%$$

Paso 2: Calcular desviaciones $(x_i - \bar{x})$

$x_i$	$x_i - \bar{x}$	$(x_i - \bar{x})^2$
2.1	-1.1	1.21
3.5	+0.3	0.09
2.8	-0.4	0.16
4.2	+1.0	1.00
3.4	+0.2	0.04
Suma	0.0	2.50

Nota: La suma de desviaciones siempre es cero: $\sum(x_i - \bar{x}) = 0$. Esta es una propiedad fundamental de la media.

Paso 3: Calcular varianza muestral

$$s^2 = \frac{\sum(x_i - \bar{x})^2}{n-1} = \frac{2.50}{5-1} = \frac{2.50}{4} = 0.625$$

Interpretación: La varianza de 0.625 (porcentaje al cuadrado) cuantifica la dispersión de las tasas de default alrededor de la media de 3.2%.

3.2.3 Desviación Estándar

Definición 3.6: Desviación Estándar

La desviación estándar es la raíz cuadrada de la varianza:

Poblacional:

$$\sigma = \sqrt{\sigma^2} = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2}$$

Muestral:

$$s = \sqrt{s^2} = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2}$$

¿Por qué usar desviación estándar en lugar de varianza?

Tiene las mismas unidades que los datos originales
Más intuitiva para interpretar
Directamente comparable con la media

Ejemplo 3.5: Desviación Estándar de Default Rates

Continuando del Ejemplo 3.4:

$$s = \sqrt{0.625} = 0.79\%$$

Interpretación:

La tasa de default promedio es $\bar{x} = 3.2\%$
La desviación estándar es $s = 0.79\%$
La mayoría de años ($\approx$ 68% bajo normalidad) tienen default rate entre:
- Límite inferior: $3.2\% - 0.79\% = 2.41\%$
- Límite superior: $3.2\% + 0.79\% = 3.99\%$

Para Stress Testing: Si modelamos defaults como normalmente distribuidos, podríamos usar $\mu + 2\sigma = 3.2\% + 2(0.79\%) = 4.78\%$ como escenario "adverso" (representa aproximadamente el percentil 97.5 bajo normalidad).

3.2.4 Coeficiente de Variación

Definición 3.7: Coeficiente de Variación (CV)

El coeficiente de variación es una medida de dispersión relativa:

$$CV = \frac{\sigma}{\mu} \times 100\% \quad \text{(poblacional)}$$

$$CV = \frac{s}{\bar{x}} \times 100\% \quad \text{(muestral)}$$

¿Cuándo usar CV?

Para comparar variabilidad de datasets con diferentes unidades
Para comparar variabilidad de datasets con diferentes medias
Cuando queremos expresar dispersión como porcentaje de la media

Ejemplo 3.6: Comparación de Riesgo con CV

Un banco maneja tres portfolios de crédito:

Portfolio	Producto	Media ($\bar{x}$)	Desv. Est. ($s$)	CV
A	Hipotecas	2.5%	0.8%	32%
B	Auto	4.0%	1.5%	37.5%
C	Tarjeta Crédito	8.0%	4.0%	50%

Cálculo del CV:

Portfolio A: $CV = \frac{0.8}{2.5} \times 100\% = 32\%$
Portfolio B: $CV = \frac{1.5}{4.0} \times 100\% = 37.5\%$
Portfolio C: $CV = \frac{4.0}{8.0} \times 100\% = 50\%$

Análisis:

Tarjetas de Crédito (C) tienen el CV más alto (50%) → mayor riesgo relativo
Hipotecas (A) tienen el CV más bajo (32%) → menor riesgo relativo
Aunque Portfolio C tiene mayor desviación estándar absoluta ($s = 4.0\%$), cuando ajustamos por la media más alta, todos los portfolios tienen riesgo relativo moderado

Implicación para Capital: Bajo Basilea III, requerimientos de capital regulatorio consideran tanto la probabilidad de default esperada (media) como la volatilidad (desviación estándar). Portfolios con CV alto típicamente requieren mayor capital.

3.3 Población vs Muestra

La distinción entre parámetros poblacionales y estadísticos muestrales es fundamental en inferencia estadística. En la práctica bancaria, rara vez observamos toda la "población" de interés (ej: todos los clientes potenciales futuros), por lo que trabajamos con muestras.

Definición 3.8: Notación Estándar

Medida	Población	Muestra
Tamaño	$N$	$n$
Media	$\mu$ (mu)	$\bar{x}$ (x-bar)
Varianza	$\sigma^2$ (sigma cuadrado)	$s^2$
Desviación Estándar	$\sigma$ (sigma)	$s$
Proporción	$p$	$\hat{p}$ (p-hat)

Teorema 3.1: Propiedades de Estimadores Muestrales

Bajo muestreo aleatorio simple de una población con media $\mu$ y varianza $\sigma^2$:

1. Media muestral es insesgada:

$$E[\bar{x}] = \mu$$

2. Varianza de la media muestral:

$$\text{Var}(\bar{x}) = \frac{\sigma^2}{n}$$

Esto implica que el error estándar de la media es $SE(\bar{x}) = \frac{\sigma}{\sqrt{n}}$

3. Varianza muestral (con $n-1$) es insesgada:

$$E[s^2] = \sigma^2$$

Ejemplo 3.7: Estimación de PD desde Muestra

Contexto: Un banco quiere estimar la tasa de default poblacional para un nuevo producto de préstamo personal. No tiene datos históricos completos, solo una muestra de 500 clientes de un producto similar.

Datos de la muestra:

Tamaño de muestra: $n = 500$
Número de defaults observados: 18
Tasa de default muestral: $\hat{p} = \frac{18}{500} = 0.036 = 3.6\%$

Pregunta: ¿Cuál es nuestra mejor estimación de la verdadera PD poblacional $p$?

Respuesta:

Estimación puntual: $\hat{p} = 3.6\%$
Error estándar (bajo distribución binomial):
$$SE(\hat{p}) = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} = \sqrt{\frac{0.036 \times 0.964}{500}} = \sqrt{0.0000694} = 0.0083 = 0.83\%$$
Intervalo de confianza 95% (aproximación normal):
$$\hat{p} \pm 1.96 \times SE(\hat{p}) = 3.6\% \pm 1.96(0.83\%) = 3.6\% \pm 1.63\% = [1.97\%, 5.23\%]$$

Interpretación: Estamos 95% confiados de que la verdadera tasa de default poblacional está entre 1.97% y 5.23%. Para ser conservadores en pricing/capital, podríamos usar el límite superior de 5.23%.

Nota sobre tamaño muestral: El error estándar $SE \propto \frac{1}{\sqrt{n}}$ implica que:

Para reducir a la mitad el error, necesitamos cuadriplicar el tamaño muestral
Con $n = 2000$ (×4 muestral size): $SE = 0.42\%$ (½ del original)

— 2 —

4. Distribuciones de Probabilidad

Las distribuciones de probabilidad son modelos matemáticos que describen el comportamiento de variables aleatorias. En riesgo crediticio, utilizamos distribuciones para modelar defaults, pérdidas, scores, y muchas otras variables de interés.

4.1 Distribución Normal

Definición 4.1: Distribución Normal

Una variable aleatoria continua $X$ sigue una distribución normal con media $\mu$ y varianza $\sigma^2$, denotada $X \sim N(\mu, \sigma^2)$, si su función de densidad de probabilidad es:

$$f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right), \quad -\infty < x < \infty$$ (4.1)

Teorema 4.1: Regla Empírica (68-95-99.7)

Para una distribución normal $N(\mu, \sigma^2)$:

Aproximadamente 68% de datos caen dentro de $\mu \pm \sigma$
Aproximadamente 95% de datos caen dentro de $\mu \pm 2\sigma$
Aproximadamente 99.7% de datos caen dentro de $\mu \pm 3\sigma$

Ejemplo 4.1: FICO Scores ~ Normal(700, 100²)

Suponga que FICO scores en un portfolio siguen $N(700, 100^2)$. Calculemos probabilidades clave:

P(FICO ≥ 670)? (FICO mínimo para "Prime")

Estandarizando:

$$Z = \frac{X - \mu}{\sigma} = \frac{670 - 700}{100} = -0.30$$

$$P(X \geq 670) = P(Z \geq -0.30) = 1 - P(Z < -0.30) = 1 - 0.3821 = 0.6179 = 61.79\%$$

P(FICO < 580)? (FICO para "Subprime")

$$Z = \frac{580 - 700}{100} = -1.20$$

$$P(X < 580) = P(Z < -1.20) = 0.1151 = 11.51\%$$

Aplicación en Underwriting:

Si establecemos cutoff en FICO = 670, aprobamos ~62% de solicitantes
~11.5% de solicitantes serían "subprime"
El percentil 10 (10% peor FICO): $\mu + z_{0.10}\sigma = 700 + (-1.28)(100) = 572$

4.2 Distribución Binomial

Definición 4.2: Distribución Binomial

Considere $n$ ensayos independientes, cada uno con probabilidad $p$ de "éxito". Sea $X$ = número de éxitos. Entonces $X \sim \text{Binomial}(n,p)$ con función de masa de probabilidad:

$$P(X = k) = \binom{n}{k}p^k(1-p)^{n-k}, \quad k = 0,1,2,\ldots,n$$ (4.2)

donde $\binom{n}{k} = \frac{n!}{k!(n-k)!}$ es el coeficiente binomial.

Media: $E[X] = np$

Varianza: $\text{Var}(X) = np(1-p)$

Ejemplo 4.2: Defaults en Portfolio de Préstamos

Contexto: Un portfolio de $n = 100$ préstamos personales, cada uno con PD = 3% = 0.03. Asumiendo defaults independientes, el número de defaults $D \sim \text{Binomial}(100, 0.03)$.

P(exactamente 5 defaults)?

$$\begin{align} P(D = 5) &= \binom{100}{5}(0.03)^5(0.97)^{95} \\ &= \frac{100!}{5! \cdot 95!}(0.03)^5(0.97)^{95} \\ &= 75,287,520 \times 2.43 \times 10^{-8} \times 0.0453 \\ &= 0.0828 = 8.28\% \end{align}$$

Número esperado de defaults:

$$E[D] = np = 100 \times 0.03 = 3 \text{ préstamos}$$

Desviación estándar:

$$\sigma_D = \sqrt{np(1-p)} = \sqrt{100 \times 0.03 \times 0.97} = \sqrt{2.91} = 1.71 \text{ préstamos}$$

P(≥ 10 defaults)? (escenario adverso)

Usando aproximación normal (válida si $np > 5$ y $n(1-p) > 5$, ambos satisfechos):

$$D \approx N(3, 2.91)$$

$$P(D \geq 10) \approx P\left(Z \geq \frac{10 - 3}{1.71}\right) = P(Z \geq 4.09) \approx 0.00002 = 0.002\%$$

Conclusión: La probabilidad de tener 10+ defaults es extremadamente baja (0.002%) bajo supuesto de independencia. Si observamos 10+ defaults en realidad, sugiere que el supuesto de independencia NO se sostiene (posible contagio o shock sistémico).

4.4 Teorema del Límite Central

Teorema 4.2: Teorema del Límite Central (CLT)

Sea $X_1, X_2, \ldots, X_n$ una muestra aleatoria de tamaño $n$ de una distribución con media $\mu$ y varianza finita $\sigma^2$. Entonces, cuando $n \to \infty$:

$$\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i \xrightarrow{d} N\left(\mu, \frac{\sigma^2}{n}\right)$$

O equivalentemente, la variable estandarizada:

$$Z_n = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \xrightarrow{d} N(0,1)$$

Implicaciones cruciales para riesgo crediticio:

Explica por qué muchos fenómenos financieros son aproximadamente normales
Justifica uso de distribución normal para portfolios grandes
Fundamenta inferencia estadística para muestras grandes

Ejemplo 4.3: CLT en Pérdidas de Portfolio

Un portfolio de 1,000 préstamos idénticos. Cada préstamo:

Exposición: $10,000
PD = 5%
LGD = 60%
Pérdida esperada por préstamo: $\mu = 10,000 \times 0.05 \times 0.60 = $300
Desviación estándar de pérdida por préstamo: $\sigma = $800

Distribución de pérdida total del portfolio:

Pérdida total = $L = \sum_{i=1}^{1000} L_i$ donde $L_i$ = pérdida del préstamo $i$

Por CLT, para $n = 1000$ grande:

$$L \approx N\left(n\mu, n\sigma^2\right) = N(1000 \times 300, 1000 \times 800^2) = N(300,000, 640,000,000)$$

Por lo tanto: $\sigma_L = \sqrt{640,000,000} = 25,298$

VaR al 99% (Value at Risk):

$$\text{VaR}_{0.99} = \mu_L + z_{0.99}\sigma_L = 300,000 + 2.33(25,298) = $358,944$$

Interpretación: Con 99% de confianza, la pérdida del portfolio no excederá $358,944. Esto representa:

Pérdida esperada: $300,000
Pérdida inesperada (UL): $358,944 - $300,000 = $58,944
Capital económico requerido ≈ $58,944 para cubrir pérdidas inesperadas

6. Análisis de Varianza (ANOVA)

6.1 Introducción a ANOVA

ANOVA (Analysis of Variance) es una técnica estadística para comparar medias de tres o más grupos. En riesgo crediticio, ANOVA nos permite responder preguntas como:

¿Las tasas de default difieren significativamente entre regiones geográficas?
¿Los FICO scores difieren entre productos (hipoteca, auto, personal)?
¿La pérdida esperada varía entre segmentos de clientes?

6.2 Descomposición de Varianza

Teorema 6.1: Descomposición Fundamental de ANOVA

La variabilidad total en los datos puede descomponerse en dos componentes:

$$\underbrace{\sum_{i=1}^k\sum_{j=1}^{n_i}(x_{ij} - \bar{x})^2}_{\text{TSS}} = \underbrace{\sum_{i=1}^k n_i(\bar{x}_i - \bar{x})^2}_{\text{ESS}} + \underbrace{\sum_{i=1}^k\sum_{j=1}^{n_i}(x_{ij} - \bar{x}_i)^2}_{\text{RSS}}$$

TSS (Total Sum of Squares) = ESS (Explained Sum of Squares) + RSS (Residual Sum of Squares)

Donde:

$k$ = número de grupos
$n_i$ = número de observaciones en grupo $i$
$x_{ij}$ = $j$-ésima observación en grupo $i$
$\bar{x}_i$ = media del grupo $i$
$\bar{x}$ = media global (de todos los datos)

6.3 El Estadístico F

Definición 6.1: Estadístico F de ANOVA

El estadístico F compara la varianza entre grupos con la varianza dentro de grupos:

$$F = \frac{\text{MSE}}{\text{MSR}} = \frac{\text{ESS}/(k-1)}{\text{RSS}/(n-k)}$$ (6.1)

Donde:

MSE (Mean Square Explained) = varianza entre grupos
MSR (Mean Square Residual) = varianza dentro de grupos
$k-1$ = grados de libertad del numerador
$n-k$ = grados de libertad del denominador

Bajo $H_0: \mu_1 = \mu_2 = \cdots = \mu_k$, tenemos $F \sim F_{k-1, n-k}$

Ejemplo 6.1: ANOVA para Default Rates por Región

Contexto: Un banco quiere saber si las tasas de default (%) difieren significativamente entre tres regiones geográficas.

Datos:

Región A (Costa)	Región B (Centro)	Región C (Interior)
2.1	3.8	5.5
2.5	4.2	6.1
2.3	3.9	5.8
2.7	4.5	6.3
$\bar{x}_A = 2.4$	$\bar{x}_B = 4.1$	$\bar{x}_C = 5.925$

Paso 1: Calcular media global

$$\bar{x} = \frac{2.4 + 4.1 + 5.925}{3} = 4.142\%$$

Paso 2: Calcular ESS (Between Groups)

$$\begin{align} \text{ESS} &= n_1(\bar{x}_1 - \bar{x})^2 + n_2(\bar{x}_2 - \bar{x})^2 + n_3(\bar{x}_3 - \bar{x})^2 \\ &= 4(2.4 - 4.142)^2 + 4(4.1 - 4.142)^2 + 4(5.925 - 4.142)^2 \\ &= 4(3.037) + 4(0.002) + 4(3.179) \\ &= 12.148 + 0.008 + 12.716 = 24.872 \end{align}$$

Paso 3: Calcular RSS (Within Groups)

Para Región A:

$$(2.1-2.4)^2 + (2.5-2.4)^2 + (2.3-2.4)^2 + (2.7-2.4)^2 = 0.20$$

Similarmente: Región B: 0.22, Región C: 0.26

$$\text{RSS} = 0.20 + 0.22 + 0.26 = 0.68$$

Paso 4: Construir tabla ANOVA

Source	SS	df	MS	F
Between Groups	24.872	2	12.436	164.69
Within Groups	0.68	9	0.0756	—
Total	25.552	11	—	—

Paso 5: Calcular estadístico F

$$F = \frac{\text{MSE}}{\text{MSR}} = \frac{12.436}{0.0756} = 164.69$$

Paso 6: Decisión

Valor crítico $F_{0.05, 2, 9} = 4.26$ (de tabla F)

Como $F = 164.69 > 4.26$, rechazamos $H_0$

p-value < 0.0001 (extremadamente significativo)

Conclusión: Existe evidencia MUY fuerte de que las tasas de default difieren entre regiones. Región C (Interior) tiene significativamente mayor riesgo crediticio que Regiones A y B.

Aplicación práctica: El banco debería:

Usar diferentes modelos de pricing para cada región
Ajustar políticas de underwriting para Región C
Asignar mayores reservas de capital para portfolio de Región C

6.4 Aplicaciones en Riesgo de Crédito

6.4.1 Validación de Scorecards

ANOVA puede usarse para validar que un scorecard efectivamente discrimina entre niveles de riesgo:

Ejemplo 6.2: Validación de Discriminación del Scorecard

Hipótesis:

$H_0$: Default rates son iguales en todos los score bands
$H_1$: Al menos un score band tiene diferente default rate

Si rechazamos $H_0$, confirmamos que el scorecard tiene poder discriminatorio.

6.4.2 Segmentación de Portfolio

Determinar si es necesario desarrollar modelos separados para diferentes segmentos.

7. Grados de Libertad

El concepto de "grados de libertad" (degrees of freedom, df) aparece consistentemente en estadística pero frecuentemente causa confusión. La mejor manera de entenderlo es através del ejemplo pedagógico clásico:

Ejemplo 7.1: El Problema de los Tres Números

Problema: Necesito seleccionar tres números que sumen exactamente 100.

Escenario 1 - Sin restricciones adicionales:

Puedo elegir libremente: Primer número = 8
Puedo elegir libremente: Segundo número = 42
NO puedo elegir libremente el tercero: Tercer número = 100 - 8 - 42 = 50

Grados de libertad = 2 (dos elecciones independientes)

Escenario 2 - Con restricción adicional:

Ahora además requiero que los primeros dos números sumen 50:

Puedo elegir: Primer número = 8
NO puedo elegir: Segundo número = 50 - 8 = 42 (determinado por restricción)
NO puedo elegir: Tercer número = 100 - 50 = 50 (determinado por restricción)

Grados de libertad = 1 (solo una elección independiente)

Definición 7.1: Grados de Libertad

Los grados de libertad representan el número de piezas de información que pueden variar independientemente después de imponer restricciones.

$$\text{df} = \text{Número de observaciones} - \text{Número de restricciones}$$

7.1 Grados de Libertad en Varianza Muestral

¿Por qué usamos $n-1$ en la varianza muestral?

Cuando calculamos:

$$s^2 = \frac{1}{n-1}\sum_{i=1}^n(x_i - \bar{x})^2$$

La razón del $(n-1)$ es que las desviaciones $(x_i - \bar{x})$ están sujetas a una restricción:

$$\sum_{i=1}^n (x_i - \bar{x}) = 0 \quad \text{(siempre)}$$

Esto significa:

Si conoces $(n-1)$ desviaciones, la $n$-ésima está completamente determinada
Solo $(n-1)$ desviaciones son "libres de variar"
Por lo tanto: df = n - 1

7.2 Grados de Libertad en ANOVA

Source	Degrees of Freedom	Explicación
Between Groups (ESS)	$k - 1$	$k$ medias grupales con restricción $\sum n_i\bar{x}_i = n\bar{x}$
Within Groups (RSS)	$n - k$	$n$ observaciones menos $k$ medias estimadas
Total (TSS)	$n - 1$	$n$ observaciones menos 1 media global estimada

Verificación: $(k-1) + (n-k) = n-1$ ✓

7.3 Implicaciones para Modelado

Muestras pequeñas: Menor df → mayor incertidumbre → intervalos de confianza más amplios
Pruebas t vs z: Distribución t tiene "colas más pesadas" cuando df es bajo
Calidad del modelo: Mayor df generalmente indica más información para estimación

8. Conclusiones y Próximos Pasos

8.1 Síntesis del Contenido

Este documento ha proporcionado una base comprehensiva en estadística aplicada al modelado de riesgo crediticio. Hemos cubierto:

Fundamentos estadísticos: Escalas de medición, clasificación de datos, y su implicación para técnicas analíticas apropiadas
Estadística descriptiva: Medidas de tendencia central y dispersión, con énfasis particular en la distinción población-muestra y la Corrección de Bessel
Distribuciones de probabilidad: Normal, Binomial, Poisson, y otras distribuciones críticas para modelado crediticio
Teorema del Límite Central: Justificación teórica para uso de normalidad en portfolios grandes
Pruebas de hipótesis: Framework para toma de decisiones estadísticas y errores Tipo I/II
ANOVA: Comparación de múltiples grupos y descomposición de varianza
Grados de libertad: Concepto fundamental que aparece en toda la inferencia estadística

8.2 Conexión con los Tres Pilares

Hemos establecido sólidamente el Pilar I (Estadística), que ahora sirve como fundamento para los pilares subsecuentes:

Hacia el Pilar II: Business Scorecards

Los conceptos aprendidos se aplicarán directamente en:

Regresión Logística: Modelado de $P(Default = 1 | X)$ usando predictores múltiples
Weight of Evidence (WoE): Transformación de variables para scorecards
Information Value (IV): Selección de variables predictoras
Scorecard Scaling: Transformación de log-odds a puntuaciones interpretables

Hacia el Pilar III: Modelos Regulatorios

Las bases estadísticas permitirán desarrollo de:

Modelos PD: Estimación de probabilidades de default mediante regresión
Modelos LGD: Modelado de pérdida dado default considerando garantías
Modelos EAD: Estimación de exposición al default para líneas de crédito
Stress Testing: Proyección de métricas bajo escenarios adversos
Backtesting: Validación de modelos usando distribuciones binomiales

8.3 Próximos Temas

En las sesiones subsecuentes, cubriremos:

Sesión 2: Regresión

Regresión Lineal Simple y Múltiple
Supuestos del modelo lineal (BLUE - Best Linear Unbiased Estimator)
Diagnóstico de modelos (residuales, multicolinealidad, heteroscedasticidad)
Regresión Logística para clasificación binaria
Odds Ratios e interpretación de coeficientes

Sesión 3: Desarrollo de Scorecards

Weight of Evidence (WoE) y Information Value (IV)
Binning de variables continuas y categóricas
Construcción de scorecards: de logit a puntuación
Scaling y cálculo de puntos por característica
Implementación y monitoreo de scorecards

Sesiones 4-6: Modelos PD

Through-the-Cycle (TTC) vs Point-in-Time (PIT) PD
Matrices de transición y cadenas de Markov
Análisis de supervivencia para time-to-default
Calibración de modelos PD
Backtesting y validación de PD

Sesiones 7-9: Modelos LGD y EAD

Modelado de LGD: regresión vs métodos no-paramétricos
Efecto de garantías y jerarquía de deuda
Credit Conversion Factors (CCF) para EAD
Downturn LGD para requerimientos de capital

Sesiones 10-12: IFRS 9

Expected Credit Loss (ECL) methodology
Stage 1, 2, 3 classification
Lifetime PD vs 12-month PD
Forward-looking scenarios y ponderación de probabilidades
Provisioning y impacto en estados financieros

8.4 Reflexiones Finales

El modelado de riesgo crediticio es un campo que combina rigor matemático, intuición económica, y conocimiento del negocio bancario. Los fundamentos estadísticos cubiertos en este documento no son meramente académicos—son herramientas esenciales utilizadas diariamente por profesionales de riesgo en las instituciones financieras más sofisticadas del mundo.

Como famosamente declaró W. Edwards Deming: "In God we trust, all others must bring data." En el contexto de riesgo crediticio, agregamos: "...and understand the statistics behind that data."

El camino desde fundamentos estadísticos hasta modelos regulatorios complejos es largo pero sistemático. Cada concepto se construye sobre el anterior. La inversión en dominar estos fundamentos pagará dividendos sustanciales a medida que avanzamos hacia temas más complejos.

Para el estudiante diligente: Practique estos conceptos con datos reales. No hay sustituto para la experiencia práctica en limpieza de datos, ajuste de modelos, interpretación de resultados, y comunicación de hallazgos a stakeholders.

Para el profesional experimentado: Estos fundamentos sirven como referencia y recordatorio de los principios subyacentes que a veces se olvidan en la presión del trabajo diario. Revisitar los fundamentos frecuentemente fortalece la intuición y mejora la toma de decisiones.

— FIN DEL DOCUMENTO —

Referencias

[1] Basel Committee on Banking Supervision (2017). Basel III: Finalising post-crisis reforms. Bank for International Settlements.

[2] International Accounting Standards Board (2014). IFRS 9 Financial Instruments. IFRS Foundation.

[3] Anderson, R. (2007). The Credit Scoring Toolkit: Theory and Practice for Retail Credit Risk Management and Decision Automation. Oxford University Press.

[4] Merton, R. C. (1974). On the Pricing of Corporate Debt: The Risk Structure of Interest Rates. Journal of Finance, 29(2), 449-470.

[5] Altman, E. I. (1968). Financial Ratios, Discriminant Analysis and the Prediction of Corporate Bankruptcy. Journal of Finance, 23(4), 589-609.

[6] Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied Logistic Regression (3rd ed.). John Wiley & Sons.

[7] Siddiqi, N. (2017). Intelligent Credit Scoring: Building and Implementing Better Credit Risk Scorecards (2nd ed.). John Wiley & Sons.

[8] Stevens, S. S. (1946). On the Theory of Scales of Measurement. Science, 103(2684), 677-680.

[9] Student (1908). The Probable Error of a Mean. Biometrika, 6(1), 1-25.

[10] Fisher, R. A. (1925). Statistical Methods for Research Workers. Oliver and Boyd.

Autor: Victor Raul Miranda
Afiliación: CFA & FRM Level II Professional Training
Contacto: Especialista en Credit Risk Modelling & Validation
Fecha de Publicación: Enero 2026

Este documento ha sido desarrollado con fines educativos y de formación profesional. Las opiniones expresadas son del autor y no representan necesariamente las de ninguna institución financiera específica.

Citación sugerida: Miranda, V. R. (2026). Modelado y Validación de Riesgo de Crédito: Una Aproximación Estadística Integral. CFA & FRM Level II Professional Training Materials.