Investigadores que se desempeñan en instituciones de Perú, México y España, realizaron una revisión sistemática y un metaanálisis de la literatura preexistente con el propósito de analizar modelos pronósticos que fueran útiles para predecir el riesgo de enfermedad coronaria en pacientes con diabetes mellitus tipo 2, y publicaron sus hallazgos y conclusiones en la edición del 4 de marzo de 2026 de Diagnostics de Basilea*.
La NOTICIA DEL DÍA hoy se ocupará de comentar esta publicación.
En la introducción a la revisión, los autores destacaron que la diabetes mellitus tipo 2 (DM2) está estrechamente relacionada con un riesgo notablemente elevado de desarrollar enfermedad coronaria (EC), una afección que sigue siendo la principal causa de mortalidad entre las personas con DM2.
Esta asociación resalta la importancia de evaluar con precisión el riesgo cardiovascular en esta población, tanto para orientar la toma de decisiones clínicas como para implementar estrategias preventivas específicas.
En respuesta, se han diseñado diversos modelos pronósticos para estimar la probabilidad de eventos coronarios específicamente en personas con DM2.
Estos modelos abarcan desde herramientas ampliamente reconocidas como la puntuación de riesgo de Framingham y el motor de riesgo del Estudio Prospectivo de Diabetes del Reino Unido (UKPDS) hasta enfoques más avanzados que integran tecnologías de imagen, datos proteómicos, características demográficas y biomarcadores séricos.
Es necesario recordar que los datos proteómicos son el conjunto de información detallada sobre la estructura, función, cantidad y modificaciones de todas las proteínas presentes en una célula, tejido u organismo (el proteoma) en un momento específico.
Estos datos se obtienen principalmente mediante espectrometría de masas para analizar el estado biológico, permitiendo identificar biomarcadores de enfermedades, interacciones moleculares y la respuesta a tratamientos
Sin embargo, la fiabilidad predictiva y la aplicabilidad de estos modelos a menudo varían cuando se prueban en diferentes poblaciones.
Las validaciones externas han revelado inconsistencias notables tanto en la discriminación como en la calibración, particularmente cuando los modelos se aplican a cohortes con perfiles demográficos o clínicos distintos.
Además, una proporción significativa de estas herramientas se desarrollaron utilizando muestras pequeñas, carecían de validación externa o combinaban resultados heterogéneos, lo que limita su generalización.
Incluso modelos como UKPDS-OM2 (Outcomes Model versión 2) y RECODe —que están relativamente bien establecidos— han producido resultados inconsistentes dependiendo del resultado evaluado y las características de la población de validación.
Dadas estas limitaciones, existe una necesidad imperiosa de consolidar la evidencia existente sobre los modelos de predicción del riesgo de enfermedad coronaria en personas con T2DM.
Una revisión sistemática y un metaanálisis que sigan las directrices establecidas, como CHecklist for critical Appraisal and data extraction for systematic Reviews of prediction Modelling Studies (CHARMS) y PROBAST, proporcionan un marco metodológico apropiado para evaluar críticamente los procesos de desarrollo, los enfoques de validación y las métricas de rendimiento de estos modelos.
El presente metaanálisis está diseñado para abordar esta necesidad mediante la identificación y evaluación sistemáticas de modelos pronósticos multivariables desarrollados para predecir enfermedad coronaria en adultos con T2DM.
El objetivo es evaluar la discriminación y calibración del modelo, valorar el riesgo de sesgo y explorar estrategias de validación, ofreciendo en última instancia información que permita mejorar la predicción de riesgos y su aplicación clínica en diversas poblaciones diabéticas.
X
Es decir, de lo antedicho se desprende que las personas con diabetes mellitus tipo 2 (DM2) tienen un riesgo significativamente mayor de desarrollar enfermedad coronaria (EC); sin embargo, la generalización y la transferibilidad de los modelos de predicción existentes siguen siendo inciertas.
Por lo tanto, el objetivo de los autores fue Identificar y evaluar modelos pronósticos multivariables desarrollados para predecir EC en adultos con DM2.
A tales efectos realizaron una revisión sistemática y un metaanálisis guiados por PRISMA de modelos pronósticos multivariables que predijeran EC en poblaciones con DM2.
Se cuantificó la heterogeneidad entre estudios y los intervalos de predicción del 95%, mientras que el riesgo de sesgo y la aplicabilidad se evaluaron utilizando la herramienta PROBAST.
Trece estudios que abarcan modelos clínicos, basados en imágenes y aumentados con ómicas (estudiar la totalidad de factores específicos dentro de una célula, tejido u organismo) cumplieron los criterios de inclusión.
El AUC (área bajo la curva) combinado fue de 0,69 (IC del 95%: 0,66–0,71), con alta heterogeneidad (I 2 = 97,4%; τ 2 = 0,0979) y un amplio intervalo de predicción del 95% (0,54–0,81).
Los modelos clásicos basados en regresión demostraron una discriminación modesta, mientras que los enfoques de aprendizaje automático, imágenes y proteómica lograron estimaciones de AUC más altas, pero con frecuencia se vieron limitados por tamaños de muestra pequeños, validación solo interna y deficiente informe de calibración.
El dominio de análisis surgió como la principal fuente de sesgo en las evaluaciones de PROBAST, y los problemas de aplicabilidad fueron más frecuentes en los modelos que requieren plataformas moleculares o de imágenes avanzadas.
Al someter a discusión los datos señalados, se subrayaron:
1. Principales hallazgos
En 13 validaciones externas y desarrollos de modelos en personas con DM2, la discriminación para resultados relacionados con enfermedad coronaria fue generalmente de modesta a buena.
El análisis combinado arrojó un AUC general de 0,69, pero con una heterogeneidad extrema entre estudios.
Dada la heterogeneidad extrema entre estudios, el AUC combinado debe interpretarse como un resumen exploratorio del rendimiento discriminatorio en lugar de una estimación clínicamente aplicable, con el amplio intervalo de predicción que subraya una dependencia sustancial del contexto.
Los modelos de aprendizaje automático rara vez superaron a las sólidas líneas base de regresión por grandes márgenes, y las ganancias fueron más consistentes cuando los modelos incorporaron fenotipado más rico (imágenes coronarias, fenotipo hepático) u ómicas de alta dimensión.
La transportabilidad siguió siendo una línea de falla crítica: el rendimiento y la calibración del modelo variaron sustancialmente entre cohortes y entornos de atención, incluso para herramientas ampliamente utilizadas.
Una consideración metodológica clave es que los modelos incluidos son conceptualmente heterogéneos, abarcando puntuaciones clínicas clásicas, herramientas con imágenes y enfoques ómicos/de aprendizaje automático diseñados para distintas vías clínicas.
Por lo tanto, interpretaron el AUC combinado principalmente como un descriptor exploratorio del panorama discriminatorio general y como un medio para cuantificar la variabilidad (por ejemplo, intervalos de predicción), en lugar de como evidencia de un rendimiento generalizable.
La principal contribución de esta revisión radica en la síntesis narrativa específica del contexto y la evaluación basada en PROBAST de la credibilidad del modelo y las limitaciones de implementación en las distintas clases de modelos.
A pesar de los esfuerzos por centrarse en los resultados de la cardiopatía coronaria, la considerable variabilidad en las definiciones de los criterios de valoración entre los estudios sigue siendo una limitación importante.
Algunos modelos se centraron en eventos coronarios graves, mientras que otros incorporaron la revascularización, criterios de valoración cardiovasculares compuestos o medidas indirectas basadas en imágenes.
Estas diferencias reflejan distintas cuestiones clínicas y vías de atención, y probablemente contribuyen a la extrema heterogeneidad observada.
Por consiguiente, las métricas de discriminación combinadas no deben interpretarse como un reflejo del rendimiento para un único resultado uniforme de la cardiopatía coronaria.
Es importante destacar que una mayor complejidad algorítmica o molecular no debe interpretarse como evidencia de superioridad clínica per se.
En ausencia de una validación externa sólida, una calibración adecuada y un impacto demostrado en la toma de decisiones clínicas, las mejoras aparentes en el rendimiento discriminatorio siguen siendo insuficientes para justificar su implementación clínica.
Además, la heterogeneidad en las definiciones de resultados y la implementación de los criterios de valoración entre los estudios refleja diferencias en las preguntas clínicas y las vías de atención, y representa un factor importante que contribuye a la considerable heterogeneidad entre estudios observada en la síntesis cuantitativa.
2. Puntuaciones cardiovasculares clásicas específicas para la diabetes frente a puntuaciones cardiovasculares generales
Trabajos iniciales que comparaban UKPDS y Framingham en pacientes con diabetes tipo 2 de reciente diagnóstico ya señalaban una transportabilidad imperfecta: ambas herramientas estratificaban el riesgo, pero mostraban limitaciones cuando se aplicaban fuera de su época y contexto de derivación.
Más recientemente, UKPDS-OM2 tuvo un rendimiento subóptimo en una cohorte de ensayo contemporánea del Reino Unido, lo que puso de manifiesto la deriva de la calibración y enfatizó la necesidad de reestimar o recalibrar los modelos heredados para la atención y las terapias actuales.
Por el contrario, una validación externa a gran escala en UK Biobank sugirió que las puntuaciones basadas en la población, como QRISK/Score, pueden mostrar una discriminación respetable en la diabetes tipo 2, pero la descalibración es común y clínicamente significativa.
En conjunto, estos datos argumentan que ni las ecuaciones «específicas para la diabetes» ni las ecuaciones «generales de ECV» son directamente aplicables a poblaciones con diabetes tipo 2 sin una actualización local.
3. ¿Qué aportan los modelos de aprendizaje automático?
Si bien varios modelos basados en aprendizaje automático y ómicas reportan estimaciones puntuales de discriminación más altas, estas mejoras incrementales suelen ser modestas, inconsistentes entre los resultados y rara vez cuentan con validación externa independiente.
Es importante destacar que la complejidad algorítmica no debe confundirse con la superioridad clínica, ya que muchos de estos modelos se basan únicamente en la validación interna y carecen de una evaluación de calibración sólida, lo que aumenta su susceptibilidad al sesgo de optimismo.
Además, la dependencia de predictores que requieren muchos recursos, plataformas especializadas y la disponibilidad limitada de datos ómicos o de imágenes avanzadas restringe sustancialmente la viabilidad de estos modelos en la práctica clínica rutinaria.
Aminian et al. desarrollaron herramientas de riesgo individualizadas a 10 años para poblaciones de DM2 quirúrgicas y no quirúrgicas; sus mejores AUC fueron ~0,79–0,81 para mortalidad y ~0,66–0,67 para eventos coronarios, con curvas de calibración cercanas a lo ideal.
Un estudio nacional de Malasia aplicó aprendizaje automático para predecir complicaciones de la diabetes, informando una discriminación respetable utilizando datos clínicos de rutina, lo que subraya nuevamente que la curación y validación cuidadosas de características a menudo importan más que el algoritmo específico.
En general, el aprendizaje automático ayudó a operacionalizar calculadoras de resultados múltiples y mejoró la usabilidad, pero no ofreció consistentemente grandes saltos de precisión sobre la regresión bien especificada.
Es importante destacar que las aparentes mejoras en la capacidad de discriminación observadas en los modelos moleculares y de aprendizaje automático deben interpretarse a la luz de los hallazgos de PROBAST, ya que el alto riesgo de sesgo en el dominio del análisis sugiere que el sesgo de optimismo probablemente contribuye a su supuesta superioridad.
En consonancia con los hallazgos de PROBAST, la aparente superioridad de algunos modelos moleculares y de aprendizaje automático probablemente se deba al alto riesgo de sesgo en el dominio del análisis, más que a mejoras reales en el rendimiento pronóstico generalizable.
4. Imágenes y fenotipado específico de órganos
Varios estudios demuestran que las imágenes enriquecen la estratificación del riesgo en la DM2 más allá de los factores tradicionales.
Una cohorte de DM2 asintomática seguida durante ~11 años mostró que la angiografía coronaria por TC (CCTA) proporcionó información pronóstica sólida a largo plazo para la muerte cardíaca y el infarto de miocardio.
La «entropía» de perfusión miocárdica SPECT, una métrica de textura/heterogeneidad, tuvo un valor pronóstico independiente en DM2 de alto riesgo, destacando la heterogeneidad microvascular/de perfusión como una señal fisiopatológica.
La enfermedad del hígado graso no alcohólico (EHGNA), evaluada en pacientes con sospecha de enfermedad coronaria, también se asoció de forma independiente con futuros eventos cardiovasculares, lo que sugiere que el fenotipo hepático es un marcador de enriquecimiento accesible.
Trabajos de desarrollo previos que combinaron las cohortes MESA y HNR demostraron que agregar calcio en las arterias coronarias (CAC) a una herramienta específica para la diabetes en la enfermedad coronaria mejoró significativamente la discriminación y la reclasificación, especialmente en hombres (2AUC~0,73–0,79.
En conjunto, estos resultados sugieren que un enfoque «informado sobre órganos» (fenotipos coronarios y hepáticos) puede refinar significativamente las estimaciones del riesgo de enfermedad coronaria en la diabetes tipo 2.
5. Riesgo molecular: proteómica y puntuaciones poligénicas
Dos grandes estudios proteómicos encontraron que las firmas de proteínas circulantes en T2DM están fuertemente asociadas con la incidencia de enfermedad coronaria, con evidencia de que las señales proteómicas median parte del vínculo diabetes-EC y pueden respaldar la evaluación de riesgo individualizada.
Una línea de evidencia complementaria muestra que una puntuación de riesgo poligénico (PRS por sus siglas en inglés de polygenic risk score) de EC mejora significativamente la discriminación y la reclasificación en T2DM incluso después del ajuste por factores de riesgo y terapias tradicionales (estatinas, antihipertensivos, fármacos hipoglucemiantes).
Las vías de integración siguen siendo una brecha: todavía carecemos de marcos pragmáticos que combinen PRS y señales proteómicas con características clínicas y de imágenes en modelos transportables, y pocos estudios prueban la utilidad clínica a través de curvas de decisión o análisis de impacto.
6. El contexto importa: ¿Para quién es el modelo?
Las ecuaciones de riesgo se comportaron de manera diferente en:
(i) DM2 de diagnóstico reciente vs. DM2 de larga duración;
(ii) cribado asintomático vs. EC sospechada; (iii) cohortes quirúrgicas vs. de atención habitual; y
(iv) entornos asiáticos vs. occidentales.
Por ejemplo, los modelos IDC se construyeron explícitamente para contrastar trayectorias quirúrgicas y no quirúrgicas, mientras que los estudios CCTA se dirigieron a individuos asintomáticos.
Un modelo para «pacientes clínicos promedio» sin imágenes no será la herramienta adecuada para una decisión quirúrgica o para el cribado asintomático; por el contrario, los modelos aumentados con imágenes pueden ser difíciles de transferir a la atención primaria sin acceso a CCTA o CAC.
Estas observaciones refuerzan la necesidad de alinear el modelo con la tarea y de realizar estudios de impacto que demuestren un beneficio neto en el flujo de trabajo previsto.
7. Calibración, actualización y transportabilidad
Desde una perspectiva clínica, la utilidad depende de una estimación precisa del riesgo absoluto, una calibración adecuada y un impacto demostrado en la toma de decisiones, más que de la mera discriminación.
En los estudios incluidos, las métricas de calibración, como la pendiente, la intersección o la calibración global, se informaron de forma inconsistente, lo que impidió la síntesis cuantitativa y limitó la interpretabilidad clínica.
En consecuencia, incluso los modelos con valores de AUC aceptables o altos no pueden considerarse clínicamente útiles sin una calibración adecuada dentro del protocolo de atención previsto.
Aunque varios estudios informaron sobre métricas de análisis de decisiones como NRI (índice de reclasificación neta), IDI o beneficio neto, estas medidas no se sintetizaron cuantitativamente debido a la heterogeneidad en las definiciones, los umbrales y los modelos de referencia, lo que impidió una agrupación significativa.
En todas las validaciones, la descalibración fue frecuente y clínicamente relevante.
Incluso cuando la discriminación era aceptable, las estimaciones de riesgo a menudo requerían recalibración a las tasas de resultados locales y los patrones de tratamiento.
El ejemplo del UKPDS-OM2 en una cohorte de ensayo moderna es instructivo: la evolución de la terapia (por ejemplo, estatinas, adopción de SGLT2i/GLP-1RA), el control de los factores de riesgo y la deriva de la mezcla de casos pueden erosionar la transferibilidad de las herramientas heredadas; la actualización periódica y la recalibración local deberían ser la regla, no la excepción.
Es importante destacar que las evaluaciones de PROBAST deben considerarse evidencia coprimaria junto con la síntesis cuantitativa, ya que el alto riesgo de sesgo en el dominio del análisis, particularmente entre los modelos basados en aprendizaje automático, imágenes y ómicas, probablemente contribuye al optimismo en las estimaciones de rendimiento aparente.
En consecuencia, las métricas de discriminación cuantitativa y la evaluación del riesgo de sesgo basada en PROBAST deben interpretarse conjuntamente, ya que las ventajas aparentes en el rendimiento no son clínicamente significativas cuando la credibilidad metodológica se ve comprometida.
8. ¿Dónde están las mayores brechas?
Primero, la heterogeneidad de los resultados y los predictores aún complica la síntesis: muchos modelos apuntan a MACE compuesto, mientras que relativamente menos informan discriminación específica de EC con incertidumbre completa (IC) y gráficos de calibración.
Segundo, pocos estudios evalúan el beneficio clínico neto o el impacto en la decisión; la mayoría se detiene en el AUC y la validación interna/externa.
Tercero, los marcadores de alta dimensión (imágenes, ómicas, PRS) muestran potencial, pero carecemos de comparaciones directas que prueben el valor incremental sobre bases clínicas robustas, y tenemos evidencia limitada en regiones y grupos étnicos subrepresentados.
Finalmente, el manejo consistente de datos faltantes, la selección transparente de características y los estudios de impacto prospectivos siguen siendo insuficientes en relación con los estándares de informes actuales.
Más allá de la capacidad discriminatoria, la calibración se reveló como una limitación crítica y sistemáticamente subestimada en los estudios.
Si bien varios modelos demostraron valores de AUC aceptables, la información incompleta sobre las métricas de calibración —como la pendiente, la intersección o la calibración global— impidió la síntesis cuantitativa y limita la interpretabilidad clínica.
Dado que la estimación del riesgo absoluto es fundamental para la toma de decisiones clínicas, la ausencia de informes de calibración estandarizados representa una barrera importante para su implementación en la práctica clínica, independientemente de su capacidad discriminatoria.
Desde una perspectiva metodológica más amplia, estos hallazgos coinciden con trabajos previos de síntesis de evidencia realizados por el grupo de los autores, que demuestran consistentemente que la alta heterogeneidad entre estudios, la información incompleta sobre la calibración y la dependencia de métricas de rendimiento únicas limitan sustancialmente la interpretabilidad clínica y la transferibilidad de los modelos predictivos en diversos entornos.
En diferentes dominios clínicos, las revisiones sistemáticas y metaanálisis previos han resaltado la importancia de integrar la síntesis cuantitativa con una evaluación estructurada del riesgo de sesgo, estándares de informes transparentes e interpretación sensible al contexto para evitar la generalización excesiva de las estimaciones combinadas.
En conjunto, este conjunto de trabajos refuerza que una evaluación metodológica sólida y una interpretación cautelosa son requisitos previos esenciales para traducir los modelos pronósticos en un apoyo significativo para la toma de decisiones clínicas.
Como conclusiones, el aumento de la complejidad algorítmica o molecular no debe interpretarse como evidencia de superioridad clínica en ausencia de una validación externa sólida, una calibración adecuada y un impacto demostrado en la toma de decisiones clínicas.
En esta revisión sistemática de modelos pronósticos para la enfermedad coronaria en personas con diabetes tipo 2, la discriminación promedio fue de moderada a buena, pero el desempeño varió ampliamente entre estudios y contextos.
Las herramientas de regresión clásicas, a menudo las más validadas, mostraron una discriminación modesta y una calibración errónea frecuente en cohortes contemporáneas, lo que subraya la necesidad de una actualización local.
Los enfoques más recientes que incorporan aprendizaje automático, imágenes, proteómica o puntuaciones poligénicas pueden aumentar las estimaciones puntuales de discriminación, pero estas mejoras se ven atenuadas por una alta heterogeneidad entre estudios, sesgo del dominio de análisis (validación solo interna, eventos limitados por predictor, optimismo) y limitaciones prácticas que restringen la transferibilidad.
Por lo tanto, las métricas de discriminación combinadas no deben interpretarse como un respaldo a la adopción clínica directa de ninguna clase de modelo sin una validación local previa, una recalibración y una demostración del beneficio del análisis de decisiones.
Desde el punto de vista metodológico, PROBAST destacó el dominio del análisis como el principal punto débil.
Muchos estudios de desarrollo no proporcionaron validación externa independiente, un manejo sólido de los datos faltantes, reducción/penalización ni una evaluación exhaustiva de la calibración.
Por el contrario, las validaciones externas a gran escala en muestras poblacionales fueron más sólidas, pero revelaron sistemáticamente una desviación en la calibración de las puntuaciones heredadas, lo que subraya la necesidad de una recalibración periódica como práctica habitual.
Para uso clínico, se justifica una estrategia gradual: comenzar con un modelo clínico sólido y recalibrado localmente; añadir potenciadores de mayor rendimiento (p. ej., CAC/CCTA, fenotipo hepático) en contextos apropiados; y considerar predictores moleculares (proteómica, PRS) solo cuando las plataformas, las consideraciones de ascendencia y la integración del flujo de trabajo lo permitan.
La implementación debe estar supeditada a la validación local y a la demostración de un beneficio en el análisis de decisiones.
Las investigaciones futuras deberían priorizar
(i) criterios de valoración estandarizados para la cardiopatía isquémica, con informes completos sobre discriminación y calibración (incluyendo pendiente y calibración global),
(ii) validaciones externas independientes y preregistradas con estrategias de actualización explícitas,
(iii) análisis de curvas de decisión e impacto para demostrar la utilidad clínica, y
(iv) modelos multimodales transparentes y actualizables, evaluados en diversas regiones y poblaciones.
Hasta que dicha evidencia sea habitual, la adopción de modelos en la diabetes tipo 2 debe proceder con una validación local cuidadosa, recalibración y un reconocimiento claro de las limitaciones específicas de cada contexto.
Palabras clave: enfermedad coronaria; metaanálisis; modelo de predicción; revisión sistemática; diabetes mellitus tipo 2
* Cortez-Sandoval M, Eras Lévano CJ, Álvarez JF, López-Leal J, Morán Valenzuela L, Sandoval-Ato RH, Keita H, Gomez-Lujan M, Quevedo Candela FM, Prado JIP, Muñoz-Carrillo JL, Rivera-Lozada O, Barboza JJ. Prognostic Models for Predicting Coronary Heart Disease Risk in Patients with Type 2 Diabetes Mellitus: A Systematic Review and Meta-Analysis. Diagnostics (Basel). 2026 Mar 4;16(5):765. doi: 10.3390/diagnostics16050765. PMID: 41828041; PMCID: PMC12984699.