Investigadores que se desempeñan en instituciones de los Países Bajos, China y Noruega, realizaron una revisión sistemática de la bibliografía previamente publicada, con el propósito de ahondar en el diagnóstico de pacientes portadores de enfermedad coronaria mediante procesamiento de señales y aprendizaje automático de señales de sonidos cardíacos y publicaron sus observaciones y conclusiones en la edición del 16 de marzo de 2026 de Nature Portfolio Journal for the Digital Medicine (NPJ Dígit Meg)*
NPJ Digital Medicine es una revista internacional de acceso abierto y revisada por pares, con sede en Londres, dedicada a publicar investigaciones de la más alta calidad relevantes para todos los aspectos de la medicina y la salud digitales.
Introduciéndose en el tema, los autores señalaron que las enfermedades cardiovasculares causan más de 17 millones de muertes al año, siendo la enfermedad arterial coronaria (EAC) una de las principales causas.
La angiografía coronaria sigue siendo el método diagnóstico de referencia, pero es invasiva, costosa y conlleva riesgos como hemorragia, infección y lesión vascular.
Las técnicas de imagen no invasivas, como la angiografía por tomografía computarizada y la angiografía por resonancia magnética, pueden reducir el riesgo del procedimiento, aunque generalmente requieren más tiempo.
Idealmente, la EAC podría detectarse rápidamente y a pie de cama.
La detección acústica se ha investigado cada vez más como una herramienta no invasiva para identificar la estenosis de las arterias coronarias.
Su fundamento se basa en los cambios fisiopatológicos en las características de los sonidos cardíacos.
El flujo turbulento y de alta velocidad a través de una arteria coronaria estenótica puede generar soplos intracoronarios y vibraciones de alta frecuencia durante la diástole, observables en los registros fonocardiográficos.
Además, la estenosis puede reducir la perfusión coronaria y el suministro de oxígeno al miocardio, lo que puede debilitar la contractilidad ventricular y retrasar el cierre valvular.
Estos cambios hemodinámicos pueden reducir posteriormente la amplitud del primer y segundo ruido cardíaco (S1 y S2) y aumentar la prominencia del tercer y cuarto ruido cardíaco (S3 y S4).
Varios estudios han informado que ciertas características acústicas derivadas mediante métodos de procesamiento de señales, como la energía diastólica de alta frecuencia (vibraciones o sonidos de tono agudo que ocurren durante la diástole), pueden predecir la enfermedad arterial coronaria (EAC), mientras que otros han reportado hallazgos menos concluyentes.
Estas inconsistencias pueden estar relacionadas con la limitada generalización de los enfoques convencionales de procesamiento de señales en diferentes poblaciones de pacientes.
Trabajos más recientes han aplicado métodos de aprendizaje automático (AA), incluido el aprendizaje profundo, que pueden aprender e integrar automáticamente representaciones acústicas multidimensionales.
Estos estudios generalmente han reportado una mayor precisión diagnóstica que el análisis de señales basado en la fisiología.
Sin embargo, las diferencias en las características de los pacientes, las condiciones de grabación, el hardware de los sensores, los flujos de análisis y las estrategias de validación contribuyen a la variabilidad entre los estudios.
Por lo tanto, se requiere una revisión sistemática para proporcionar una evaluación integral y comparativa de los enfoques de procesamiento de señales y aprendizaje automático para el diagnóstico acústico de la enfermedad arterial coronaria (EAC).
Esta revisión tiene como objetivo resumir los métodos actuales de procesamiento de señales y aprendizaje automático para el diagnóstico de la EAC basado en sonidos cardíacos, evaluar el rendimiento diagnóstico de estos enfoques e identificar prioridades para la recopilación de datos, el análisis de señales y la traslación clínica en el futuro.
En resumen, la enfermedad arterial coronaria (EAC) sigue siendo una de las principales causas de morbilidad y mortalidad a nivel mundial.
El análisis de los sonidos cardíacos se ha investigado como un método no invasivo para la detección de la EAC, aunque la evidencia existente ha sido inconsistente.
Esta revisión sistemática evaluó el rendimiento diagnóstico del análisis de los sonidos cardíacos para identificar la EAC (estenosis >50%).
Una búsqueda en cuatro bases de datos identificó 1082 registros, de los cuales 40 estudios con 13 814 participantes cumplieron los criterios de inclusión.
Entre los 21 estudios que utilizaron métodos de procesamiento de señales, todos los estudios más grandes (>50 participantes, n=15), excepto uno, reportaron una precisión diagnóstica inferior al 75%.
La mayoría de los estudios de procesamiento de señales carecían de validación en conjuntos de datos independientes, lo que limita la confianza en la fiabilidad de su rendimiento reportado.
En contraste, 15 de los 19 estudios que aplicaron métodos basados en aprendizaje automático reportaron una precisión, sensibilidad y especificidad consistentemente superiores al 80%.
Además, 15 de estos 19 estudios realizaron una validación independiente de los conjuntos de datos, lo que indica una generalización comparativamente mayor.
Los estudios que utilizaron la señal completa del sonido cardíaco como entrada del modelo también tendieron a lograr una mayor sensibilidad que aquellos que utilizaron solo el componente diastólico, lo que sugiere que el uso de la forma de onda completa preserva características con valor diagnóstico.
Estos hallazgos indican que el análisis de sonidos cardíacos basado en aprendizaje automático puede tener valor diagnóstico para la enfermedad arterial coronaria, y se necesitan estudios multicéntricos más amplios para evaluar mejor su aplicabilidad clínica y robustez.
Al proponer la discusión de los conceptos precedentes se destaca que esta revisión sistemática indica que, según la evidencia disponible, los estudios que utilizan enfoques de aprendizaje automático (ML, machine learning) generalmente han reportado un rendimiento diagnóstico superior al de los enfoques convencionales de procesamiento de señales para el diagnóstico de la enfermedad arterial coronaria (EAC) basado en sonidos cardíacos.
Sin embargo, este patrón observado entre estudios debe considerarse una síntesis descriptiva e interpretarse con precaución debido a la heterogeneidad de los conjuntos de datos y las metodologías empleadas.
Con el tiempo, la investigación en este campo ha evolucionado desde estudios a pequeña escala que utilizaban características acústicas diseñadas manualmente y clasificadores estándar, hasta estudios de mayor envergadura que incorporan entradas multidominio y modelos híbridos de aprendizaje profundo.
Estos modelos más recientes tienden a obtener mejores resultados al utilizar información acústica del ciclo cardíaco completo, en lugar de restringir el análisis a la fase diastólica.
Esto sugiere que las características con valor diagnóstico pueden estar distribuidas a lo largo de la señal de sonido cardíaco, en lugar de limitarse a la diástole.
La relevancia clínica potencial de estos hallazgos radica en la posibilidad de que el análisis de sonidos cardíacos, como método no invasivo y de costo relativamente bajo, complemente las vías diagnósticas existentes para la EAC.
Entre las posibles aplicaciones se incluyen la clasificación temprana de pacientes con dolor torácico en el primer contacto médico en entornos hospitalarios y la monitorización remota si se integra en dispositivos portátiles o aplicaciones para teléfonos inteligentes.
Sin embargo, la traslación de estos métodos a la práctica clínica habitual requerirá más evidencia sobre la robustez del modelo, la reproducibilidad en diversas poblaciones y su integración en los flujos de trabajo clínicos.
Esta revisión amplía trabajos previos al examinar conjuntamente los enfoques de aprendizaje automático y procesamiento de señales y al resumir cómo los factores metodológicos, incluidas las estrategias de extracción de características, el tamaño del conjunto de datos, los protocolos de adquisición acústica y los procedimientos de partición de datos, pueden contribuir a la variabilidad en el rendimiento diagnóstico reportado.
La aparente ventaja de rendimiento del aprendizaje automático sobre los enfoques de procesamiento de señales probablemente se relaciona con su capacidad de aprendizaje integral, representación automática de características, integración multidimensional de características y reconocimiento de patrones acústicos complejos.
Estas capacidades se pueden observar en los estudios de Ainiwaer et al., Dai et al. y Huang et al..
Ainiwaer et al. utilizaron señales de sonido cardíaco en el dominio del tiempo como entrada para el aprendizaje integral.
Dai et al. incorporaron características adicionales de dominio de frecuencia y entropía utilizando el mismo conjunto de datos.
Huang et al. ampliaron aún más esta línea de desarrollo al introducir representaciones de espectrogramas para capturar variaciones temporales en el contenido de frecuencia.
La precisión diagnóstica reportada mejoró del 83 % en Ainiwaer et al. al 88 % en Dai et al. y al 96 % en Huang et al., acompañada de un cambio de modelos unidimensionales con diferentes conjuntos de características de entrada a una arquitectura bidimensional basada en espectrogramas.
Esta transición parece permitir una representación de características más rica, lo que puede haber contribuido a las mejoras de rendimiento observadas.
Una revisión sistemática reciente sobre aprendizaje profundo para el análisis de sonidos cardíacos también señala que los modelos basados en redes neuronales convolucionales y recurrentes son predominantes.
Sin embargo, dicha revisión enfatiza que la heterogeneidad en los protocolos de evaluación y los conjuntos de datos dificulta la comparación directa entre estudios.
Muchas de las altas precisiones reportadas en la literatura se basan en cohortes de validación con menos de 50 pacientes, lo que genera inquietudes sobre el sobreajuste y limita las conclusiones sobre la generalización.
Por lo tanto, los hallazgos generales que indican que el aprendizaje automático suele superar al procesamiento de señales convencional en el diagnóstico de la enfermedad arterial coronaria deben interpretarse con cautela, especialmente dada la variabilidad entre las poblaciones de estudio, los flujos de preprocesamiento y las configuraciones del modelo.
Los estudios que impusieron la separación a nivel de paciente entre los conjuntos de datos de entrenamiento y prueba generalmente reportaron una menor precisión, lo que refleja un rendimiento reducido en pacientes no vistos previamente.
Abordar este problema sigue siendo importante para futuras investigaciones.
Además, la complejidad intrínseca de los modelos de aprendizaje automático y la limitada interpretabilidad de sus procesos de decisión pueden reducir la confianza clínica y restringir su implementación práctica.
Es probable que se requieran esfuerzos para mejorar la transparencia del modelo y proporcionar explicaciones clínicamente relevantes para respaldar su adopción en el mundo real.
Más allá de la elección del modelo de aprendizaje automático (ML), la selección temporal de la señal del sonido cardíaco para el análisis también influye en el rendimiento de la clasificación de la enfermedad arterial coronaria (EAC).
Generalmente, utilizar el ciclo cardíaco completo como entrada resulta en una mayor precisión que utilizar solo el segmento diastólico.
Esta observación sugiere que los modelos de ML pueden utilizar patrones acústicos distribuidos a lo largo de toda la señal, en lugar de depender únicamente de los soplos relacionados con el flujo coronario que se espera que ocurran durante la diástole.
Además, se sabe que la EAC afecta la contractilidad miocárdica y la hemodinámica, lo que puede alterar la intensidad, la frecuencia y la duración de S1 y S2.
Por lo tanto, es posible que los modelos de ML capturen estos cambios adicionales de la señal cuando se entrenan con registros de ciclo completo.
Los hallazgos de varios estudios respaldan esta interpretación.
Por ejemplo, los modelos que incorporaron características adicionales relacionadas con el ritmo, como la duración del ciclo cardíaco y la duración diastólica, lograron precisiones de clasificación superiores al 88 %, 90 % y 91 %.
Estos resultados indican que las características fuera del intervalo diastólico pueden contribuir significativamente a la discriminación de la EAC.
En este contexto, el aprendizaje automático puede servir no solo como herramienta de clasificación, sino también como medio para generar hipótesis sobre la base fisiológica de los marcadores acústicos relevantes para la enfermedad arterial coronaria (EAC).
En conjunto, estas observaciones sugieren que una mayor investigación mecanicista podría beneficiarse del análisis de componentes del sonido cardíaco más allá de los soplos coronarios diastólicos.
A pesar de sus ventajas en interpretabilidad y generalización, los enfoques de procesamiento de señales generalmente han mostrado un rendimiento diagnóstico modesto para la EAC.
Esto puede estar relacionado con su dependencia de características restringidas predefinidas, basadas en la fisiología del flujo sanguíneo coronario, y su capacidad potencialmente limitada para capturar e integrar patrones no lineales presentes en las señales del sonido cardíaco.
Fisiológicamente, una arteria coronaria estenótica puede generar perturbaciones del flujo que se propagan a la pared torácica y se manifiestan como soplos durante la diástole temprana.
Sin embargo, el pequeño diámetro de las arterias coronarias epicárdicas (hasta 4 mm), los bajos flujos coronarios (de 1 a 1,5 ml/s), la distensibilidad de las paredes arteriales y los efectos de amortiguación de las estructuras pulmonares y torácicas pueden reducir la amplitud del soplo por debajo del umbral de ruido audible.
Como resultado, la detección de soplos coronarios puede ser un desafío en la práctica, y los métodos convencionales de procesamiento de señales pueden tener dificultades para aislar características significativas.
Por ejemplo, Schmidt et al. no encontraron diferencias significativas en los componentes de frecuencia diastólica superiores a 100 Hz entre sujetos con y sin enfermedad coronaria, lo que sugiere que los soplos de alta frecuencia podrían no proporcionar una discriminación fiable en entornos reales.
En trabajos posteriores, el mismo grupo centró su atención en la energía diastólica de baja frecuencia, aunque la precisión de clasificación reportada se mantuvo por debajo del 60%.
Además, los enfoques espectrales convencionales pueden tener limitaciones para capturar las características temporales no lineales de los sonidos cardíacos.
Griffel et al. demostraron dichos patrones no lineales al identificar el retardo en el que la función de información mutua automática decaía a 1/e de su valor inicial en los segmentos diastólicos.
El uso de la separación de datos a nivel de paciente también afecta los resultados de rendimiento.
Cuando la separación se implementa correctamente, la precisión reportada suele disminuir, llegando en algunos casos a caer por debajo del 50%, lo que refleja una menor fuga de datos y una mayor exposición a la variabilidad entre centros, dispositivos y entornos de grabación.
Estos resultados sugieren que las señales de sonido cardíaco pueden ser demasiado complejas para ser representadas de manera confiable utilizando solo un pequeño número de características diseñadas manualmente.
Si bien los factores metodológicos explican la mayor parte de la variabilidad observada, la calidad generalmente consistente de los micrófonos y las configuraciones de grabación en los distintos estudios dificultan la evaluación del impacto específico del hardware en el rendimiento.
No obstante, el procesamiento de señales sigue siendo un área activa de investigación debido a ventajas como la alta interpretabilidad, los bajos requisitos computacionales y el ajuste mínimo de parámetros, que son valiosos para la integración clínica y la toma de decisiones transparente.
Las futuras investigaciones sobre el diagnóstico de la enfermedad arterial coronaria (EAC) basado en sonidos cardíacos podrían beneficiarse de varias consideraciones.
Para mejorar la aplicabilidad clínica, será importante optimizar la interpretabilidad del modelo.
Las técnicas de aprendizaje automático explicables, como la visualización basada en la atención, pueden ayudar a clarificar la base de las decisiones del modelo y, por lo tanto, fomentar la confianza del clínico.
Por ejemplo, Khurshid et al. han demostrado que EchoNext funciona bien en la detección de cardiopatías estructurales, y estrategias de interpretabilidad similares podrían transferirse a la clasificación de la EAC mediante sonidos cardíacos.
La revisión sistemática actual también indica que los modelos de aprendizaje automático ligeros, como las máquinas de vectores de soporte (SVM), pueden alcanzar un rendimiento diagnóstico comparable al de modelos híbridos de aprendizaje profundo más complejos, incluido el aprendizaje de múltiples núcleos.
Por lo tanto, la selección del modelo debería equilibrar el tamaño del conjunto de datos, la complejidad algorítmica y la interpretabilidad.
Para conjuntos de datos más pequeños (p. ej., n<200), las SVM pueden ser más apropiadas porque requieren menos muestras y facilitan una interpretación más clara del modelo.
En cambio, para conjuntos de datos más grandes (n>200), los modelos de aprendizaje profundo pueden ofrecer ventajas en precisión y eficiencia al aprender automáticamente las representaciones de características.
Entre los enfoques de aprendizaje profundo, las redes neuronales recurrentes convolucionales pueden ser particularmente adecuadas para el análisis de sonidos cardíacos porque pueden capturar tanto patrones espectrales como dinámicas temporales, y pueden integrar representaciones multidimensionales usando entradas tiempo-frecuencia o características derivadas del procesamiento de señales.
Para la selección de características, además de las características convencionales del dominio de la frecuencia, estudios futuros podrían examinar características tiempo-frecuencia y dinámicas no lineales que reflejen cambios funcionales cardíacos, como variaciones de frecuencia diastólica o patrones irregulares del ciclo cardíaco.
Desde una perspectiva clínica, la identificación temprana de la enfermedad coronaria a menudo prioriza la sensibilidad, y muchos sistemas ML actuales reflejan esta necesidad.
Sin embargo, mejorar la especificidad sin sacrificar la sensibilidad será esencial para la aplicación en el mundo real.
La mayoría de los estudios incluidos fueron de un solo centro, por lo que es necesaria la validación externa en múltiples centros y poblaciones de pacientes diversas para establecer la generalización.
Además, se necesita una documentación consistente de los entornos de grabación y las características del micrófono para aclarar cómo las condiciones de adquisición influyen en el rendimiento y para respaldar la reproducibilidad.
Además, será importante excluir a los pacientes con afecciones secundarias que puedan generar confusión, como la insuficiencia mitral, mediante ecocardiografía antes de la medición de los sonidos cardíacos.
Finalmente, la implementación futura podría incluir la integración de modelos de aprendizaje automático en aplicaciones para teléfonos inteligentes, como FonoCheck, lo que permitiría realizar cribados poblacionales a gran escala en el hogar utilizando dispositivos ampliamente accesibles.
Para lograr este objetivo, se requerirá una evaluación sistemática en entornos clínicos y comunitarios que garantice la viabilidad, la fiabilidad y el acceso equitativo.
Esta revisión presenta varias limitaciones.
En primer lugar, si bien se analizaron 40 estudios con 13 814 participantes, muchos de ellos se basaron en conjuntos de datos pequeños de un solo centro, lo que aumenta el riesgo de sesgo de selección y puede limitar la representatividad de los hallazgos para poblaciones clínicas más amplias.
En segundo lugar, la revisión se centró exclusivamente en enfoques unimodales basados en sonidos cardíacos para garantizar la comparabilidad metodológica entre los estudios.
Esta elección excluyó necesariamente las estrategias multimodales que integran los sonidos cardíacos con datos de electrocardiograma o imágenes, los cuales pueden proporcionar información diagnóstica adicional.
En tercer lugar, solo se incluyeron publicaciones en inglés, lo que puede haber dado lugar a la omisión de trabajos relevantes y podría subrepresentar la investigación realizada en regiones con una alta prevalencia de enfermedad coronaria.
En las últimas cuatro décadas, el análisis de los sonidos cardíacos para el diagnóstico no invasivo de la enfermedad arterial coronaria (EAC) ha evolucionado desde la extracción básica de características en el dominio del tiempo hacia enfoques híbridos de aprendizaje automático (AA) más avanzados.
Si bien los diseños de estudio, los conjuntos de datos y los flujos de trabajo analíticos han variado, los métodos basados en AA generalmente han demostrado un rendimiento diagnóstico más favorable que las técnicas convencionales de procesamiento de señales.
Cabe destacar que los estudios sin una separación explícita a nivel de paciente pueden reportar un rendimiento ligeramente sobreestimado debido a la posible fuga de datos.
No obstante, se requiere más investigación para mejorar la interpretabilidad, evaluar el rendimiento del modelo en entornos clínicos más amplios y abordar las consideraciones prácticas para su implementación a gran escala.
El progreso en estas áreas será importante para respaldar la eventual integración de la evaluación de la EAC basada en los sonidos cardíacos en los flujos de trabajo clínicos de rutina.
Palabras clave: Enfermedad arterial coronaria; Sonidos cardíacos; Diagnóstico; Aprendizaje automático; Procesamiento de señales
* Ainiwaer A, Konings TJAJ, Kadier K, Ma X, Akpulat ME, Prinzen FW, Delhaas T, Luo H. Coronary artery disease diagnosis with signal processing and machine learning of heart sound signals: a systematic review. NPJ Digit Med. 2026 Mar 16. doi: 10.1038/s41746-026-02530-8. Epub ahead of print. PMID: 41840115.