banner
Centre d'Information
Apparence élégante

Un transformateur de vision fondamental améliore les performances de diagnostic des électrocardiogrammes

Mar 09, 2023

npj Digital Medicine volume 6, Numéro d’article: 108 (2023) Citer cet article

Détails des métriques

L’électrocardiogramme (ECG) est une modalité diagnostique omniprésente. Les réseaux de neurones convolutifs (CNN) appliqués à l’analyse ECG nécessitent des échantillons de grande taille, et les approches d’apprentissage par transfert pour les problèmes biomédicaux peuvent entraîner des performances sous-optimales lorsque le pré-entraînement est effectué sur des images naturelles. Nous avons utilisé la modélisation d’images masquées pour créer un modèle de transformateur basé sur la vision, HeartBEiT, pour l’analyse de la forme d’onde de l’électrocardiogramme. Nous avons pré-entraîné ce modèle sur 8,5 millions d’ECG, puis comparé les performances aux architectures CNN standard pour le diagnostic de la cardiomyopathie hypertrophique, de la fraction d’éjection ventriculaire gauche basse et de l’infarctus du myocarde avec élévation du segment ST en utilisant différentes tailles d’échantillons d’entraînement et des ensembles de données de validation indépendants. Nous constatons que HeartBEiT a des performances significativement supérieures à des tailles d’échantillon inférieures par rapport aux autres modèles. Nous constatons également que HeartBEiT améliore l’explicabilité du diagnostic en mettant en évidence les régions biologiquement pertinentes de l’ECG par rapport aux CNN standard. Les modèles de transformateurs pré-entraînés spécifiques à un domaine peuvent dépasser les performances de classification des modèles formés sur des images naturelles, en particulier dans des régimes à très faible niveau de données. La combinaison de l’architecture et d’une telle pré-formation permet une explicabilité plus précise et granulaire des prédictions du modèle.

L’électrocardiogramme (ECG) est un enregistrement au niveau de la surface du corps de l’activité électrique dans le cœur. En raison de son faible coût, de son caractère non invasif et de sa large applicabilité aux maladies cardiaques, l’ECG est une investigation omniprésente et plus de 100 millions d’ECG sont effectués chaque année aux États-Unis seulement1 dans divers établissements de soins de santé. Cependant, la portée de l’ECG est limitée car les médecins ne peuvent pas identifier systématiquement les modèles représentatifs de la maladie – en particulier pour les conditions qui n’ont pas de critères diagnostiques établis, ou dans les cas où ces modèles peuvent être trop subtils ou chaotiques pour l’interprétation humaine.

L’apprentissage profond a été appliqué aux données ECG pour plusieurs cas d’utilisation diagnostiques et pronostiques2,3,4,5,6. La grande majorité de ces travaux ont été construits sur les réseaux de neurones convolutifs (CNN)7. Comme d’autres réseaux neuronaux, les CNN sont des constructions à grande variance8 et nécessitent de grandes quantités de données pour éviter le surajustement9. Les CNN doivent également être spécialement conçus pour s’adapter à la dimensionnalité des données entrantes, et ils ont été utilisés pour interpréter les ECG à la fois comme des formes d’onde 1D et des images 2D10.

Dans ce contexte, l’interprétation des ECG comme des images 2D présente un avantage en raison de la disponibilité généralisée de modèles préentraînés qui servent souvent de points de départ pour des tâches de modélisation sur des ensembles de données plus petits11. Cette technique est décrite comme un apprentissage par transfert dans lequel un modèle formé sur un ensemble de données plus grand, peut-être sans rapport, est affiné sur un ensemble de données plus petit qui est pertinent pour un problème12. L’apprentissage par transfert est particulièrement utile dans les soins de santé, car les ensembles de données sont de taille limitée en raison des cohortes de patients limitées, de la rareté des résultats d’intérêt et des coûts associés à la génération d’étiquettes utiles. Par conséquent, les modèles de vision d’abord formés de manière supervisée sur des images naturelles13 constituent souvent la base des modèles utilisés dans les milieux de soins de santé. Malheureusement, l’apprentissage par transfert avec de telles images naturelles n’est pas une solution universelle, et il est connu pour produire des résultats sous-optimaux lorsqu’il existe des différences substantielles dans les ensembles de données de pré-formation et de réglage fin14.

Les réseaux neuronaux à base de transformateurs utilisent le mécanisme d’attention15 pour établir et définir des relations entre des unités discrètes de données d’entrée appelées jetons16. Un avantage important que permettent les transformateurs est l’apprentissage non supervisé à partir de grands corpus de données non étiquetées pour apprendre les relations entre les jetons, puis utiliser ces informations pour d’autres tâches en aval16. En raison de la facilité avec laquelle le texte non structuré peut être décomposé en jetons, les transformateurs ont connu un énorme succès dans les tâches de traitement du langage naturel (NLP)17,18. Des travaux récents ont étendu la fonctionnalité de ces modèles aux tâches basées sur la vision, ce qui a conduit à l’avènement du transformateur de vision16,19.

Les premiers transformateurs de vision ont été pré-entraînés sur d’immenses ensembles de données étiquetés, puis affinés sur des ensembles de données plus petits pour indiquer de meilleures performances par rapport aux CNN lors de la classification des images naturelles20. Plus récemment, l’approche BEiT (Bidirectional Encoder representation from Image Transformers) a permis d’exploiter de grands ensembles de données non étiquetés pour les réseaux neuronaux de transformateurs de pré-formation21. Cette approche consiste à convertir des parties d’une image d’entrée en jetons discrets ou en patchs. De tels jetons peuvent être considérés comme analogues aux mots d’une phrase et être utilisés pour pré-entraîner un transformateur de la même manière qu’un modèle de langage (Fig. 1). Étant donné que les transformateurs tiennent compte des dépendances globales22 entre toutes les caractéristiques des entrées fournies, une telle formation préalable peut être particulièrement avantageuse pour les ECG. Certains schémas pathologiques tels que le S1Q3T3 se produisent dans différentes parties d’un enregistrement23, et un modèle qui ne considère que les régions contiguës peut les manquer complètement.

Pré-entraînement du modèle HeartBEiT. (1) Chaque ECG original est partitionné en 14 × 14 patchs (2) de 16 × 16 pixels. Ces patchs sont tokenisés, et certains d’entre eux sont masqués (3). Le modèle Dall-E (4) agit comme le tokenizer et convertit l’image en jetons discrets (5) qui font ensuite partie du processus de modélisation d’image masquée (6). Cela permet de pré-entraîner les modules d’attention du modèle HeartBEiT (7), et le modèle peut ensuite être utilisé pour le réglage fin en aval et l’inférence (8, 9) lors de l’ajout d’une tête de classification Perceptron multicouche (10).

Nous créons un modèle de transformateur de vision pré-entraîné sur un large corpus de plusieurs millions d’ECG appartenant à une population diversifiée. Nous utilisons ce modèle pour créer des modèles spécialisés pour les cas d’utilisation où peu de données peuvent être disponibles. Nous comparons ensuite les cartes de performance et de saillance aux modèles de référence soumis à des contraintes similaires.

Nous avons inclus 511 491 ECG au total de MSHS dans l’ensemble de formation ou de réglage fin, 20 448 échantillons de MSHS dans les tests et 1 480 de Morningside dans la validation externe. La faible prévalence de la FEVG était de 18 % dans l’ensemble d’entraînement (tableau 1).

HeartBEiT a surpassé les autres modèles CNN à une faible classification FEVG pour toutes les fractions des données d’entraînement (Fig. 2; Tableau supplémentaire 1). À 1 % des données d’entraînement (5114 échantillons), les performances (AUROC : 0,86, IC à 95 % : 0,86-0,86) étaient 28,4 % supérieures à celles du modèle ViT-B/16 (AUROC : 0,67, IC à 95 % 0,67-0,67), 5,2 % supérieures à EfficientNet-B4 (AUROC : 0,82, IC à 95 % : 0,82-0,82) et 2,4 % supérieures à ResNet-152 (AUROC : 0,84, IC à 95 % : 0,84-0,84) dans les tests internes (Fig. 2 supplémentaire). Ces tendances se sont maintenues tout au long de la validation externe, HeartBEiT (AUROC : 0,87, IC à 95 % : 0,87-0,87) surpassant les CNN de 4 à 18 % (Fig. 3 supplémentaire).

a Performances des tests internes (4 installations du Mont Sinaï). b Différence de performance des tests internes. c Performance de validation externe (patients Morningside). d Différence de performance de validation externe. La ligne pointillée rouge en (b) et (d) indique les performances de HeartBEiT.

En utilisant l’AUPRC comme mesure, à 1 % des données d’entraînement et contre une prévalence de 18,5 % dans la cohorte de tests internes, le modèle HeartBEiT (AUPRC : 0,59, IC à 95 % : 0,59-0,59) a surpassé ViT-B/16 (AUPRC : 0,31, IC à 95 % 0,31-0,31) de 90,3 %, EfficientNet-B4 (AUPRC : 0,48, IC à 95 % : 0,48-0,48) de 22,9 % et le ResNet-152 (AUPRC : 0,52, IC à 95 % : 0,52–0,52) de 13,5 % (tableau supplémentaire 2, figures supplémentaires 4–6). Dans la cohorte de validation externe, HeartBEiT avait l’ASPRC la plus élevée de 0,73 (IC à 95 % : 0,73-0,73).

Avec 100 % des données d’entraînement (511 491 échantillons), les performances de tous les modèles sont devenues plus proches. Dans les tests internes, il n’y avait pas de différence de performance entre HeartBEiT, EfficientNet-B4 et ResNet-152, et un différentiel de 1,1 à 4,5% a été observé dans la validation externe pour AUROC. Cependant, pour AUPRC, HeartBEiT avait encore une performance améliorée de 0 à 17,7% dans les ensembles de données internes et externes.

L’analyse GRAD-CAM a démontré que les zones autour des complexes QRS de chaque sonde ont été mises en évidence à 1% des données d’entraînement par HeartBEiT (Fig. 7a supplémentaire). Lorsque 100% des données d’entraînement ont été mises en œuvre, les foyers sont devenus plus prononcés autour des complexes QRS du plomb I (Fig. supplémentaire 7b).

Nous avons affiné le transformateur HeartBEiT à l’aide de 78 831 ECG provenant de quatre hôpitaux du MSHS. Des tests ont été effectués sur 20 448 ECG de ces hôpitaux, et 3 859 ECG d’un groupe de patients récalcitrants de Morningside ont été utilisés pour une validation externe (tableau 1). La prévalence de la CMH dans l’ensemble d’entraînement était de 38%.

HeartBEiT a surpassé les autres modèles au diagnostic de la CMH à toutes les fractions des données d’entraînement (Fig. 3; Tableau supplémentaire 1). À 1 % des données d’entraînement, la performance du modèle HeartBEiT à AUROC de 0,77 (IC à 95 % : 0,77-0,77) dépassait celle de ViT-B/16 de 26,2 % et celle d’EfficientNet-B4 et ResNet-152 de 6,9 % dans les tests internes (Fig. 2 supplémentaire). Des résultats similaires ont été observés pour la validation externe avec le modèle HeartBEiT qui avait un AUROC de 0,74 (IC à 95 % : 0,74-0,74), surpassant ViT-B/16 (0,61, IC à 95 % 0,61-0,61) de 21,3%, EfficientNet-B4 (0,69, IC à 95 % : 0,68-0,70) de 7,2% et ResNet-152 (0,68, IC à 95%: 0,68-0,69) de 8,8% (Fig. 3 supplémentaire).

a Performances des tests internes (4 installations du Mont Sinaï). b Différence de performance des tests internes. c Performance de validation externe (patients Morningside). d Différence de performance de validation externe. La ligne pointillée rouge en (b) et (d) indique les performances de HeartBEiT.

Les différences de rendement étaient beaucoup plus marquées pour l’AUPRC à 1 % des données de formation utilisées (tableau supplémentaire 2; Fig. supplémentaire 8). En utilisant 1 % des données d’entraînement, contre une prévalence des résultats de 38,8 % dans la cohorte de tests internes, le modèle HeartBEiT (AUPRC : 0,67, 95 %, IC : 0,67-0,67) a dépassé les performances de ViT-B/16 (AUPRC : 0,49, IC à 95 % 0,49-0,49) de 36,7 %, EfficientNet-B4 (AUPRC : 0,63, IC à 95 % : 0,63-0,63) de 6,3 % et le ResNet-152 (AUPRC : 0,64, IC à 95 % : 0,64-0,64) de 4,7 % (Fig. 5 supplémentaire). Dans la validation externe, HeartBEiT a continué d’afficher les meilleures performances avec une AUPRC de 0,64 (IC à 95 % : 0,64-0,64) (Fig. 6 supplémentaire).

L’avantage de performance de HeartBEiT a diminué progressivement à mesure que la quantité de données d’entraînement augmentait. Par rapport à 100 % des données d’entraînement, l’écart de performance était de 2,5 % pour les tests internes et de 3,9 % pour la validation externe pour AUROC et de 4,2 % et 7,1 % pour les tests internes et la validation externe, respectivement, pour l’AUPRC.

L’analyse GRAD-CAM a révélé qu’à 1% des données, les complexes QRS de plomb I, V2 et V5 et le segment ST de V6 étaient considérés comme des régions importantes pour la prédiction de la CMH par HeartBEiT (Fig. 9a supplémentaire). En revanche, à 100% des données d’entraînement, les domaines clés identifiés par HeartBEiT sont devenus plus ciblés au début de la V5 (Fig. 9b supplémentaire).

L’ensemble de données PTB-XL contient 21 799 ECG au total de 18 869 patients : 17 449 ECG ont été utilisés pour le réglage fin et 4352 pour tester le modèle. La prévalence des STEMI était d’environ 5,7 % dans l’ensemble d’entraînement et de 5,4 % dans l’ensemble de test (tableau 1).

L’avantage de performance AUROC de HeartBEiT a été constaté comme étant plus important pour de plus petites fractions des données d’entraînement utilisées pour l’entraînement (Fig. 4; Tableau supplémentaire 1). Dans les tests internes, l’AUROC de HeartBEiT était de 0,88 (IC à 95 % : 0,88-0,89) avec une amélioration des performances de 4,8 à 10% par rapport aux autres modèles à 1% des données d’entraînement (Fig. 2 supplémentaire). Cet avantage est passé à environ 20,3 %, 1,1 % et 2,2 % par rapport à ViT-B/16, EfficientNet-B4 et ResNet-152, respectivement, lorsque toutes les données d’apprentissage disponibles (17 449 échantillons) ont été utilisées.

a Résultats des tests internes. b Différence de performance des tests internes. La ligne rouge pointillée en (b) indique les performances de HeartBEiT.

Cet avantage de performance est devenu beaucoup plus profond pour l’AUPRC, avec HeartBEiT (AUPRC : 0,56, IC à 95 % 0,56-0,66) surpassant ViT-B/16 (0,27, IC à 95 % 0,26-37) de 107,4%, ResNet-152 (0,47, IC à 95% 0,46-0,47) de 19,1% et l’EfficientNet-B4 (0,40, IC à 95% 0,40-0,41) de 40,0% à une fraction de 1% des données d’entraînement (Tableau supplémentaire 2 ; Fig. supplémentaire 5; Fig. supplémentaire 10). Cependant, à 100 % des données d’entraînement, les performances de HeartBEiT (AUPRC : 0,67, IC à 95 % 0,66-0,67) sont devenues non significativement inférieures à celles d’EfficientNet-B4 (AUPRC : 0,68, IC à 95 % : 0,67-0,68).

Pour la détection STEMI, le transformateur de vision ViT-B/16 présentait une instabilité d’entraînement lors de l’utilisation de plus de 10% des données d’entraînement tout en maintenant constants d’autres hyperparamètres tels que le taux d’apprentissage. Cette instabilité n’a été observée que pour ce résultat, et le rendement déclaré correspond aux meilleurs paramètres obtenus avant que les méthodes de formation ne soient erronées.

Les segments ST de chaque piste ont été soulignés comme des domaines d’importance selon l’analyse GRAD-CAM de HeartBEiT à 1% des données d’entraînement (Fig. 5). À 100% des données d’entraînement, ces zones notées par HeartBEiT se sont localisées autour des segments ST des dérivations V3 et V4 (Fig. 11 supplémentaire).

a ViT-B/16. b EfficientNet-B4. c ResNet-152. d HeartBEiT. HeartBEiT se localise sur les segments ST. D’autres modèles sont plus diffus pour mettre en évidence des caractéristiques importantes et peuvent être moins utiles sur le plan clinique.

La distance moyenne de Wasserstein par paire pour l’ensemble ECG vs ECG était de 2,14. En comparaison, cette valeur était de 45,48 pour l’ensemble ImageNet vs ImageNet et de 128,44 pour l’ensemble ECG vs ImageNet (Fig. 12 supplémentaire).

En utilisant 8,5 millions d’ECG de 2,1 millions de patients collectés sur une période de quatre décennies, nous avons tiré parti de la modélisation d’images masquées pour créer un modèle de transformateur basé sur la vision (HeartBEiT) pour les données ECG qui peut servir de point de départ universel pour la formation en aval sur les résultats d’intérêt. Nous avons affiné ce modèle par rapport à deux résultats à l’aide de données provenant de quatre hôpitaux du système de santé Mount Sinai et de modèles dérivés validés en externe sur les données d’un autre hôpital. Nous avons également affiné ce modèle pour la détection STEMI en utilisant les données de la base de données PTB-XL accessible au public, suivi de tests du modèle dérivé contre un ensemble de patients récalcitrants. Dans chaque cas, notre modèle a été comparé à deux CNN et à un autre transformateur de vision tous soumis aux mêmes conditions d’entraînement. Enfin, nous avons évalué un aspect supplémentaire de l’utilité clinique de ces modèles en créant des cartes de saillance pour les échantillons d’entrée.

Les performances des réseaux neuronaux peuvent être fortement influencées par la quantité de données disponibles24, et le surajustement peut facilement entraîner de petits régimes de données25. Cependant, les données étiquetées organisées sont une ressource rare. Cela est particulièrement vrai dans le cadre des soins de santé où effectuer des tests sur les patients, détecter les pathologies d’intérêt et recueillir des données concernant les résultats cliniques est laborieux et coûteux. En plus des coûts financiers liés à l’acquisition et à l’étiquetage des données, le temps peut être un facteur supplémentaire qui empêche l’acquisition d’ensembles de données plus volumineux. En raison de préoccupations émergentes en matière de santé publique, comme la récente pandémie de COVID-19, peu de données peuvent être disponibles pour l’élaboration de modèles utiles. Dans de telles circonstances, les modèles qui peuvent fonctionner avec une fraction des données requises pour d’autres approches peuvent aider à un diagnostic et à un triage plus rapides et plus appropriés.

Pour tous les résultats, ensembles de données et mesures de performance, HeartBEiT a atteint des performances équivalentes avec un ordre de grandeur inférieur (100% vs 10%) de données d’entraînement. De plus, dans le régime de données très faibles utilisant seulement 1% des données d’entraînement, les performances de HeartBEiT étaient équivalentes à celles d’autres modèles utilisant 10 fois plus de données. Cette performance a été maintenue dans la validation externe non seulement pour les modèles affinés, mais aussi pour le modèle pré-entraîné lorsqu’il est utilisé avec un ensemble de données entièrement nouveau provenant d’un ensemble de données indépendant composé d’une cohorte de patients géographiquement séparée.

La différence élevée de performance dans l’AUPRC revêt une importance particulière – un meilleur indicateur de performance dans les ensembles de données présentant un fort déséquilibre de classe dans lequel il peut être moins utile de considérer l’AUROC isolément. Compte tenu des taux d’événements relativement faibles, les ensembles de données médicales ont tendance à présenter de tels déséquilibres de classe. Par exemple, dans la détection des STEMI avec une prévalence de résultats de 5,6%, dans le régime de données d’entraînement à 1%, HeartBEiT a dépassé l’AUPRC des CNN de 19,1% et 40% respectivement, tout en doublant les performances du transformateur de vision ImageNet. Ces résultats indiquent également que la pré-formation sur des images naturelles n’est pas toujours la solution la plus optimale pour créer des modèles liés aux soins de santé – un fait encore mis en évidence par l’ampleur de la disparité de la distance moyenne de Wasserstein entre les images naturelles et les ECG.

Un avantage clinique émergent de l’utilisation de transformateurs avec le cadre d’explicabilité décrit dans ce travail est la granularité de la cartographie de saillance. Même à des niveaux de performance similaires, les CNN montrés ont tendance à fusionner des domaines d’importance, obscurcissant ainsi les déterminants les plus forts d’une prédiction. En comparaison, les cartes de saillance pour les transformateurs ont tendance à se concentrer sur ces déterminants. Une telle explicabilité granulaire peut aider à la fois les cliniciens à adopter des modèles d’apprentissage profond, ainsi qu’à comprendre les pathologies pour lesquelles il n’existe pas de directives diagnostiques sur un ECG. Ces facteurs sont bien démontrés pour la détection STEMI où le modèle pathognomonique est bien établi, et le segment ST est systématiquement mis en évidence même en utilisant 1% des données pour un réglage fin (Fig. 5). Dans le cas de la détermination de la FEVG, il n’existe pas de lignes directrices diagnostiques claires qui puissent aider les médecins humains. Dans ce cas, les cartes de saillance ont tendance à se concentrer sur les complexes QRS qui indiquent le vecteur net de dépolarisation de la majorité de la musculature ventriculaire cardiaque et pointent vers la capacité du transformateur à se concentrer sur les mécanismes sous-jacents à l’état pathologique.

Notre travail doit être considéré à la lumière de certaines limites. Les transformateurs ont tendance à être très gourmands en calcul pour pré-entraîner. Nous étions donc limités dans la taille du modèle de transformateur à 86 M de paramètres, ainsi que dans les dimensions des données d’entrée que nous avons pu utiliser. Cependant, nous pensons que ce travail sert de preuve de la viabilité et des avantages de notre modèle HeartBEiT, et les travaux futurs porteront sur la mise à l’échelle de ce modèle pour permettre de meilleures performances avant le déploiement en direct.

En conclusion, les modèles de transformateurs pré-entraînés permettent une classification ECG robuste basée sur l’apprentissage profond, même dans des régimes très limités en données. Des cartes de saillance granulaires plus spécifiques, de meilleure qualité et de meilleure qualité peuvent aider les cliniciens à accepter les prédictions des modèles.

Nous avons utilisé toutes les données ECG disponibles de cinq hôpitaux du Mount Sinai Health System (MSHS) pour pré-former notre modèle. Ces hôpitaux (Mount Sinai Hospital, Morningside, West, Beth Israel et Brooklyn) desservent une vaste population de patients qui reflète la diversité démographique de la ville de New York. Les données ECG ont été extraites du système GE MUSE pour les années 1980-2021, totalisant environ 8,5 millions d’enregistrements ECG discrets pour 2,1 millions de patients. Les données ECG ont été obtenues sous forme de fichiers XML structurés contenant à la fois des formes d’onde brutes ainsi que des métadonnées associées aux identificateurs du patient, à l’heure, au lieu et à l’indication.

Pour affiner le modèle par rapport aux résultats, nous avons recueilli des étiquettes de réalité sur le terrain pour la valeur de la fraction d’éjection ventriculaire gauche (FEVG) à partir des rapports d’échocardiogramme disponibles. La tâche de modélisation consistait à classer les patients pour une FEVG ≤40 %, qui définit l’insuffisance cardiaque avec une fraction d’éjection réduite26. Nous avons également recueilli des étiquettes indiquant un diagnostic de cardiomyopathie hypertrophique – une maladie génétique dans laquelle les cavités du cœur subissent une augmentation pathologique de l’épaisseur entraînant une perte de fonction cardiaque et une prédisposition aux arythmies mortelles. Ces étiquettes ont été générées à l’aide du traitement du langage naturel pour analyser les rapports d’échocardiogramme non structurés pour toute mention de « HCM » / « cardiomyopathie hypertrophique » - avec ou sans aucun qualificatif intervenant concernant la nature obstructive de la pathologie.

Enfin, nous avons utilisé l’ensemble de données PTB-XL accessible au public pour une validation externe supplémentaire. Cet ensemble de données contient 21 799 ECG de 18 869 patients d’octobre 1989 à juin 1996. Ces données ont été annotées par deux cardiologues et contiennent des étiquettes diagnostiques de réalité sur le terrain, telles que si un ECG indique un enregistrement normal ou des changements suggérant une ischémie aiguë. Les enregistrements ECG de cette base de données ont été utilisés pour affiner les modèles de détection de l’infarctus du myocarde avec élévation du segment ST (STEMI). Les STEMI sont causées par une perte aiguë de l’apport sanguin au tissu cardiaque et peuvent entraîner une pléthore de complications allant de la perte de la fonction contractile à la mort.

Les ECG utilisés dans cette étude contiennent chacun des données de forme d’onde enregistrées à partir de l’une des douze dérivations, chaque dérivation représentant une perspective différente sur l’activité électrique du cœur. Les deux ensembles de données contiennent des ECG avec 5 ou 10 s de données de forme d’onde par sonde échantillonnée à une fréquence de 500 Hz, pour un total de 2500 ou 5000 échantillons. L’ensemble de données MSHS ne contient pas de données concernant les pistes III, aVF, aVL ou aVR. Cependant, ces dérivations sont dérivées puisqu’elles peuvent être recréées à partir de transformations linéaires des vecteurs représentant les autres dérivations. Afin de maintenir l’uniformité entre les échantillons et les ensembles de données, tous les ECG ont été tronqués à 2500 échantillons.

Nous avons corrigé le bruit dans les enregistrements ECG par l’application d’un filtre passe-bande Butterworth (0,5 Hz à 40 Hz) suivi de l’application d’un filtre médian sur les données brutes de forme d’onde. Les données de forme d’onde traitées ainsi dérivées ont été organisées pour maintenir l’ordre des dérivations et tracées sur des images, chaque image contenant un total de huit pistes (I, II et V1 – V6). Les images ont été enregistrées au format .png (Portable Network Graphics) à une résolution de 1000 × 1000 pixels pour éviter les artefacts de compression. De plus, les images de sortie ont été stockées avec trois canaux de couleur pour conserver la compatibilité avec les CNN formés sur ImageNet.

Les jetons peuvent être définis comme des séquences prédéfinies discrètes qui sont regroupées et analysées ensemble sur une base sémantique. Dans le contexte de la modélisation du langage, les jetons peuvent simplement être les mots composant un corps de texte. Le processus consistant à séparer les données en ces séquences discrètes et à leur attribuer des identificateurs numériques uniques est appelé tokenisation27.

Une méthode couramment utilisée pour pré-entraîner des modèles de langage est appelée modélisation du langage masqué (MLM)28, dans laquelle un pourcentage défini du nombre de jetons entrant dans le modèle sont masqués ou masqués, et les modèles sont pré-entraînés en leur demandant de prédire ces jetons masqués. La collecte et l’étiquetage des données peuvent être un processus coûteux, et ces coûts sont amplifiés pour les ensembles de données médicales. Un avantage significatif du MLM est qu’il permet l’utilisation de grandes quantités de données non étiquetées pour pré-entraîner les modèles.

L’approche BEiT étend MLM à la modélisation d’images masquées (MIM) dans laquelle les images d’entrée 2D sont séparées en patchs contenant des pixels bruts qui sont ensuite convertis en représentations tokenisées de l’image d’entrée (Fig. 1). Cette tokenisation est réalisée à l’aide d’un tokenizer d’image formé séparément qui approxime chaque patch en un seul jeton numérique. Nous avons utilisé le même tokenizer d’images accessible au public (Dall-E) pour la conversion des images ECG que l’implémentation BEiT d’origine.

Nous avons instancié un modèle de transformateur à 12 couches avec une taille de couche cachée de 768 et 12 têtes d’attention pour un total d’environ 86 M de paramètres. Ce modèle et ses dérivés en aval sont appelés « HeartBEiT » dans le texte de cet ouvrage.

Nous avons comparé les performances spécifiques au problème en aval de ce modèle à un transformateur de vision basé sur ImageNet de taille équivalente (paramètres ViT-B/16 : 86 M), ainsi qu’aux approches CNN communes à l’apprentissage profond appliquées aux ECG. Il s’agit notamment du plus grand modèle ResNet pré-entraîné disponible (paramètres ResNet-152 : 60 M) et d’une architecture informatique plus peu coûteuse (paramètres EfficientNet-B4 : 19 M) connue pour démontrer de meilleures performances lors de la classification des images malgré moins de paramètres. Toutes les lignes de base ont été pré-entraînées de manière supervisée sur l’ensemble de données ImageNet1K contenant 1,2 million d’images d’apprentissage étiquetées.

Les images d’entrée ont été redimensionnées à 224 × 224 pixels, mais ne font l’objet d’aucun autre prétraitement. Contrairement aux images naturelles, les formes d’onde ECG nécessitent le maintien de la morphologie et de l’ordre. Aléatoire à la perte d’informations qui peuvent n’exister que dans certains segments d’un ECG.

Les images d’entrée ont été divisées en patchs carrés de 16 pixels chacun, pour un total de 196 patchs par image d’entrée (Fig. 5). 40% des patchs d’entrée ont été masqués pour entrer dans le réseau neuronal. Nous avons utilisé l’optimiseur AdamW avec un taux d’apprentissage de 5e-4. Le modèle HeartBEiT a été pré-entraîné sur un nœud composé de 4 GPU NVIDIA A100-40G. À environ 6 heures par époque, la pré-formation du modèle pour 300 époques a pris environ 2,5 mois. Les paramètres du modèle sauvegardés à la 300e époque ont été utilisés pour le réglage fin en aval dans tous les cas (Fig. supplémentaire 1).

Les modèles pré-entraînés ont été soumis à une tâche de réglage fin pour démontrer et comparer les performances lors de la classification basée sur l’ECG. Nous avons utilisé les données de 4 hôpitaux pour la détection d’une FEVG de < 40 % et le diagnostic de la CMH. Dans les deux cas, la performance du modèle affiné a été validée en externe sur les données de l’hôpital Morningside. Les données de la base de données PTB-XL ont été utilisées pour affiner le modèle HeartBEiT pré-entraîné, ainsi que les autres modèles de détection de STEMI.

Les données ont été séparées en un ensemble de données d’apprentissage, un ensemble de données de tests internes et, le cas échéant, un ensemble de données de validation externe. Nous avons modélisé des conditions de pénurie extrême de données en réduisant les données d’entraînement à 1 %, 10 %, 25 %, 50 % ou 100 %, puis en testant les modèles résultants par rapport à des données de test communes. Dans tous les cas, le fractionnement aléatoire de groupe avec une graine aléatoire constante a été utilisé pour s’assurer qu’aucun patient n’était présent dans les données d’entraînement et de test, et que les mêmes patients faisaient partie de l’un ou l’autre ensemble de données à travers les essais.

Nous avons défini la tête de classification de chaque modèle sur une taille de deux neurones et utilisé la perte CrossEntropy. L’optimiseur Adam sur un calendrier de taux d’apprentissage OneCycle compris entre 3e-4 et 1e-3 sur 30 époques a été utilisé pour affiner et les mesures de performance rapportées correspondent aux meilleures performances obtenues à travers ces époques. Les mesures de la zone indépendante du seuil sous la courbe des caractéristiques de fonctionnement du récepteur (AUROC) et de l’aire sous la courbe de rappel de précision (AUPRC) ont été utilisées pour calculer et comparer le rendement du modèle. Des intervalles de confiance à 95 % pour les zones sous la courbe ont été générés par 500 itérations du bootstrap.

La distance de Wasserstein29 est une mesure du coût nécessaire pour transformer une distribution en une autre. Étant donné deux images discrètes, l’ampleur de la distance de Wasserstein entre elles est directement proportionnelle à leur discorde. Des distances Wasserstein plus élevées entre les données de pré-entraînement et de réglage fin peuvent conduire à des résultats sous-optimaux avec l’apprentissage par transfert.

Nous avons échantillonné au hasard 1000 images chacune des ensembles de données ImageNet et ECG. Tous les échantillons de chaque cohorte ont été redimensionnés à 224 × 224 pixels et appariés à tous les autres échantillons de la même cohorte, ainsi qu’à l’autre cohorte pour un total de 3 combinaisons de ce type : ECG vs ECG, ECG vs ImageNet, ImageNet vs ImageNet. Chacune de ces opérations a donné un total de 106 paires. La distance de Wasserstein a été calculée pour chaque paire d’images résultante et la moyenne a été calculée pour la combinaison de cohortes.

L’explicabilité du modèle a été générée à l’aide de la bibliothèque GradCAM (Gradient-weighted Class Activation Mapping)30. Les attributions générées ont été tracées en superposition sur l’image d’entrée originale pour montrer quelle partie d’une entrée a le plus contribué à une prédiction.

Toutes les analyses ont été effectuées à l’aide des bibliothèques pandas, numpy, Python Image Library (PIL), SciPy, scikit-learn, torchvision, timm et PyTorch. Le traçage a été effectué à l’aide des bibliothèques matplotlib et seaborn. Tout le code a été écrit pour et dans la version 3.8.x du langage de programmation Python.

De plus amples renseignements sur la conception de la recherche sont disponibles dans le Résumé des rapports de recherche sur la nature lié à cet article.

Les données du mont Sinaï utilisées dans cette étude ne sont pas accessibles au public en raison de préoccupations relatives à la protection de la vie privée des patients. L’ensemble de données PTB-XL peut être téléchargé publiquement à l’adresse suivante : https://doi.org/10.13026/kfzx-aw45 Le modèle HeartBEiT pourrait être communiqué à d’autres chercheurs dans le cadre d’une entente approuvée par la CISR avec Mount Sinai Intellectual Partners.

Le code de création de modèle n’est pas spécifique au jeu de données et est disponible à l’adresse suivante : https://github.com/akhilvaid/HeartBEiT.

Drazen, E., Mann, N., Borun, R., Laks, M. & Bersen, A. Survey of computer-assisted electrocardiography in the United States. J. Électrocardiol. 21, S98 à S104 (1988).

Article PubMed Google Scholar

Vaid, A. et coll. Automated Determination of Left Ventricular Function Using Electrocardiogram Data in Patients on Maintenance Hemodialysis. Clin. J. Am. Soc. Nephrol. 17, 1017–1025 (2022).

Article PubMed Google Scholar

Vaid, A. et al. Utilisation d’algorithmes d’apprentissage profond pour identifier simultanément le dysfonctionnement ventriculaire droit et gauche à partir de l’électrocardiogramme. Cardiovasc. Imaging 15, 395-410 (2022).

Google Scholar

Vaid, A. et al. Étude de cohorte rétrospective multicentrique appliquant l’apprentissage profond aux électrocardiogrammes pour identifier le dysfonctionnement valvulaire du cœur gauche. Commun. Med. 3, 24 (2023).

Article PubMed PubMed Central Google Scholar

Mincholé, A., Camps, J., Lyon, A. & Rodríguez, B. Machine learning in the electrocardiogram. J. Électrocardiol. 57, S61 à S64 (2019).

Article Google Scholar

Aziz, S., Ahmed, S. & Alouini, M.-S. Algorithmes d’apprentissage automatique basés sur l’ECG pour la classification des pulsations. 11, 18738 (2021).

Article CAS PubMed PubMed Central Google Scholar

Hong, S., Zhou, Y., Shang, J., Xiao, C. & Sun, J. Opportunities and challenges of deep learning methods for electrocardiogram data: A systematic review. Ordinateurs Biol. Med. 122, 103801 (2020).

Article Google Scholar

Geman, S., Bienenstock, E. & Doursat, R. Neural networks and the bias/variance dilemma. Calcul neuronal. 4, 1–58 (1992).

Article Google Scholar

Alzubaidi, L. et al. Examen de l’apprentissage profond : concepts, architectures CNN, défis, applications, orientations futures. J. Big Data 8, 53 (2021).

Article PubMed PubMed Central Google Scholar

Gu, J. et al. Progrès récents dans les réseaux de neurones convolutifs. Modèle reconnaissant. 77, 354–377 (2018).

Article Google Scholar

Weimann, K. & Conrad, T. O. F. Transfer learning for ECG classification. 11, 5251 (2021).

Article CAS PubMed PubMed Central Google Scholar

Weiss, K., Khoshgoftaar, T. M. & Wang, D. Une enquête sur l’apprentissage par transfert. J. Big Data 3, 9 (2016).

Article Google Scholar

Deng, J. et coll. En 2009, conférence IEEE sur la vision par ordinateur et la reconnaissance des formes. 248-255 (Ieee).

Gavrilov, A. D., Jordache, A., Vasdani, M. & Deng, J. Preventing model overfitting and underfitting in convolutional neural networks. Int. J. Softw. Calcul scientifique. Intell. (IJSSCI) 10, 19-28 (2018).

Article Google Scholar

Vaswani, A. et al. L’attention est tout ce dont vous avez besoin. In Advances in Neural Information Processing Systems Vol. 30 (éd. Guyon, I. et al.) (Curran Associates, Inc, 2017). https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf.

Khan, S. et al. Les transformateurs dans la vision : une enquête. ACM Computing Surveys (CSUR) 54, 1–41 (2022).

Wolf, T. et al. In Proceedings of the 2020 conference on empirical methods in natural language processing: system demonstrations. 38–45.

Kalyan, K. S., Rajasekharan, A. & Sangeetha, S. Ammus: A survey of transformer-based pretrained models in natural language processing. Prépublication à https://arxiv.org/abs/2108.05542 (2021).

Liu, Z. et coll. Dans Proceedings of the IEEE/CVF International Conference on Computer Vision. 10012–10022.

Dosovitskiy, A. et al. Une image vaut 16x16 mots : Transformers pour la reconnaissance d’image à grande échelle. Prépublication à https://arxiv.org/abs/2010.11929 (2020).

Bao, H., Dong, L. & Wei, F. Beit: Bert pré-formation des transformateurs d’image. Prépublication à https://arxiv.org/abs/2106.08254 (2021).

Raghu, M., Unterthiner, T., Kornblith, S., Zhang, C. & Dosovitskiy, A. Les transformateurs de vision voient-ils comme des réseaux de neurones convolutifs ? Adv. Processus Inf. Neural. 34, 12116–12128 (2021).

Google Scholar

Shahani, L. S1Q3T3 conduisant à un diagnostic précoce de l’embolie pulmonaire. 2012 https://doi.org/10.1136/bcr-2012-006569 (2012).

Raudys, S. J. & Jain, A. K. Small sample size effects in statistical pattern recognition: Recommendations for practitioners. IEEE Trans. Pattern Anal. Mach. Intell. 13, 252–264 (1991).

Article Google Scholar

Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I. & Salakhutdinov, R. Dropout: un moyen simple d’empêcher les réseaux neuronaux de surajustement. J. Mach. Apprendre. 15, 1929-1958 (2014).

Google Scholar

Bozkurt, B. et al. Définition et classification universelles de l’insuffisance cardiaque: un rapport de la société américaine de l’insuffisance cardiaque, de l’association de l’insuffisance cardiaque de la société européenne de cardiologie, de la société japonaise de l’insuffisance cardiaque et du comité de rédaction de la définition universelle de l’insuffisance cardiaque. J. Échec. 27, 387–413 (2021).

Article Google Scholar

Webster, J. J. et Kit, C. Dans COLING 1992 volume 4: The 14th international conference on computational linguistics.

Ghazvininejad, M., Levy, O., Liu, Y. & Zettlemoyer, L. Mask-Predict: Décodage parallèle des modèles de langage masqués conditionnels. Dans Actes de la Conférence 2019 sur les méthodes empiriques dans le traitement du langage naturel et de la 9e Conférence internationale conjointe sur le traitement du langage naturel (EMNLP-IJCNLP) 6112-6121. https://arxiv.org/abs/1904.09324 (Association for Computational Linguistics, Hong Kong, Chine, 2019).

Rubner, Y., Tomasi, C. et Guibas, L. J. La distance du déménageur de terre comme métrique pour la récupération d’images. 40, 99-121 (2000).

Article Google Scholar

Selvaraju, R. R. et coll. Dans Proceedings of the IEEE international conference on computer vision. 618–626.

Télécharger les références

Cette étude a été financée par R01HL155915 et le prix clinique et translationnel pour l’infrastructure UL1TR004419. Les auteurs tiennent à remercier Wei Guo, Lili Gai et Eugene Fluder du groupe de calcul haute performance du Mont Sinaï d’avoir rendu possible l’infrastructure sous-jacente à cette étude.

Institut Charles Bronfman de médecine personnalisée, École de médecine Icahn à Mount Sinai, New York, NY, États-Unis

Akhil Vaid, Joy Jiang, Alexander Charney et Girish N Nadkarni

Mount Sinai Clinical Intelligence Center, Icahn School of Medicine at Mount Sinai, New York, NY, États-Unis

Akhil Vaid, Joy Jiang et Girish N Nadkarni

Département de génétique et de sciences génomiques, Icahn School of Medicine at Mount Sinai, New York, NY, États-Unis

Akhil Vaid, Alexander Charney, Benjamin Glicksberg et Girish N Nadkarni

L’Institut Hasso Plattner pour la santé numérique à Mount Sinai, New York, NY, États-Unis

Akhil Vaid, Benjamin Glicksberg & Girish N Nadkarni

Département de médecine, Icahn School of Medicine at Mount Sinai, New York, NY, États-Unis

Ashwin Sawant

Mount Sinai Heart, École de médecine Icahn à Mount Sinai, New York, NY, États-Unis

Stamatios Lerakis, Edgar Argulian, Joshua Lampert et Jagat Narula

Département de cardiologie, Icahn School of Medicine at Mount Sinai, New York, NY, États-Unis

Stamatios Lerakis, Edgar Argulian, Joshua Lampert et Jagat Narula

Département de médecine, NYU Langone Health, New York, NY, États-Unis

Yuri Ahuja

La Pamela Sklar Division of Psychiatric Genomics, Icahn School of Medicine at Mount Sinai, New York, NY, États-Unis

Alexandre Charney

Département de psychiatrie, Icahn School of Medicine at Mount Sinai, New York, NY, États-Unis

Alexandre Charney

Département de génie biomédical, Université de Tel Aviv, Tel Aviv, 6997801, Israël

Hayit Greenspan

Division de néphrologie, Département de médecine, École de médecine Icahn à Mount Sinai, New York, NY, États-Unis

Girish N Nadkarni

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

L’étude a été conçue par A.V.; Le code a été écrit par A.V.; Les données sous-jacentes ont été recueillies, analysées et visualisées par A.V.; la première ébauche du manuscrit a été écrite par A.V. et J.J.; G.N.N. a supervisé le projet. A.V. et G.N.N. avaient accès aux données et les vérifiaient. Tous les auteurs ont fourni des commentaires et approuvé la version finale pour publication.

Correspondance avec Akhil Vaid.

Le Dr Nadkarni fait état d’accords de conseil avec AstraZeneca, BioVie, GLG Consulting, Pensieve Health, Reata, Renalytix, Siemens Healthineers et Variant Bio; le financement de la recherche par Goldfinch Bio et Renalytix; les honoraires d’AstraZeneca, BioVie, Lexicon, Daiichi Sankyo, Meanrini Health et Reata; brevets ou redevances avec Renalytix; détient des actions et des options d’achat d’actions dans Pensieve Health et Renalytix en tant que cofondateur scientifique; détient une participation dans Verici Dx; a reçu une compensation financière en tant que membre du conseil scientifique et conseiller de Renalytix; siège au conseil consultatif de Neurona Health; et joue un rôle consultatif ou de leadership pour Pensieve Health et Renalytix. Tous les autres auteurs ont indiqué qu’ils n’avaient aucune relation pertinente au contenu de cet article à divulguer.

Note de l’éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l’utilisation, le partage, l’adaptation, la distribution et la reproduction sur tout support ou format, à condition que vous donniez le crédit approprié au(x) auteur(s) original(s) et à la source, que vous fournissiez un lien vers la licence Creative Commons et que vous indiquiez si des modifications ont été apportées. Les images ou autres éléments de tiers contenus dans cet article sont inclus dans la licence Creative Commons de l’article, sauf indication contraire dans une ligne de crédit du matériel. Si le matériel n’est pas inclus dans la licence Creative Commons de l’article et que votre utilisation prévue n’est pas autorisée par la réglementation légale ou dépasse l’utilisation autorisée, vous devrez obtenir l’autorisation directement du détenteur des droits d’auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Vaid, A., Jiang, J., Sawant, A. et coll. Un transformateur de vision fondamental améliore les performances de diagnostic des électrocardiogrammes. npj Chiffre. Médi. 6, 108 (2023). https://doi.org/10.1038/s41746-023-00840-9

Télécharger la citation

Reçu: 13 janvier 2023

Acceptée: 05 mai 2023

Publication : 6 juin 2023

DEUX : https://doi.org/10.1038/s41746-023-00840-9

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n’est actuellement disponible pour cet article.

Fourni par l’initiative de partage de contenu Springer Nature SharedIt