Home Ciencia y Tecnología Resultados de mapa de calor y precisión de los modelos de clasificación...

Resultados de mapa de calor y precisión de los modelos de clasificación de imágenes médicas

39
0

Resumen e I. Introducción

  1. Materiales y métodos

    2.1. Aprendizaje de instancias múltiples

    2.2. Arquitecturas de modelos

  2. Resultados

    3.1. Métodos de entrenamiento

    3.2. Conjuntos de datos

    3.3. Tubería de preprocesamiento de WSI

    3.4. Resultados de clasificación y detección de ROI

  3. Discusión

    4.1. Tarea de detección de tumores

    4.2. Tarea de detección de mutaciones genéticas

  4. Conclusiones

  5. Expresiones de gratitud

  6. Declaración y referencias del autor

3.4. Resultados de clasificación y detección de ROI

En esta sección, presentamos los resultados obtenidos para nuestras tareas de clasificación, así como algunos ejemplos de los ROI producidos por los modelos. Después de ajustar, realizamos, para cada modelo, tarea y nivel de aumento, cinco ejecuciones independientes donde los conjuntos de datos se dividieron aleatoriamente con diferentes semillas. Las tablas 1 y 2 muestran la desviación promedio y estándar de las áreas bajo las curvas (AUC) obtenidas en el conjunto de prueba para esas cinco corridas. También presentamos gráficos que muestran las curvas ROC de una de estas ejecuciones para cada modelo, tarea y aumento.

La Tabla 1 muestra los resultados de AUC para la tarea de detección de tumores al aumento 5x. La Figura 7 muestra un ejemplo de los mapas de calor producidos para la tarea de detección de tumores en un portaobjetos al mismo nivel de aumento. La Tabla 2 presenta los resultados de la tarea de detección de mutación del gen en los niveles de aumento 5x, 10x y 20x. Las Figuras 8 y 9 presentan ejemplos de mapas de calor producidos para la tarea de detección de mutación génica a partir de parches de aumento 10x y 20x. Debido a los pobres resultados de clasificación obtenidos en el aumento 5X, no incluimos mapas de calor de este nivel, ya que concluimos que no serían significativos.

Para el modelo AMIL solo tenemos los puntajes de atención, correspondientes a los parches que se consideraron los más relevantes para la predicción remaining. Con respecto al Admil authentic y nuestra versión, tenemos los puntajes de atención del parche producidos por la capa de atención, así como las puntuaciones de parche excitatorias e inhibitorias, que indican contribuciones positivas y negativas para la predicción remaining, respectivamente. Estos puntajes finales se pasaron a través de un sigmoide para escalar los logits a los valores entre 0 y 1, donde los valores en el intervalo]0, 0.5[indicaunacontribuciónnegativayvaloresen[051[unacontribuciónpositivaEnelcasodelosmapasdecalordeatenciónmostramosuncolordecolorcontinuoParalaspuntuacionesinhibitorias/excitatoriassolousamosdoscoloresunoparalosparchesexcitadores(rojos)yotrosparalosparchesinhibitorios(azul)[indicatesanegativecontributionandvaluesin[051[apositivecontributionInthecaseofattentionheatmapsweshowacontinuouscolormapFortheinhibitory/excitatoryscoresweonlyusetwocolorsonefortheexcitatorypatches(Purple)andotherfortheinhibitorypatches(Blue)

Tabla 1: rendimiento de los modelos en la tarea de detección de tumores. Después del ajuste, realizamos la validación externa en el conjunto de pruebas cinco veces para cada modelo y calculamos el AUC promedio de esas 5 corridas. La arquitectura original de AMIL obtuvo la mejor actuación, seguida de nuestra versión de Admil.Tabla 1: rendimiento de los modelos en la tarea de detección de tumores. Después del ajuste, realizamos la validación externa en el conjunto de pruebas cinco veces para cada modelo y calculamos el AUC promedio de esas 5 corridas. La arquitectura original de AMIL obtuvo la mejor actuación, seguida de nuestra versión de Admil.

Tabla 2: rendimiento de los modelos para la tarea de detección de mutación genética para los tres niveles de aumento explorados (5x, 10x y 20x). Después de ajustar, realizamos la validación externa en el conjunto de pruebas cinco veces para cada modelo y calculamos el AUC promedio de esas cinco corridas. La arquitectura AMIL siempre obtuvo el mejor rendimiento. En general, los modelos obtuvieron un mejor rendimiento para niveles de aumento de mayor aumento, con nuestra versión de Admil obteniendo un mejor rendimiento que el original en el nivel de aumento 20X.Tabla 2: rendimiento de los modelos para la tarea de detección de mutación genética para los tres niveles de aumento explorados (5x, 10x y 20x). Después de ajustar, realizamos la validación externa en el conjunto de pruebas cinco veces para cada modelo y calculamos el AUC promedio de esas cinco corridas. La arquitectura AMIL siempre obtuvo el mejor rendimiento. En general, los modelos obtuvieron un mejor rendimiento para niveles de aumento de mayor aumento, con nuestra versión de Admil obteniendo un mejor rendimiento que el original en el nivel de aumento 20X.

Autores:

(1) Martim Afonso, Instituto Superior Técnico, Universidade de Lisboa, Av. Rovisco Pais, Lisboa, 1049-001, Portugal;

(2) Praphulla MS Bhawsar, División de Epidemiología y Genética del Cáncer, Instituto Nacional del Cáncer, Institutos Nacionales de Salud, Bethesda, 20850, Maryland, EE. UU.;

(3) Monjoy Saha, División de Epidemiología y Genética del Cáncer, Instituto Nacional del Cáncer, Institutos Nacionales de Salud, Bethesda, 20850, Maryland, EE. UU.;

(4) Jonas S. Almeida, División de Epidemiología y Genética del Cáncer, Instituto Nacional del Cáncer, Institutos Nacionales de Salud, Bethesda, 20850, Maryland, EE. UU.;

(5) Arlindo L. Oliveira, Instituto Superior Técnico, Universidade de Lisboa, Av. Rovisco Pais, Lisboa, 1049-001, Portugal e Inesc-ID, R. Alves Redol 9, Lisboa, 1000-029, Portugal.


Este documento es Disponible en arxiv bajo CC por 4.0 licencia de escritura (atribución 4.0 internacional).

fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here