Home Ciencia y Tecnología Cómo entrenamos modelos de IA para detectar tumores y mutaciones genéticas

Cómo entrenamos modelos de IA para detectar tumores y mutaciones genéticas

37
0

Resumen e I. Introducción

  1. Materiales y métodos

    2.1. Aprendizaje de instancias múltiples

    2.2. Arquitecturas de modelos

  2. Resultados

    3.1. Métodos de entrenamiento

    3.2. Conjuntos de datos

    3.3. Tubería de preprocesamiento de WSI

    3.4. Resultados de clasificación y detección de ROI

  3. Discusión

    4.1. Tarea de detección de tumores

    4.2. Tarea de detección de mutaciones genéticas

  4. Conclusiones

  5. Expresiones de gratitud

  6. Declaración y referencias del autor

3. Resultados

3.1. Métodos de entrenamiento

Dividimos cada conjunto de datos en un conjunto de capacitación (80%) y un conjunto de pruebas (20%). Para cada tarea y modelo, realizamos una validación cruzada de 5 veces en el conjunto de capacitación para evitar el sobreajuste. El conjunto de pruebas se usó luego para la validación externa, con el modelo extraído del pliegue que obtuvo los mejores resultados.

Para todos los modelos, la función de pérdida utilizada fue la pérdida binaria de entropía cruzada, definida como

donde 𝑌 es la clase positiva. Para la optimización de la pérdida, utilizamos el ADAM Optimiser. Para algunos de los modelos, empleamos un programador de tarifas de aprendizaje de recocido de coseno.

3.2. Conjuntos de datos

Elegimos dos proyectos de TCGA (The Most cancers Genome Atlas) [22] Para ser analizado en este trabajo: TCGA-BRCA (carcinoma invasivo de mama) y TCGA-lusc (carcinoma de células escamosas pulmonares).

Para la tarea de detección de tumores, solo usamos diapositivas con flash congelados. Aunque las muestras congeladas son menos adecuadas para el análisis computacional en comparación con los portaobjetos de parafina fijados con formalina (FFPE), decidimos construir nuestro conjunto de datos con estos debido a la falta de portaobjetos FFPE en el TCGA que contiene solo tejido sano. Para esta tarea, nos centramos en los mosaicos de aumento 5X, ya que este es el nivel de aumento que los patólogos usan típicamente al buscar tumores.

Para la detección de mutaciones genéticas, utilizamos portaobjetos FFPE, ya que la distribución desequilibrada ya no period un problema y estas diapositivas proporcionaron mejores resultados y rendimiento de entrenamiento. Además, el extractor de características que utilizamos para los mosaicos, Kimianet [18]fue entrenado con diapositivas FFPE, por lo que conforme a lo mismo conduciría a mejores resultados. Para esta tarea, creamos tres conjuntos de datos en tres niveles de aumento diferentes: 5x, 10x y 20x, para comprender mejor en qué aumento los modelos podrían detectar mejor las correlaciones entre la mutación y la morfología del tejido.

Debido al gran tamaño de las diapositivas FFPE y para ahorrar espacio de almacenamiento y tiempo, realizamos una muestra aleatoria de mosaicos para estos portaobjetos, dependiendo del nivel de aumento. Además, si bien las etiquetas de presencia de tumores a nivel de deslizamiento estaban disponibles para la primera tarea, las etiquetas de expresión génica solo están disponibles a nivel de caja (a nivel de paciente), presentando algunos desafíos. Asumimos que no solo la mutación estará presente en todos los portaobjetos de diagnóstico de un paciente etiquetado como positivo, sino que también cubriría suficiente tejido para ser capturado en las baldosas muestreadas en nuestro conjunto de datos.

3.2.1. TCGA-BRCA

El TCGA-BRCA está compuesto por 1098 casos. Contiene 1133 diapositivas de FFPE y diapositivas de flash congeladas de 1978 en esos casos. Este conjunto de datos se utilizó para la tarea de mutación genética. Nos centramos en las mutaciones del gen TP53 ya que este gen muestra un mayor número de casos mutados de los probados para mutaciones somáticas simples (331 de 969 casos), lo que nos permite construir un conjunto de datos equilibrado. Para esta tarea, tenemos 349 diapositivas positivas y 670 diapositivas negativas. Elegimos un número igual de WSI positivos y negativos, y después de filtrar portaobjetos inadecuados a través de la tubería de procesamiento, terminamos con un whole de 662 portaobjetos, 331 etiquetados como positivo y 331 etiquetados como negativos.

3.2.2. Tcga-lusc

El TCGA-lusc es un conjunto de datos para el carcinoma de células escamosas pulmonares. El tamaño de este conjunto de datos es bastante pequeño en comparación con TCGA-BRCA, con 504 casos, que contienen 512 portaobjetos de diagnóstico y 1100 portaobjetos de tejido en esos casos. Para la tarea de detección de tumores, tenemos 753 diapositivas positivas y 347 diapositivas negativas. Su distribución de clase para la tarea de detección de tumores no está demasiado desequilibrada para nuestros propósitos. Elegimos un número igual de diapositivas positivas y negativas, terminando con un conjunto de datos compuesto por 694 diapositivas. Su número reducido de diapositivas, así como la presencia de más artefactos, hace que este tipo de cáncer sea más difícil de trabajar. Los portaobjetos TCGA-BRCA siempre tienen un porcentaje tumoral del 90% al menos, mientras que en el caso de TCGA-LUSC, la distribución del porcentaje tumoral es más equilibrada. Por lo tanto, decidimos que para esta tarea, un conjunto de datos construido con diapositivas de TCGA-LUSC es preferible para validar la capacidad del modelo para generalizar con diferentes diapositivas.

Autores:

(1) Martim Afonso, Instituto Superior Técnico, Universidade de Lisboa, Av. Rovisco Pais, Lisboa, 1049-001, Portugal;

(2) Praphulla MS Bhawsar, División de Epidemiología y Genética del Cáncer, Instituto Nacional del Cáncer, Institutos Nacionales de Salud, Bethesda, 20850, Maryland, EE. UU.;

(3) Monjoy Saha, División de Epidemiología y Genética del Cáncer, Instituto Nacional del Cáncer, Institutos Nacionales de Salud, Bethesda, 20850, Maryland, EE. UU.;

(4) Jonas S. Almeida, División de Epidemiología y Genética del Cáncer, Instituto Nacional del Cáncer, Institutos Nacionales de Salud, Bethesda, 20850, Maryland, EE. UU.;

(5) Arlindo L. Oliveira, Instituto Superior Técnico, Universidade de Lisboa, Av. Rovisco Pais, Lisboa, 1049-001, Portugal e Inesc-ID, R. Alves Redol 9, Lisboa, 1000-029, Portugal.


Este documento es Disponible en arxiv bajo CC por 4.0 licencia de escritura (atribución 4.0 internacional).

fuente