Home Ciencia y Tecnología Desbloqueo de datos textuales: un viaje para principiantes a través de Python,...

Ciencia y Tecnología

Desbloqueo de datos textuales: un viaje para principiantes a través de Python, NLTK y Spacy

Tania López

15 julio 2025

Tabla de enlaces

Resumen y 1 Introducción

2 Trabajo relacionado

3 Una experiencia de aprendizaje digital

3.1 El equipo y la descripción normal del curso

3.3 piloto 1

3.4 piloto 2

4 comentarios

4.1 Comentarios implacables

4.2 Comentarios detallados del estudiante

5 lecciones aprendidas

6 Resumen y trabajo futuro, reconocimientos y referencias

A. Apéndice: tres estrellas y un deseo

3 Una experiencia de aprendizaje digital

3.1 El equipo

Nuestro equipo está compuesto por tres académicos de carrera temprana en la Universidad de Edimburgo. Dos tipos de enseñanza tienen experiencia en el procesamiento del lenguaje pure con doctorados en lingüística computacional. El tercer compañero de enseñanza tiene un doctorado en informática y con frecuencia enseña programación a diferentes tipos de audiencias, incluidos estudiantes de negocios y estudiantes fuera de la educación superior. La lista de autores de este documento también incluye a un cuarto (último) autor que fue participante de nuestro primer piloto, es profesora y que nos ha proporcionado comentarios útiles para las iteraciones futuras de este curso (ver Sección 4.2).

3.2 Descripción normal del curso

En nuestra sociedad basada en datos, es cada vez más esencial que las personas de los sectores privados, públicos y de terceros saben cómo analizar la riqueza de la sociedad de la información que la sociedad crea cada día. Nuestro curso de TDM brinda a los participantes que no tienen experiencia de codificación muy limitada las herramientas que necesitan para interrogar datos. Este curso está diseñado para enseñar a los no codificadores cómo analizar los datos textuales utilizando Python como el lenguaje de programación principal. Los lleva a través de los pasos requeridos necesarios para poder analizar y visualizar información en grandes conjuntos de colecciones de documentos textuales, o corpus.

El curso se lleva a cabo en tres sesiones de tres horas y cada sesión presenta a los participantes un nuevo tema a través de una breve conferencia. Los temas se basan en las sesiones anteriores y al last de cada sesión hay tiempo para la discusión y la retroalimentación. En la primera sesión comenzamos con Python para leer y procesar texto y enseñar cómo se cargan y tokenizan los documentos individuales. Trabajamos con archivos de texto sin formato, pero planteamos el problema de que los datos textuales se pueden almacenar en diferentes formatos. Sin embargo, para mantener las cosas simples, no cubrimos otros formatos en detalle en las sesiones prácticas.

En la segunda sesión mostramos cómo se hace esto utilizando conjuntos de texto mucho más grandes y agregamos visualizaciones. Utilizamos dos conjuntos de datos como ejemplos, The Medical Historical past of British India (de Escocia, 2019) puesto a disposición por la Biblioteca Nacional de Escocia[4] y las direcciones inaugurales de todos los presidentes estadounidenses de 1789 a 2017. Mostramos cómo los participantes pueden crear listas de concordancia, distribuciones de frecuencia de tokens en un corpus y con el tiempo, así como las parcelas de dispersión léxica y cómo pueden realizar búsquedas de expresión regulares usando Python. En esta sesión también explicamos que los datos textuales pueden ser desordenados y que se puede dedicar mucho tiempo a limpiar y preparar datos de una manera que sea más útil para un análisis posterior. Por ejemplo, apuntamos a los estudiantes a detener las palabras y la puntuación en los resultados y explicamos cómo filtrarlos al crear visualizaciones basadas en frecuencia.

Durante la tercera sesión cubrimos el reconocimiento de entidad y nombramiento de POS. Esta última sesión concluye con una lección sobre visualizaciones de texto y datos derivados mediante resaltado de texto, gráficos de frecuencia, nubes de palabras y redes (ver algunos ejemplos en la Figura 1). Las herramientas NLP subyacentes utilizadas para este curso son NLTK 3 y Spacy, que son ampliamente utilizadas para la investigación y el desarrollo de PNL. Aquí también es donde ponemos parte del materials del curso en contexto de nuestra propia investigación para mostrar cómo se puede aplicar en la práctica en un proyecto actual. Por ejemplo, mencionamos nuestro trabajo anterior sobre la recopilación de conjuntos de datos de Twitter específicos del tema para un análisis posterior (Llewellyn et al., 2015), sobre el texto histórico y literario de Geoparsing (Clifford et al., 2016; Alex et al., 2019a) y en el reconocimiento de entidades nombrado para Radiology Studies (Alex et al., 2019b; Gorinski et al., 2019).

Figura 1: visualizaciones de exploraciones de texto creadas por los estudiantes.

En los dos pilotos, ejecutamos este curso durante tres sesiones de la tarde los lunes, miércoles y viernes, con una hora de oficina en los días intermedios para resolver los posibles problemas técnicos y responder preguntas. El principal resultado de aprendizaje es que al last del curso los participantes habrán adquirido habilidades iniciales de TDM que pueden usar en su propia investigación y construir mediante la toma de cursos o tutoriales más avanzados de PNL. Un objetivo principal de este curso es enseñar el materials de una manera clara de paso paso a paso para que todo el código de Python y los ejemplos sean específicos de cada tarea, pero no se condenan en conceptos de programación complicados que creemos que confundirían a los novatos completos.

Autores:

(1) Amador Durán, Rating Lab, I3US Institute, Universidad de Sevilla, Sevilla, España ([email protected]);

(2) Pablo Fernández, Rating Lab, I3US Institute, Universidad de Sevilla, Sevilla, España ([email protected]);

(3) Beatriz Bernárdez, Instituto I3US, Universidad de Sevilla, Sevilla, España ([email protected]);

(4) Nathaniel Weinman, División de Ciencias de la Computación, Universidad de California, Berkeley, Berkeley, CA, EE. UU. ([email protected]);

(5) Aslı Akalın, División de Ciencias de la Computación, Universidad de California, Berkeley, Berkeley, CA, EE. UU. ([email protected]);

(6) Armando Fox, División de Ciencias de la Computación, Universidad de California, Berkeley, Berkeley, CA, EE. UU. ([email protected]).

[4] Datos/ colecciones digitizadas/ A-Medical-Historia de British-India/

fuente

Desbloqueo de datos textuales: un viaje para principiantes a través de Python, NLTK y Spacy

Tabla de enlaces

3 Una experiencia de aprendizaje digital

3.1 El equipo

3.2 Descripción normal del curso

Reciente

Starmer respalda la oferta de traer 2029 campeonatos mundiales de atletismo...

Stephen A. Smith aborda la reacción violenta para Jeffrey Epstein Take

La ultimate inaugural de Northern Tremendous League se llevará a cabo...

Burnley FC Companion con X para la participación de los fanáticos...

Haz tu jardín elegante este verano con la compra de ratán...

Taylor Russell sale de ‘The Thomas Crown Affair’, la producción continúa...

‘Eran mejores que nosotros’ – El entrenador de Zambia Häuptle reconoce...

Resident Evil: los pedidos anticipados de la unidad de supervivencia se...

Cuando Trump llamó a Murdoch legendario: viejos clips del presidente de...

India para boicotear la Copa Asia 2025? El informe afirma que...