Identificación de cambios en el estilo de escritura literaria con aprendizaje automático

Autores/as

  • Germán Ríos-Toledo Centro Nacional de Investigación y Desarrollo Tecnológico - CENIDET (México)
  • Noé Alejandro Castro-Sánchez Centro Nacional de Investigación y Desarrollo Tecnológico - CENIDET (México)
  • Grigori Sidorov Instituto Politécnico Nacional - IPN (México)
  • Juan-Pablo Posadas-Durán Instituto Politécnico Nacional - IPN (México)

DOI:

https://doi.org/10.7764/onomazein.46.04

Palabras clave:

detección de cambios de estilo a través del tiempo, n-gramas, n-gramas sintácticos, modelo espacio vectorial, cambio de estilo, aprendizaje automático

Resumen

Esta investigación tiene como objetivo identificar cambios en el estilo de escritura a través del tiempo de 7 autores de novelas de habla inglesa. Para cada autor se realizó una organización de las novelas de acuerdo a la fecha de publicación. Las novelas se clasificaron en tres etapas denominadas inicial, intermedia y final; cada etapa contiene 3 novelas. Entre dos etapas consecutivas existe por lo menos 2 años de separación entre las fechas de publicación de las novelas. Para resolver el problema de detección de cambios en el estilo de escritura a través del tiempo se propone utilizar un enfoque basado en aprendizaje automático supervisado. Se crearon modelos de espacio vectorial a partir de las frecuencias de uso de n-gramas de distintos tipos y longitudes. Además, se utilizó el algoritmo de Análisis de Componentes Principales (Principal Component Analysis, PCA) como método de selección de n-gramas. La solución se abordó como un problema de clasificación utilizando los algoritmos de Máquinas de Soporte Vectorial (Support Vector Machine, SVM), Naive Bayes Multinomial (Multinomial Naive Bayes, MNB), Regresión Logística (Logistic Regression, LG) y Liblinear como clasificadores. La métrica para medir la eficiencia de los algoritmos de aprendizaje fue la exactitud (accuracy). La investigación mostró cambios significativos en cinco de los autores con una exactitud promedio de entre 70% y 80% en los distintos tipos de n-gramas. 

Biografía del autor/a

Germán Ríos-Toledo, Centro Nacional de Investigación y Desarrollo Tecnológico - CENIDET (México)

Tecnológico Nacional de México/Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET), México.  

 

Noé Alejandro Castro-Sánchez, Centro Nacional de Investigación y Desarrollo Tecnológico - CENIDET (México)

Tecnológico Nacional de México/Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET), México.

 

Grigori Sidorov, Instituto Politécnico Nacional - IPN (México)

Centro de Investigación en Computación (CIC), Instituto Politécnico Nacional (IPN), México. 

 

 

Juan-Pablo Posadas-Durán, Instituto Politécnico Nacional - IPN (México)

Escuela Superior de Ingeniería Mecánica y Eléctrica, Unidad Zacatenco (ESIME Zacatenco), Instituto Politécnico Nacional (IPN), México.

Descargas

Publicado

2019-12-31

Cómo citar

Ríos-Toledo, G. ., Castro-Sánchez, N. A. ., Sidorov, G. ., & Posadas-Durán, J.-P. . (2019). Identificación de cambios en el estilo de escritura literaria con aprendizaje automático. Onomázein, (46), 102–128. https://doi.org/10.7764/onomazein.46.04

Número

Sección

Artículos

Artículos más leídos del mismo autor/a