Philologia Hispalensis ·2024 Vol. · 38 · Nº 2 · pp. 249-253
ISSN 1132-0265 ·© 2024. E. Universidad de Sevilla. ·(CC BY-NC-ND 4.0 DEED)
La necesidad por establecer clasificaciones y categorías en torno al género se ha visto reflejada en diversas disciplinas de naturaleza humanística, i. e., la lingüística y varias de sus ramificaciones, como la lingüística de corpus o la estilística, la retórica, los estudios literarios, las humanidades digitales, etc. Sin embargo, en el ámbito literario se manifiestan subgéneros, agentes externos y enfoques particulares que añaden una capa adicional de complejidad a cualquier tentativa de clasificación y categorización. En un contexto donde las fronteras entre géneros resultan borrosas y propicias a la superposición, The Novel in the Spanish Silver Age. A Digital Analysis of Genre Using Machine Learning supone una valiosa contribución científica, pues se presenta como una obra esencialmente interdisciplinar que responde a cuestiones inherentes al género de interés para especialistas de distintas disciplinas, como los estudios literarios, la lingüística e incluso la informática.
José Calvo Tello es investigador y bibliotecario en la Universidad de Gotinga (Alemania). Su actividad científica está centrada en el ámbito de las humanidades digitales, concretamente en líneas fundamentales como el diseño y la construcción de corpus, la incorporación de técnicas estadísticas en datos textuales de corte humanístico, el análisis estilométrico y la atribución de autoría, entre otras citadas en su página web[1]. The Novel in the Spanish Silver Age. A Digital Analysis of Genre Using Machine Learning es una publicación fruto de su labor investigadora y derivada de su tesis doctoral, defendida en 2021. Este trabajo se distingue por combinar técnicas de vanguardia propias de la lingüística de corpus y computacional para el abordaje del género literario en el contexto de las humanidades digitales, ya que este constituye uno de los tres metadatos por excelencia a la hora de considerar variables para la construcción de corpus especializados de tipo literario, junto con autoría y periodo. El género, no obstante, es el metadato y/o la variable de estudio más compleja, ya que las líneas divisorias entre distintos géneros y subgéneros tienden a ser difusas.
Precisamente ese es el punto de partida de esta obra, puesto que la conceptualización del género y su delimitación en un contexto de extensa producción de obras literarias representan un desafío central para cualquier humanista digital. Este libro tiene como objetivo llenar esa laguna existente en el ámbito especializado de las humanidades digitales: la creación de un modelo teórico-computacional para el género que permita descubrir y cuantificar similitudes entre géneros e identificar macro-géneros literarios; en este sentido, «subgenres would be better described in groups of subgenres or macro-subgenres» (268). Para definir este modelo, el autor emplea una metodología inductiva, sumergiéndose en las complejidades del género literario en la Edad de Plata española. A partir de las conclusiones derivadas de un análisis computacional del corpus CoNSSA, construye un modelo que responde a las necesidades de una época tan prolífica como la Edad de Plata.
En la introducción se plantean unos objetivos que determinan la estructura del libro, organizado en diez capítulos, incluyendo introducción, referencias y un epígrafe conclusivo en el que se presentan veintisiete subgéneros de la novela acompañados de aspectos semánticos distintivos, características textuales y literarias, la cantidad de textos en el corpus, su representación y su similitud con otros subgéneros en términos de características y etiquetas. Los objetivos que se plantean en la introducción son los siguientes:
(1) |
resolver el problema de la representatividad de un corpus literario de la Edad de Plata, cuestión que ocupa el tercer capítulo del libro, en el que se presenta un método para conseguir un corpus estadísticamente representativo y que cumpla con criterios propiamente literarios, siguiendo aquellos fijados por manuales de literatura; |
(2) |
definir una amplia paleta de géneros y sus fuentes, cuestionando la autoridad exclusiva del autor y considerando la validez de agentes externos y contemporáneos (i. e., casas editoriales, lectores, investigadores, bibliotecas, librerías, etc.), partiendo de la hipótesis de que existe un acuerdo entre agentes sobre la asignación de géneros, cuestiones que se tratan en el quinto capítulo; |
(3) |
descubrir subgéneros ocultos e inadvertidos, más allá de los canónicamente establecidos, mediante algoritmos de aprendizaje no supervisados o técnicas de clustering, una tarea que ocupa el sexto capítulo, y |
(4) |
aplicar algoritmos supervisados o de clasificación a las categorías del género, un objetivo que abarca los capítulos séptimo y octavo. |
Tras unos capítulos introductorios que sitúan al lector en la llamada Edad de Plata (elegido por la complejidad que supone la delimitación del género literario de la novela en un periodo caracterizado por la proliferación de categorías o etiquetas de género demasiado específicas) y que tratan de delimitar los géneros y subgéneros de la novela, el autor pasa a realizar una revisión de la teoría del género desde el estructuralismo, la teoría de prototipos, las relaciones de parentesco, etc., para introducir lo que él mismo denomina macro-modelos del género, unificando aspectos de estos modelos abstractos y distinguiendo entre:
(1) |
unas taxonomías que organizan los géneros en estructuras arbóreas con ramificaciones y nodos donde se dan relaciones de hiperonimia-hiponimia, en el sentido de que cada género pertenece a un género mayor; es decir, existen unos archigéneros de los que parten géneros cada vez más concretos; |
(2) |
un macro-modelo plano, referido a una tarea de clasificación multi-etiqueta en el que a cada texto se le asigna una o más etiquetas sin tener en cuenta la proximidad o distancia entre géneros, y |
(3) |
un macro-modelo gradual, que introduce la idea de relaciones de gradación entre géneros. |
De vital importancia son los capítulos del tercero al sexto, pues en ellos se abordan cuestiones metodológicas esenciales en un proyecto de humanidades digitales. Posiblemente el aporte más destacado de este volumen —junto con el modelo computacional del género— sea la creación del Corpus of Novels of the Spanish Silver Age (CoNSSA), uno de los mayores corpus de literatura española, que contiene hasta 358 obras narrativas de autores españoles entre 1880 y 1939, codificado en formato XML-TEI (Capítulo 3), enriquecido manualmente con metadatos literarios (p. ej., metadatos del autor y metadatos del texto —género literario, protagonista, lugar de la acción, narrador, etc.—) y anotado automáticamente según diversas capas lingüísticas: una capa léxica, una capa gramatical, una capa semántica —utilizando recursos lingüísticos que van más allá de las clásicas herramientas lingüísticas para el procesamiento del lenguaje natural, como la base de datos léxica WordNet o los catálogos del DUE de María Moliner—, una capa pragmática y otra capa textual (Capítulo 4). Las bases metodológicas para su diseño y construcción (98) resultan de gran utilidad dada la escasa literatura científica respecto a este tema, así como su disponibilidad en acceso abierto, una decisión poco frecuente en el ámbito humanístico hispanoparlante.
Una vez presentado el corpus CoNSSA, se expone la formalización de los distintos modelos de subgéneros en tareas computacionales de aprendizaje supervisado con el fin de evaluar las ventajas y desventajas de cada modelo, explorando la relación entre textos, subgéneros y rasgos. Los resultados de la clasificación no son perfectos, pues algunos subgéneros de la novela cuentan con rasgos distintivos más prominentes que otros; sin embargo, en palabras del propio autor, «having a single, formalized model for genre which can be visually plotted can help to explain several characteristics of the complex system of genres in one specific period and language» (403). De este minucioso estudio derivan conclusiones (371-372) como que
(1) |
un texto puede pertenecer a un número ilimitado de géneros o incluso a ninguno (p. ej., Zalacaín el aventurero como novela de aventura, histórica y bélica); |
(2) |
hay géneros que son más similares entre sí que con respecto a otros porque cuentan con rasgos y particularidades compartidas (p. ej., novela histórica, bélica y de aventuras); |
(3) |
hay textos que resultan más prototípicamente representativos de un género que otros (p. ej., Los pazos de Ulloa como la novela más prototípicamente naturalista), o que |
(4) |
los textos pueden describirse y ser clasificados según sus rasgos internos, bien sean de naturaleza lingüística (p. ej., el uso de vocabulario sobre sentimientos y emociones en la novela poética), literaria (p. ej., el tipo de protagonista) o una combinación de ambos. |
José Calvo Tello acaba por formalizar estas y más cuestiones en un modelo teórico-computacional del género que representa explícitamente todas estas observaciones. Este modelo es tripartito, en el sentido de que se dan tres categorías de nodos: categorías-etiquetas (subgéneros), características (lingüísticas y literarias) e instancias (textos). Estos nodos pueden conectarse entre sí, permitiendo relaciones flexibles entre etiquetas y textos, textos y rasgos, y etiquetas y rasgos (p. ej., un texto puede conectarse con un número ilimitado de subgéneros y, a su vez, un rasgo lingüístico puede describir a un número ilimitado de textos). Las conexiones están ponderadas: reflejan la especificidad de los rasgos para los textos y subgéneros, así como la proporción de fuentes que asocian un texto a un subgénero específico.
Si volvemos a las cuestiones planteadas en la introducción, podemos afirmar que las conclusiones de la investigación ratifican la consecución de los objetivos delineados por el autor, destacando la implementación de enfoques interdisciplinares y métodos digitales innovadores para abordar cuestiones fundamentales en el análisis de género literario. En definitiva, un trabajo de esta envergadura resulta de suma utilidad en un momento marcado por el auge de las humanidades digitales, especialmente en el ámbito académico hispanoparlante, puesto que las innovaciones metodológicas y la formulación de modelos y marcos teóricos tienden a originarse, por lo general, en el ámbito anglosajón.
Este estudio se distingue como un proyecto puramente interdisciplinar al integrar técnicas de corpus y computacionales enfocadas en análisis de un corpus literario. Al abordar temas fundamentales como la construcción de corpus y la representatividad, ofrece un enfoque integral que trasciende los límites convencionales de la investigación literaria, un aspecto que convierte a The Novel in the Spanish Silver Age. A Digital Analysis of Genre Using Machine Learning en una obra de una elevada calidad didáctica, no solo para aquellos investigadores que tímidamente se aventuran en el estudio computacional del género literario, sino para los humanistas digitales en general. Se trata de un trabajo que cumple con creces lo que se espera de un proyecto de estas características, sobre todo considerando la gran cantidad de datos en acceso abierto[2] que el investigador pone a disposición de otros investigadores para su réplica en trabajos futuros. Son las obras de referencia de esta índole, con un riguroso enfoque metodológico, las que auguran un porvenir prolífico y prometedor para el desarrollo de las humanidades digitales.