Un modelo HTR para incunables castellanos

Autores/as

DOI:

https://doi.org/10.12795/PH.2025.v39.i02.06

Palabras clave:

incunables españoles, reconocimiento automático de texto (HTR), facsímil digital, Transkribus, edición digital, humanidades digitales

Resumen

Este artículo estudia la aplicación de modelos de reconocimiento automático de texto (HTR) a incunables castellanos. En la primera sección, realizamos un repaso metodológico sobre las características y capacidades actuales de las plataformas de HTR disponibles, acompañado de una discusión metodológica sobre los distintos sistemas de transcripción disponibles y una explicación del flujo de trabajo para entrenar un modelo HTR en la plataforma Transkribus. En la segunda parte, describimos el entrenamiento y validación del modelo HTR Spanish Gothic Incunabula (HSMS), desarrollado para transcribir incunables castellanos con una tasa de error inferior al 1%.

Descargas

Los datos de descargas todavía no están disponibles.

Citas

Bazzaco, S. (2020). El reconocimiento automático de textos en letra gótica del Siglo de Oro: Creación de un modelo HTR basado en libros de caballerías del siglo xvi en la plataforma Transkribus. Janus, (9), 534-561. http://hdl.handle.net/2183/27389 https://doi.org/10.17979/janus.2020.0.09.10398

Bazzaco, S. (2024). Revolucionar el acceso al patrimonio librario: Los sistemas de HTR entre humanidades y ciencias de la información. Philologia Hispalensis, 38(2), 59-77. https://doi.org/10.12795/PH.2024.v38.i02.03

Bermúdez Sabel, H. (2022). L’édition numérique au service de la philologie matérielle. Modèles de la lyrique galégo-portugaise. Arquivo Galicia Medieval, 5, 11-30. https://libra.unine.ch/handle/123456789/30074

Buelow, K. y Mackenzie, D. (1977). A Manual of Manuscript Transcription for the Dictionary of Old Spanish Language. Hispanic Seminary of Medieval Studies.

Camero Santos, E. (2024). Post-incunables e IA: la transcripción automática de un ejemplar de la edición de 1528 de las Partidas y su posterior tratamiento. En M. J. Lop Otín, D. Igual Luis y J. Pérez Burgueño (Eds.), Alfonso X: el universo político y cultural de un reinado (pp. 191-198). Universidad de Castilla-La Mancha.

Camps, J.-B. (2017). La Chanson d’Otinel. Édition complète du corpus manuscrit et prolégomènes à l’édition critique, thèse de doctorat préparée sous la direction de M. Dominique Boutet, soutenue le 3 décembre 2016 à l’université Paris-Sorbonne. Perspectives médiévales, (38). https://doi.org/10.4000/peme.13004

Camps, J. B. (2021). La Philologie computationnelle à l’École des chartes. Premier bilan et perspectives. Bibliothèque de l’École des chartes, 176, 1-24. https://enc.hal.science/hal-03716538v1

Catach, N. (1990). Französisch: Graphetik und Graphemic. En G. Holtus, M. Metzeltin y Ch. Schmitt (Eds.), Lexikon der Romanistischen Linguistik. Vol. I/1: Geschichte des Faches Romanistik. Methodologie (Das Sprachsystem) (pp. 46-58). De Gruyter.

Causer, T., Grint, K., Sichani, A. y Terra, M. (2018). ‘Making Such Bargain’: Transcribe Bentham and the Quality and Cost-Effectiveness of Crowdsourced Transcription. Digital Scholarship in the Humanities, 33(3), 467-487. https://doi.org/10.1093/llc/fqx064

Chagué, A. y Clérice, T. (2023). Deploying eScriptorium Online: Notes on CREMMA’s Server Specifications. A Research (B)log. https://inria.hal.science/hal-04362085v1

Ciula, A. (2009). The Paleographical Method Under the Light of a Digital Approach. En M. Rehbein, P. Sahle y T. Schaßan (Eds.), Kodikologie und Paläographie in Digitalen Zeitalter (pp. 219-235). Books on Demand.

Clérice, T., Vlachou-Efstathiou, M. y Chagué, A. (2023). CREMMA Medii Aevi: Literary Manuscript Text Recognition in Latin. Journal of Open Humanities Data, 9(4), 1-19. https://doi.org/10.5334/johd.97

Donaldson, P. (1997). Shakespeare and Electronic Textuality. En K. Sutherland (Ed.), Electronic Text: Investigations in Method and Theory (pp. 173-198). Clarendon Press. https://doi.org/10.1093/acprof:oso/9780198236634.003.0008

Ducamin, J. (Ed.). (1901). Juan Ruiz, Arcipreste de Hita, Libro de buen amor. Texte du XIVe siècle publié pour la première fois avec les leçons des trois manuscrits connus. Privat.

Fafinski, M. (2022). Facsimile Narratives: Researching the Past in the Age of Digital Reproduction. Digital Scholarship in the Humanities, 37(1), 94-108. https://doi.org/10.1093/llc/fqab017

Faulhaber, C. B. (Dir.). (1997). Bibliografía española de textos antiguos [BETA]. The Bancroft Library. University of California, Berkeley. https://philobiblon.upf.edu/html/beta_en.html

Faulhaber, C. y Marcos Marín, F. (1990). ADMYTE: Archivo digital de manuscritos y textos españoles. La Corónica, 18(2), 131-145.

Fradejas Rueda, J. M. (1991). Introducción a la edición de textos medievales castellanos. UNED.

Fradejas Rueda, J. M. (2019). López 1555. 7PartidasDigital. https://doi.org/10.58079/agq5

Fradejas Rueda, J. M. (2021). Las Siete Partidas: del pergamino a la red. En M. Albert, U. Becker y E. Schmidt (Eds.), Conceptualización y normalización de poder y señorío en la era de Alfonso X. Las Siete Partidas y su contribución a la constitución teórica de la monarquía (pp. 223-264). Bonn University Press.

Fradejas Rueda, J. M. (2022). Francisco de Velasco, segundo editor de las Siete Partidas. Temas Medievales, 30(1), 1-17.

Fradejas Rueda, J. M. (2023). Ex cenobio Sancti Ysidori Legionensis usque ad Bibliothecam Regiam Belgicam: De partidas, cronicones y sermones romances. Incipit, 43, 15-38. https://doi.org/10.5281/zenodo.10443037

Fradejas Rueda, J. M. (2024). Las ediciones históricas de las Siete Partidas: Alonso Díaz de Montalvo y Francisco de Velasco. En M. J. Lop Otín, D. Igual Luis y J. Pérez Burgueño (Eds.), Alfonso X: el universo político y cultural de un reinado (pp. 145-158). Universidad de Castilla-La Mancha.

Fradejas Rueda, J. M. (2025). . Journal of the Text Encoding Initiative, Selected Papers from the 2024 TEI Conference (en prensa).

Gago Jover, F. y Pueyo Mena, F. (2018a). El Old Spanish Textual Archive. Diseño y desarrollo de un corpus de textos medievales: lematización y etiquetado gramatical. Scriptum digital, 7, 25-35. https://raco.cat/index.php/scriptumdigital/article/view/343462

Gago Jover, F. y Pueyo Mena, F. (2018b). El Old Spanish Textual Archive. Diseño y desarrollo de un corpus de textos medievales: el corpus textual. Cuadernos del Instituto Historia de la lengua, (11), 165-209. https://doi.org/10.58576/cilengua.vi11.54

Gago Jover, F. y Pueyo Mena, F. (2020). Old Spanish Textual Archive. Hispanic Seminary of Medieval Studies. http://osta.oldspanishtextualarchive.org

Gille Levenson, M. (2023a). Towards a General Open Dataset and Model for Late Medieval Castilian Text Recognition (HTR/OCR). Journal of Data Mining and Digital Humanities. https://doi.org/10.46298/jdmdh.10416

Gille Levenson, M. (2023b). Towards a General Open Dataset and Model for Late Medieval Castilian Text Recognition (HTR/OCR). Datasets and Scripts (Version 2) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.8406222

Guéville, E. y Wrisley, D. J. (2024). Transcribing Medieval Manuscripts for Machine Learning. Journal of Data Mining and Digital Humanities. https://doi.org/10.46298/jdmdh.9805

Haugen, O. E. (2004). Parallel Views: Multi-Level Encoding of Medieval Nordic Primary Sources. Literary and Linguistic Computing, 19(1), 73-91. https://doi.org/10.1093/llc/19.1.73

Haugen, O. E. (2006). On the Diplomatic Turn in Editorial Philology. En J. McKinnell, D. Ashurst y D. Kick (Eds.), The Fantastic in Old Norse/Icelandic Literature. Sagas and the British Isles. Preprint Papers of the Thirteenth International Saga Conference, Durham and York 6th–12th August, 2006 (pp. 340-349). University of Durham.

Kahle, P., Colutto, S., Hackl, G. y Mühlberger, G. (2017). Transkribus. A Service Platform for Transcription, Recognition and Retrieval of Historical Documents. En 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR) (pp. 19-24). https://doi.org/10.1109/ICDAR.2017.307

Kiessling, B., Tissot, R., Stokes, P. y Stökl Ben Ezra, D. (2019), eScriptorium: An Open Source Platform for Historical Document Analysis. 2019 International Conference on Document Analysis and Recognition Workshops (ICDARW). https://doi.org/10.1109/ICDARW.2019.10032

Lucía Megías, J. M. (2002). Literatura románica en Internet. Los textos. Castalia.

Mackenzie, D. (1994). Problemas de transcripción textual electrónica. En Actas del congreso de la lengua española (pp. 341-344). Instituto Cervantes.

Mancinelli, T. (2016). Early Printed Edition and OCR Techniques: What is the State-of-the-Art? Strategies to Be Developed from the Working-Progress Mambrino Project Work. Historias fingidas, (4), 255-260. https://historiasfingidas.dlls.univr.it/article/view/65/104

Mancinelli, T. y Pierazzo, E. (2020). Che cos’è un’edizione scientifica digitale. Carocci.

Marcos Marín, F. (1994). Informática y humanidades. Gredos.

Martín Abad, J. y Moyano Andrés, I. (2002). Estanislao Polono. Universidad de Alcalá de Henares.

Menéndez Pidal, R. (1901), Reseña del libro: «Juan Ruiz, Arcipreste de Hita, Libro de buen amor» [reseña del libro Juan Ruiz, Arcipreste de Hita, Libro de buen amor de J. Ducamin]. Romania, 30(118-119), 434-440. https://www.persee.fr/doc/roma_0035-8029_1901_num_30_118_5215_t1_0434_0000_2

Nitti, J. (1978). Computers and the Old Spanish Dictionary. Computers and the Humanities, 12(1-2), 43-52. https://doi.org/10.1007/BF02392915

Nockels, J., Gooding, P. y Terras, M. (2024). Are Digital Humanities Platforms Facilitating Sufficient Diversity in Research? A Study of the Transkribus Scholarship Programme. Digital Scholarship in the Humanities, 40(Supplement 1) (i46–i65). https://doi.org/10.1093/llc/fqae018

Ooms, J. (2024a). magick: Advanced Graphics and Image-Processing in R. https://CRAN.R-project.org/package=magick

Ooms, J. (2024b). pdftools: Text Extraction, Rendering and Converting of PDF Documents. https://CRAN.R-project.org/package=pdftools

Orduna, G. (1994). La edición de textos históricos. En Actas del congreso de la lengua española (pp. 611-619). Instituto Cervantes.

Pierazzo, E. (2015). Digital Scholarly Editing: Theories, Models, and Methods. Routledge.

Reyes Gómez, F. (Ed.). (2004). Sinodal de Aguilafuente. Fundación Instituto Castellano y Leonés de la Lengua.

Robinson, P. M. W. (1989). The Collation and Textual Criticism of Icelandic Manuscripts (1): Collation. Literary and Linguistic Computing, 4(2), 99-105. https://doi.org/10.1093/llc/4.2.99

Robinson, P. y Solopova, E. (1993). Guidelines for Transcription of the Manuscripts of the Wife of Bath’s Prologue. En N. F. Blake y P. Robinson (Eds.), The Canterbury Project Occasional Papers (pp. 19-52). Office for Humanities Communication. https://doi.org/10.5281/zenodo.11954056

Rodríguez Díaz, E. (2024). Elementos para fechar los códices castellanos y leoneses según los manuscritos datados (ss. xii y xiii). En Á. Romero Cambrón (Ed.), La ley de los godos: estudios selectos (pp. 125-229). Peter Lang.

Sánchez-Prieto Borja, P. (1998). Cómo editar textos medievales. Criterios para su presentación gráfica. Arco/Libros.

Sánchez-Prieto Borja, P. (2011). La edición de textos medievales y clásicos. Criterios de presentación gráfica. Cilengua.

Strauß, T., Weidemann, M. y Labahn, R. (2017). D7.11 Language Models. Improving Transcriptions by External Language Resources. En Recognition and Enrichment of Archival Documents. https://readcoop.eu/wp-content/uploads/2017/12/D7.11_final.pdf

Tenenbaum, F. (2000-2001). El sistema de transcripción del Hispanic Seminary of Medieval Studies (Madison, Wisconsin). Incipit, 20-21, 153-168.

Terras, M., Anzinger, B., Gooding, P., Mühlberger, G., Nockels, J., Romein, C., Stauder, A. y Stauder, F. (2025). The Artificial Intelligence Cooperative: READ-COOP, Transkribus, and the Benefits of Shared Community Infrastructure for Automated Text Recognition [version 1; awaiting peer review]. Open Research Europe, 5(16). Advance online publication. https://doi.org/10.12688/openreseurope.18747.1

Publicado

2025-12-01

Cómo citar

Fradejas Rueda, J. M., & Cossío Olavide, M. (2025). Un modelo HTR para incunables castellanos. Philologia Hispalensis, 39(2), 131–177. https://doi.org/10.12795/PH.2025.v39.i02.06

Número

Sección

Sección Monográfica