Un modelo HTR para incunables castellanos
DOI:
https://doi.org/10.12795/PH.2025.v39.i02.06Palabras clave:
incunables españoles, reconocimiento automático de texto (HTR), facsímil digital, Transkribus, edición digital, humanidades digitalesResumen
Este artículo estudia la aplicación de modelos de reconocimiento automático de texto (HTR) a incunables castellanos. En la primera sección, realizamos un repaso metodológico sobre las características y capacidades actuales de las plataformas de HTR disponibles, acompañado de una discusión metodológica sobre los distintos sistemas de transcripción disponibles y una explicación del flujo de trabajo para entrenar un modelo HTR en la plataforma Transkribus. En la segunda parte, describimos el entrenamiento y validación del modelo HTR Spanish Gothic Incunabula (HSMS), desarrollado para transcribir incunables castellanos con una tasa de error inferior al 1%.
Descargas
Citas
Bazzaco, S. (2020). El reconocimiento automático de textos en letra gótica del Siglo de Oro: Creación de un modelo HTR basado en libros de caballerías del siglo xvi en la plataforma Transkribus. Janus, (9), 534-561. http://hdl.handle.net/2183/27389 https://doi.org/10.17979/janus.2020.0.09.10398
Bazzaco, S. (2024). Revolucionar el acceso al patrimonio librario: Los sistemas de HTR entre humanidades y ciencias de la información. Philologia Hispalensis, 38(2), 59-77. https://doi.org/10.12795/PH.2024.v38.i02.03
Bermúdez Sabel, H. (2022). L’édition numérique au service de la philologie matérielle. Modèles de la lyrique galégo-portugaise. Arquivo Galicia Medieval, 5, 11-30. https://libra.unine.ch/handle/123456789/30074
Buelow, K. y Mackenzie, D. (1977). A Manual of Manuscript Transcription for the Dictionary of Old Spanish Language. Hispanic Seminary of Medieval Studies.
Camero Santos, E. (2024). Post-incunables e IA: la transcripción automática de un ejemplar de la edición de 1528 de las Partidas y su posterior tratamiento. En M. J. Lop Otín, D. Igual Luis y J. Pérez Burgueño (Eds.), Alfonso X: el universo político y cultural de un reinado (pp. 191-198). Universidad de Castilla-La Mancha.
Camps, J.-B. (2017). La Chanson d’Otinel. Édition complète du corpus manuscrit et prolégomènes à l’édition critique, thèse de doctorat préparée sous la direction de M. Dominique Boutet, soutenue le 3 décembre 2016 à l’université Paris-Sorbonne. Perspectives médiévales, (38). https://doi.org/10.4000/peme.13004
Camps, J. B. (2021). La Philologie computationnelle à l’École des chartes. Premier bilan et perspectives. Bibliothèque de l’École des chartes, 176, 1-24. https://enc.hal.science/hal-03716538v1
Catach, N. (1990). Französisch: Graphetik und Graphemic. En G. Holtus, M. Metzeltin y Ch. Schmitt (Eds.), Lexikon der Romanistischen Linguistik. Vol. I/1: Geschichte des Faches Romanistik. Methodologie (Das Sprachsystem) (pp. 46-58). De Gruyter.
Causer, T., Grint, K., Sichani, A. y Terra, M. (2018). ‘Making Such Bargain’: Transcribe Bentham and the Quality and Cost-Effectiveness of Crowdsourced Transcription. Digital Scholarship in the Humanities, 33(3), 467-487. https://doi.org/10.1093/llc/fqx064
Chagué, A. y Clérice, T. (2023). Deploying eScriptorium Online: Notes on CREMMA’s Server Specifications. A Research (B)log. https://inria.hal.science/hal-04362085v1
Ciula, A. (2009). The Paleographical Method Under the Light of a Digital Approach. En M. Rehbein, P. Sahle y T. Schaßan (Eds.), Kodikologie und Paläographie in Digitalen Zeitalter (pp. 219-235). Books on Demand.
Clérice, T., Vlachou-Efstathiou, M. y Chagué, A. (2023). CREMMA Medii Aevi: Literary Manuscript Text Recognition in Latin. Journal of Open Humanities Data, 9(4), 1-19. https://doi.org/10.5334/johd.97
Donaldson, P. (1997). Shakespeare and Electronic Textuality. En K. Sutherland (Ed.), Electronic Text: Investigations in Method and Theory (pp. 173-198). Clarendon Press. https://doi.org/10.1093/acprof:oso/9780198236634.003.0008
Ducamin, J. (Ed.). (1901). Juan Ruiz, Arcipreste de Hita, Libro de buen amor. Texte du XIVe siècle publié pour la première fois avec les leçons des trois manuscrits connus. Privat.
Fafinski, M. (2022). Facsimile Narratives: Researching the Past in the Age of Digital Reproduction. Digital Scholarship in the Humanities, 37(1), 94-108. https://doi.org/10.1093/llc/fqab017
Faulhaber, C. B. (Dir.). (1997). Bibliografía española de textos antiguos [BETA]. The Bancroft Library. University of California, Berkeley. https://philobiblon.upf.edu/html/beta_en.html
Faulhaber, C. y Marcos Marín, F. (1990). ADMYTE: Archivo digital de manuscritos y textos españoles. La Corónica, 18(2), 131-145.
Fradejas Rueda, J. M. (1991). Introducción a la edición de textos medievales castellanos. UNED.
Fradejas Rueda, J. M. (2019). López 1555. 7PartidasDigital. https://doi.org/10.58079/agq5
Fradejas Rueda, J. M. (2021). Las Siete Partidas: del pergamino a la red. En M. Albert, U. Becker y E. Schmidt (Eds.), Conceptualización y normalización de poder y señorío en la era de Alfonso X. Las Siete Partidas y su contribución a la constitución teórica de la monarquía (pp. 223-264). Bonn University Press.
Fradejas Rueda, J. M. (2022). Francisco de Velasco, segundo editor de las Siete Partidas. Temas Medievales, 30(1), 1-17.
Fradejas Rueda, J. M. (2023). Ex cenobio Sancti Ysidori Legionensis usque ad Bibliothecam Regiam Belgicam: De partidas, cronicones y sermones romances. Incipit, 43, 15-38. https://doi.org/10.5281/zenodo.10443037
Fradejas Rueda, J. M. (2024). Las ediciones históricas de las Siete Partidas: Alonso Díaz de Montalvo y Francisco de Velasco. En M. J. Lop Otín, D. Igual Luis y J. Pérez Burgueño (Eds.), Alfonso X: el universo político y cultural de un reinado (pp. 145-158). Universidad de Castilla-La Mancha.
Fradejas Rueda, J. M. (2025). . Journal of the Text Encoding Initiative, Selected Papers from the 2024 TEI Conference (en prensa).
Gago Jover, F. y Pueyo Mena, F. (2018a). El Old Spanish Textual Archive. Diseño y desarrollo de un corpus de textos medievales: lematización y etiquetado gramatical. Scriptum digital, 7, 25-35. https://raco.cat/index.php/scriptumdigital/article/view/343462
Gago Jover, F. y Pueyo Mena, F. (2018b). El Old Spanish Textual Archive. Diseño y desarrollo de un corpus de textos medievales: el corpus textual. Cuadernos del Instituto Historia de la lengua, (11), 165-209. https://doi.org/10.58576/cilengua.vi11.54
Gago Jover, F. y Pueyo Mena, F. (2020). Old Spanish Textual Archive. Hispanic Seminary of Medieval Studies. http://osta.oldspanishtextualarchive.org
Gille Levenson, M. (2023a). Towards a General Open Dataset and Model for Late Medieval Castilian Text Recognition (HTR/OCR). Journal of Data Mining and Digital Humanities. https://doi.org/10.46298/jdmdh.10416
Gille Levenson, M. (2023b). Towards a General Open Dataset and Model for Late Medieval Castilian Text Recognition (HTR/OCR). Datasets and Scripts (Version 2) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.8406222
Guéville, E. y Wrisley, D. J. (2024). Transcribing Medieval Manuscripts for Machine Learning. Journal of Data Mining and Digital Humanities. https://doi.org/10.46298/jdmdh.9805
Haugen, O. E. (2004). Parallel Views: Multi-Level Encoding of Medieval Nordic Primary Sources. Literary and Linguistic Computing, 19(1), 73-91. https://doi.org/10.1093/llc/19.1.73
Haugen, O. E. (2006). On the Diplomatic Turn in Editorial Philology. En J. McKinnell, D. Ashurst y D. Kick (Eds.), The Fantastic in Old Norse/Icelandic Literature. Sagas and the British Isles. Preprint Papers of the Thirteenth International Saga Conference, Durham and York 6th–12th August, 2006 (pp. 340-349). University of Durham.
Kahle, P., Colutto, S., Hackl, G. y Mühlberger, G. (2017). Transkribus. A Service Platform for Transcription, Recognition and Retrieval of Historical Documents. En 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR) (pp. 19-24). https://doi.org/10.1109/ICDAR.2017.307
Kiessling, B., Tissot, R., Stokes, P. y Stökl Ben Ezra, D. (2019), eScriptorium: An Open Source Platform for Historical Document Analysis. 2019 International Conference on Document Analysis and Recognition Workshops (ICDARW). https://doi.org/10.1109/ICDARW.2019.10032
Lucía Megías, J. M. (2002). Literatura románica en Internet. Los textos. Castalia.
Mackenzie, D. (1994). Problemas de transcripción textual electrónica. En Actas del congreso de la lengua española (pp. 341-344). Instituto Cervantes.
Mancinelli, T. (2016). Early Printed Edition and OCR Techniques: What is the State-of-the-Art? Strategies to Be Developed from the Working-Progress Mambrino Project Work. Historias fingidas, (4), 255-260. https://historiasfingidas.dlls.univr.it/article/view/65/104
Mancinelli, T. y Pierazzo, E. (2020). Che cos’è un’edizione scientifica digitale. Carocci.
Marcos Marín, F. (1994). Informática y humanidades. Gredos.
Martín Abad, J. y Moyano Andrés, I. (2002). Estanislao Polono. Universidad de Alcalá de Henares.
Menéndez Pidal, R. (1901), Reseña del libro: «Juan Ruiz, Arcipreste de Hita, Libro de buen amor» [reseña del libro Juan Ruiz, Arcipreste de Hita, Libro de buen amor de J. Ducamin]. Romania, 30(118-119), 434-440. https://www.persee.fr/doc/roma_0035-8029_1901_num_30_118_5215_t1_0434_0000_2
Nitti, J. (1978). Computers and the Old Spanish Dictionary. Computers and the Humanities, 12(1-2), 43-52. https://doi.org/10.1007/BF02392915
Nockels, J., Gooding, P. y Terras, M. (2024). Are Digital Humanities Platforms Facilitating Sufficient Diversity in Research? A Study of the Transkribus Scholarship Programme. Digital Scholarship in the Humanities, 40(Supplement 1) (i46–i65). https://doi.org/10.1093/llc/fqae018
Ooms, J. (2024a). magick: Advanced Graphics and Image-Processing in R. https://CRAN.R-project.org/package=magick
Ooms, J. (2024b). pdftools: Text Extraction, Rendering and Converting of PDF Documents. https://CRAN.R-project.org/package=pdftools
Orduna, G. (1994). La edición de textos históricos. En Actas del congreso de la lengua española (pp. 611-619). Instituto Cervantes.
Pierazzo, E. (2015). Digital Scholarly Editing: Theories, Models, and Methods. Routledge.
Reyes Gómez, F. (Ed.). (2004). Sinodal de Aguilafuente. Fundación Instituto Castellano y Leonés de la Lengua.
Robinson, P. M. W. (1989). The Collation and Textual Criticism of Icelandic Manuscripts (1): Collation. Literary and Linguistic Computing, 4(2), 99-105. https://doi.org/10.1093/llc/4.2.99
Robinson, P. y Solopova, E. (1993). Guidelines for Transcription of the Manuscripts of the Wife of Bath’s Prologue. En N. F. Blake y P. Robinson (Eds.), The Canterbury Project Occasional Papers (pp. 19-52). Office for Humanities Communication. https://doi.org/10.5281/zenodo.11954056
Rodríguez Díaz, E. (2024). Elementos para fechar los códices castellanos y leoneses según los manuscritos datados (ss. xii y xiii). En Á. Romero Cambrón (Ed.), La ley de los godos: estudios selectos (pp. 125-229). Peter Lang.
Sánchez-Prieto Borja, P. (1998). Cómo editar textos medievales. Criterios para su presentación gráfica. Arco/Libros.
Sánchez-Prieto Borja, P. (2011). La edición de textos medievales y clásicos. Criterios de presentación gráfica. Cilengua.
Strauß, T., Weidemann, M. y Labahn, R. (2017). D7.11 Language Models. Improving Transcriptions by External Language Resources. En Recognition and Enrichment of Archival Documents. https://readcoop.eu/wp-content/uploads/2017/12/D7.11_final.pdf
Tenenbaum, F. (2000-2001). El sistema de transcripción del Hispanic Seminary of Medieval Studies (Madison, Wisconsin). Incipit, 20-21, 153-168.
Terras, M., Anzinger, B., Gooding, P., Mühlberger, G., Nockels, J., Romein, C., Stauder, A. y Stauder, F. (2025). The Artificial Intelligence Cooperative: READ-COOP, Transkribus, and the Benefits of Shared Community Infrastructure for Automated Text Recognition [version 1; awaiting peer review]. Open Research Europe, 5(16). Advance online publication. https://doi.org/10.12688/openreseurope.18747.1
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2025 José Manuel FRADEJAS RUEDA, Mario Cossío Olavide

Esta obra está bajo una licencia internacional Creative Commons Atribución-SinDerivadas 4.0.
Las ediciones impresa y electrónica de esta Revista son editadas por la Editorial Universidad de Sevilla, siendo necesario citar la procedencia en cualquier reproducción parcial o total.
Salvo indicación contraria, todos los contenidos de la edición electrónica se distribuyen bajo una licencia de uso y distribución “Creative Commons Atribución-NoComercial-SinDerivar 4.0 Internacional”
. Puede consultar desde aquí la versión informativa y el texto legal de la licencia. Esta circunstancia ha de hacerse constar expresamente de esta forma cuando sea necesario.
Los autores/as que publiquen en esta revista aceptan las siguientes condiciones:
- Los autores/as conservan los derechos de autor y ceden a la revista el derecho de la primera publicación, y consienten en que se distribuya con una licencia Creative Commons By NC ND 4.0, que permite a terceros utilizar lo publicado siempre que mencionen la autoría del trabajo y a la primera publicación en esta revista, no se haga uso comercial y se reutilice de igual forma."
- Los autores/as pueden realizar otros acuerdos contractuales independientes y adicionales para la distribución no exclusiva de la versión del artículo publicado en esta revista (p. ej., incluirlo en un repositorio institucional o publicarlo en un libro) siempre que indiquen claramente que el trabajo se publicó por primera vez en esta revista.
- Se permite y recomienda a los autores/as que una vez publicado el artículo en la revista Philologia Hispalensis (versión online) se descarguen el PDF correspondiente y lo difundan por internet (ResearchGate, Academia.edu, etc.) ya que puede conducir a intercambios científicos productivos y a una mayor y más rápida difusión del trabajo publicado (vea The Effect of Open Access).






