Revolucionar el acceso al patrimonio librario: los sistemas de HTR entre humanidades digitales y ciencia de la información
DOI:
https://doi.org/10.12795/PH.2024.v38.i02.03Palabras clave:
Handwritten Text Recognition (HTR), modelos mixtos, Progetto Mambrino, ciencia de la información, edición digital académicaResumen
El presente trabajo busca ofrecer un estado de la cuestión sobre los recientes desarrollos en el campo de la transcripción automática de impresos antiguos y manuscritos con sistemas de HTR (Handwritten Text Recognition), fijando la atención prioritariamente en la creación reciente de modelos de HTR mixtos. Al respecto se explican las características principales de las herramientas más difundidas y el flujo de trabajo para la generación de modelos de reconocimiento de texto. En segundo lugar, se proporciona una muestra significativa de los modelos disponibles en la actualidad, insistiendo en el proceso de producción, los criterios adoptados y la evaluación de los resultados en relación con la experiencia madurada por el grupo de investigación Progetto Mambrino de la Universidad de Verona. Finalmente se proporcionan unas futuras pistas de investigación para la creación y difusión de estos recursos, haciendo hincapié en la necesidad de buscar una mayor sinergia entre contexto académico, expertos informáticos e instituciones de la memoria.
Descargas
Citas
Allés Torrent, S. (2020). Crítica textual y edición digital o ¿dónde está la crítica en las ediciones digitales?. Studia Aurea: revista de literatura española y teoría literaria del Renacimiento y Siglo de Oro, 14, 63-98. https://doi.org/10.5565/rev/studiaaurea.395
Alvite-Díez, M. L. y Barrionuevo, L. (2020). Confluence between library and information science and digital humanities in Spain. Methodologies, standards and collections. The Journal of Documentation, 77(1), 41-68. https://doi.org/10.1108/JD-02-2020-0030
Alvite-Díez, M. L. y Rojas-Castro, A. (2022). Ediciones digitales académicas: Concepto, estándares de calidad y software de publicación. El Profesional de la Información, 31(2), 1-19. https://doi.org/10.3145/epi.2022.mar.16
Ball, R. y Parker, G. (Eds.). (2014). Cómo ser rey. Instrucciones del emperador Carlos V a su hijo Felipe. Mayo de 1543. CSA-The Hispanic Society of America.
Bazzaco, S. (2018). El Progetto Mambrino y las tecnologías OCR: estado de la cuestión. Historias Fingidas, (6), 257-272. https://doi.org/10.13136/2284-2667/89
Bazzaco, S. (2020). El reconocimiento automático de textos en letra gótica del Siglo de Oro: creación de un modelo HTR basado en libros de caballerías del siglo XVI en la plataforma Transkribus. Janus. Estudios sobre el Siglo de Oro, (9), 534-561. https://www.janusdigital.es/articulo.htm?id=160
Bazzaco, S., Jiménez Ruiz, A. M., Torralba Ruberte, A. y Martín Molares, M. (2022). Sistemas de reconocimiento de textos e impresos hispánicos de la Edad Moderna. La creación de unos modelos de HTR para la transcripción automatizada de documentos en gótica y redonda (s. XV-XVII). Historias Fingidas, (Número Especial 1), 67-125. https://doi.org/10.13136/2284-2667/1190
Bermúdez Carreño, J. (2023). Inteligencia artificial para la transcripción de letra itálica española del siglo XVIII: Transkribus como herramienta para las humanidades digitales. Revista De Humanidades Digitales, 8, 109-127. https://doi.org/10.5944/rhd.vol.8.2023.38111
Capurro, C., Provatorova, V. y Kanoulas, E. (2023). Experimenting with Training a Neural Network in Transkribus to Recognise Text in a Multilingual and Multi-Authored Manuscript Collection. Heritage, 6(12), 7482-7494. https://doi.org/10.3390/heritage6120392
Cordell, R. y Smith, D. (2018). A Research Agenda for Historical and Multilingual Optical Character Recognition. Northeastern University Library. http://hdl.handle.net/2047/D20297452
Cuéllar, Á. (2023). La Inteligencia Artificial al rescate del Siglo de Oro. Transcripción y modernización automática de mil trescientos impresos y manuscritos teatrales. Hipogrifo. Revista de literatura y cultura del Siglo de Oro, 11(1), 101-115. https://doi.org/10.13035/H.2023.11.01.08
Firmani, D., Maiorino, M., Merialdo, P. y Nieddu, E. (2018). Towards Knowledge Discovery from the Vatican Secret Archives. In Codice Ratio - Episode 1: Machine Transcription of the Manuscripts. En Association for Computing Machinery (Ed.), Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (pp. 263-272). Association for Computing Machinery. https://doi.org/10.1145/3219819.3219879
Fradejas Rueda, J. M. (2022). De editor analógico a editor digital. Historias Fingidas, (Número Especial 1), 39-65. https://doi.org/10.13136/2284-2667/1108
García-Reidy, A. (2019). Deconstructing the Authorship of Siempre ayuda la verdad: A Play by Lope de Vega?. Neophilologus, 103(4), 493-510. https://doi.org/10.1007/s11061-019-09607-8
Gille Levenson, M. (2023). Towards a general open dataset and models for late medieval Castilian text recognition (HTR/OCR). Journal of Data Mining and Digital Humanities. Special Issue: Historical documents and automatic text recognition. https://doi.org/10.46298/jdmdh.10416
Hodel, T., Schoch, D., Schneider, C. y Purcell, J. (2021). General Models for Handwritten Text Recognition: Feasibility and State-of-the Art. German Kurrent as an Example. Journal of Open Humanities Data, 7(13), 1-10. https://doi.org/10.5334/johd.46
Kroll, S. y Sanz-Lázaro, F. (2022). Romances teatrales entre Mira de Amescua, Calderón y Lope, ritmo, asonancia y cuestiones de autoría. Revista de Humanidades Digitales, 7, 1-18. https://doi.org/10.5944/rhd.vol.7.2022.31620
Liceras Garrido, R., Comino, A. y Murrieta Flores, P. (2022). Mujeres en el Catálogo Monumental de España: Discursos arqueológicos sobre Prehistoria y Edad del Hierro en las provincias de Ávila, Soria y Burgos. Complutum, 33(1), 269-288. https://doi.org/10.5209/cmpl.80895
Mancinelli, T. (2016). Early printed edition and OCR techniques: what is the state-of-art? Strategies to be developed from the working-progress Mambrino project work. Historias Fingidas, (4), 255-260. https://doi.org/10.13136/2284-2667/65
Menta, A., Sánchez-Salido, E. y García-Serrano, A. (2022). Transcripción de periódicos históricos: Aproximación CLARA-HD. En M. Á. Alonso, M. Alonso-Ramos, C. Gómez Rodríguez, D. Vilares Calvo y J. Vilares (Eds.), Proceedings of the Annual Conference of the Spanish Association for Natural Language Processing 2022: Projects and Demonstrations SEPLN-PD 2022. (pp. 70-74). Universidade da Coruña y CITIC, LYS Research Group.
Mühlberger, G., Seaward, L., Terras, M., Ares Oliveira, S., Bosch, V., Bryan, M., Colutto, S., Déjean, H., Diem, M., Fiel, S., Gatos, B., Greinoecker, A., Grüning, T., Hackl, G., Haukkovaara, V., Heyer, G., Hirvonen, L., Hodel, T., Jokinen, M., … Zagoris, K. (2019). Transforming scholarship in the archives through Handwritten Text Recognition. Transkribus as a case study. Journal of Documentation - Emerald Publishing, 75(5), 954-976. https://doi.org/10.1108/JD-07-2018-0114
Neto, A. F. de S., Bezerra, B. L. D. y Toselli, A. H. (2020). Towards the natural language processing as spelling correction for offline handwritten text recognition systems. Applied Sciences, 10(21), 7711. https://doi.org/10.3390/app10217711
Pavlopoulos, J., Kougia, V., Platanou, P., Shabalin, S., Liagkou, K., Papadatos, E., Essler, H., Camps, J. B. y Fischer, F. (2022). Error Correcting HTR’ed Byzantine Text. HTREC, 1-15. https://doi.org/10.21203/rs.3.rs-2921088/v1
Perdiki, E. (2023). Preparing Big Manuscript Data for Hierarchical Clustering with Minimal HTR Training. Journal of Data Mining and Digital Humanities. Special Issue: Historical documents and automatic text recognition. https://doi.org/10.46298/jdmdh.10419
Pinche, A. (2023). Generic HTR Models for Medieval Manuscripts. The CREMMALab Project. Journal of Data Mining and Digital Humanities. Special Issue: Historical documents and automatic text recognition. https://doi.org/10.46298/jdmdh.10252
Rabus, A. (2019). Recognizing Handwritten Text in Slavic Manuscripts: A Neural-Network Approach Using Transkribus. Scripta & e-Scripta, 19, 9-32.
Schwarz-Ricci, V. I. (2022). Handwritten Text Recognition per registri notarili (secc. XV-XVI): una sperimentazione. Umanistica Digitale, (13), 171-181. https://doi.org/10.6092/issn.2532-8816/14926
Souibgui, M. A., Bensalah, A., Chen, J., Fornés, A. y Waldispühl, M. (2022). A User Perspective on HTR Methods for the Automatic Transcription of Rare Scripts: The Case of Codex Runicus. Journal on Computing and Cultural Heritage, 15(4), 1-18. https://doi.org/10.1145/3519306
Terras, M. (2010). The Rise of Digitization: An Overview. En R. Rukowski (Ed.), Digital Libraries (pp. 3-20). Sense Publishers.
Terras, M. (2022a). Inviting AI into the Archives: The Reception of Handwritten Recognition Technology into Historical Manuscript Transcription. En S. Jaillant (Ed.), Archives, Access and Artificial Intelligence. Working with Born-Digital and Digitized Archival Collections (pp. 179-204). Verlag - Bielefeld University Press. https://doi.org/10.14361/9783839455845-008
Terras, M. (2022b). The Role of the Library When Computers Can Read: Critically Adopting Handwritten Text Recognition (HTR) Technologies to Support Research. En A. Wheatley y S. Hervieux (Eds.), The Rise of AI: Implications and Applications of Artificial Intelligence in Academic Libraries (pp. 137-148). ACRL - Association of College & Research Libraries.
Weber, A., Ameryan, M., Wolstencroft, K., Stork, L., Heerlien, M. y Schomaker, L. (2018). Towards a Digital Infrastructure for Illustrated Handwritten Archives. En M. Ioannides (Ed.), Digital Cultural Heritage (pp. 155-166). Springer. https://doi.org/10.1007/978-3-319-75826-8_13
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2024 Stefano Bazzaco
Esta obra está bajo una licencia internacional Creative Commons Atribución-SinDerivadas 4.0.
Las ediciones impresa y electrónica de esta Revista son editadas por la Editorial Universidad de Sevilla, siendo necesario citar la procedencia en cualquier reproducción parcial o total.
Salvo indicación contraria, todos los contenidos de la edición electrónica se distribuyen bajo una licencia de uso y distribución “Creative Commons Atribución-NoComercial-SinDerivar 4.0 Internacional” . Puede consultar desde aquí la versión informativa y el texto legal de la licencia. Esta circunstancia ha de hacerse constar expresamente de esta forma cuando sea necesario.
Los autores/as que publiquen en esta revista aceptan las siguientes condiciones:
- Los autores/as conservan los derechos de autor y ceden a la revista el derecho de la primera publicación, y consienten en que se distribuya con una licencia Creative Commons By NC ND 4.0, que permite a terceros utilizar lo publicado siempre que mencionen la autoría del trabajo y a la primera publicación en esta revista, no se haga uso comercial y se reutilice de igual forma."
- Los autores/as pueden realizar otros acuerdos contractuales independientes y adicionales para la distribución no exclusiva de la versión del artículo publicado en esta revista (p. ej., incluirlo en un repositorio institucional o publicarlo en un libro) siempre que indiquen claramente que el trabajo se publicó por primera vez en esta revista.
- Se permite y recomienda a los autores/as que una vez publicado el artículo en la revista Philologia Hispalensis (versión online) se descarguen el PDF correspondiente y lo difundan por internet (ResearchGate, Academia.edu, etc.) ya que puede conducir a intercambios científicos productivos y a una mayor y más rápida difusión del trabajo publicado (vea The Effect of Open Access).
Aceptado 2024-02-12
Publicado 2024-12-04
- Resumen 46
- PDF 32
- HTML 15
- XML 8