Lematización de los datos de codea y su utilización en análisis cuantitativos sobre la eñe y la hache muda

Autores/as

DOI:

https://doi.org/10.12795/PH.2019.v33.i01.10

Palabras clave:

lematización, documentos antiguos españoles, eñe, hache muda

Resumen

En este artículo explicaremos un método de lematización de los documentos antiguos españoles utilizando los datos de «CODEA» Corpus de Documentos Españoles Anteriores a 1800(Sánchez-Prieto et al., 2009) y la herramienta de análisis «LYNEAL» (Letras y Números en Análisis Lingüísticos). Nuestro objetivo es presentar el método más sencillo posible de lematización y fácil de realizar con alto grado de precisión. Seguidamente, expondremos dos ejemplos de su utilización en el estudio histórico de la ortografía española: sobre la eñe y la hache muda.

Descargas

Los datos de descargas todavía no están disponibles.

Citas

Ávila Muñoz, A. (1999). Léxico de frecuencia del español hablado en la Ciudad de Málaga. Málaga, España: Universidad de Málaga.

Buckley, C., Salton, G., Allen, J., y Singhal, A. (1995). Automatic query expansion using SMART. Proceedings of the TREC’3 Conference, 69-80. Gaithersburg, MA: NIST publication.

Gómez Díaz, R. (2005). La lematización en español: una aplicación para la recuperación de información. Gijón, España: Ediciones Trea.

Halliday, M. A. K. (1991). Corpus studies and probabilistic grammar. En Aijmer y B. Altenberg (Eds.), English corpus linguistics. Studies in honour of Jan Svartvick (pp. 30-43). London, UK: Longman.

Hockett, C. F. (1954). Two models of grammatical description. Word, 10, 210-231. https://doi.org/10.1080/00437956.1954.11659524

Marcet Rodríguez, V. J. (2010). De nuevo sobre los usos y valores de la grafía h en la escritura medieval leonesa. En M. T. Encinas Manterola et al. (Eds.). Ars longa. Diez años de Asociación de Jóvenes Investigadores de Historiografía e Historia de la Lengua Española (pp. 63-80). Salamanca, España: Universidad de Salamanca.

McEnery, T. & Hardie, A. (2012). Corpus linguistics. Cambridge, UK: Cambridge University Press. https://doi.org/10.1093/oxfordhb/9780199276349.013.0024

Moreno Sandoval, A. (2019). Lenguas y computación. Madrid, España: Editorial Síntesis.

Real Academia Española. (2010). Ortografía de la lengua española. Madrid, España: Espasa Libros.

Salvador, G. y Lodares, J. R. (2001). Historia de las letras. Madrid, España: Espasa.

Sánchez-Prieto, P., Paredes García, F. R., Martínez Sánchez, Miguel Franco, R. Simón Parra, M. y Vicente Miguel, I. (2009). El Corpus de Documentos Españoles Anteriores a 1700 (CODEA). En A. Enrique-Arias (Ed.), Diacronía de las lenguas iberorrománicas: Nuevas aportaciones desde la lingüística de corpus (pp 25-38). Madrid/Frankfurt am Main, España/Alemania: Iberoamericana-Vervuert. https://doi.org/10.31819/9783865278685-003

Savoy, J. (1999). A stemming procedure and stopword list for general French corpora. Journal of the American Society for Information Science, 50(10), 944-952. https://doi.org/10.1002/(SICI)1097-4571(1999)50:10<944::AID-ASI9>3.0.CO;2-Q

Sinclair, J. (1991). Corpus, concordance, collocation. Oxford, UK: Oxford University Press.

Stubbs, M. (2007). On texts, corpora and models of language. En Hoey, E., Mahlberg, M., y Teubert, W (Eds.), Text, discourse and corpora. Theory and analysis (pp. 127-162). New York, EEUU: Continuum.

Torrens Álvarez, M. J. (2018). Evolución e historia de la lengua española. 2a edición. Madrid, España: Arco / Libros.

Ueda, H. (2017). Unilateral correspondence analysis applied to Spanish linguistic data in time and space. Sixteenth International Conference on Methods in Dialectology. National Institute for Japanese Language and Linguistics, Tokyo, 10 August, 2017.

https://lecture.ecc.u-tokyo.ac.jp/~cueda/kenkyuchiricorrespondencecorrespondence2017.pdf

_____ (2018). Tratamiento lingüístico y matemático de textos digitales españoles. Presentación del Programa LEXIS-web. Actas del IX Congreso de la Asociación Asiática de Hispanistas (Bangkok, 2016), 617-630.

http://www.sinoele.org/images/Revistá17/monograficos/AAH_2016/AAH_2016_hiroto_ueda.pdf

Descargas

Publicado

2019-12-29

Cómo citar

Ueda, H. (2019). Lematización de los datos de codea y su utilización en análisis cuantitativos sobre la eñe y la hache muda. Philologia Hispalensis, 33(1), 161–178. https://doi.org/10.12795/PH.2019.v33.i01.10
Recibido 2019-07-01
Aceptado 2019-11-06
Publicado 2019-12-29