Lematización de los datos de codea y su utilización en análisis cuantitativos sobre la eñe y la hache muda
DOI:
https://doi.org/10.12795/PH.2019.v33.i01.10Palabras clave:
lematización, documentos antiguos españoles, eñe, hache mudaResumen
En este artículo explicaremos un método de lematización de los documentos antiguos españoles utilizando los datos de «CODEA» Corpus de Documentos Españoles Anteriores a 1800(Sánchez-Prieto et al., 2009) y la herramienta de análisis «LYNEAL» (Letras y Números en Análisis Lingüísticos). Nuestro objetivo es presentar el método más sencillo posible de lematización y fácil de realizar con alto grado de precisión. Seguidamente, expondremos dos ejemplos de su utilización en el estudio histórico de la ortografía española: sobre la eñe y la hache muda.
Descargas
Citas
Ávila Muñoz, A. (1999). Léxico de frecuencia del español hablado en la Ciudad de Málaga. Málaga, España: Universidad de Málaga.
Buckley, C., Salton, G., Allen, J., y Singhal, A. (1995). Automatic query expansion using SMART. Proceedings of the TREC’3 Conference, 69-80. Gaithersburg, MA: NIST publication.
Gómez Díaz, R. (2005). La lematización en español: una aplicación para la recuperación de información. Gijón, España: Ediciones Trea.
Halliday, M. A. K. (1991). Corpus studies and probabilistic grammar. En Aijmer y B. Altenberg (Eds.), English corpus linguistics. Studies in honour of Jan Svartvick (pp. 30-43). London, UK: Longman.
Hockett, C. F. (1954). Two models of grammatical description. Word, 10, 210-231. https://doi.org/10.1080/00437956.1954.11659524
Marcet Rodríguez, V. J. (2010). De nuevo sobre los usos y valores de la grafía h en la escritura medieval leonesa. En M. T. Encinas Manterola et al. (Eds.). Ars longa. Diez años de Asociación de Jóvenes Investigadores de Historiografía e Historia de la Lengua Española (pp. 63-80). Salamanca, España: Universidad de Salamanca.
McEnery, T. & Hardie, A. (2012). Corpus linguistics. Cambridge, UK: Cambridge University Press. https://doi.org/10.1093/oxfordhb/9780199276349.013.0024
Moreno Sandoval, A. (2019). Lenguas y computación. Madrid, España: Editorial Síntesis.
Real Academia Española. (2010). Ortografía de la lengua española. Madrid, España: Espasa Libros.
Salvador, G. y Lodares, J. R. (2001). Historia de las letras. Madrid, España: Espasa.
Sánchez-Prieto, P., Paredes García, F. R., Martínez Sánchez, Miguel Franco, R. Simón Parra, M. y Vicente Miguel, I. (2009). El Corpus de Documentos Españoles Anteriores a 1700 (CODEA). En A. Enrique-Arias (Ed.), Diacronía de las lenguas iberorrománicas: Nuevas aportaciones desde la lingüística de corpus (pp 25-38). Madrid/Frankfurt am Main, España/Alemania: Iberoamericana-Vervuert. https://doi.org/10.31819/9783865278685-003
Savoy, J. (1999). A stemming procedure and stopword list for general French corpora. Journal of the American Society for Information Science, 50(10), 944-952. https://doi.org/10.1002/(SICI)1097-4571(1999)50:10<944::AID-ASI9>3.0.CO;2-Q
Sinclair, J. (1991). Corpus, concordance, collocation. Oxford, UK: Oxford University Press.
Stubbs, M. (2007). On texts, corpora and models of language. En Hoey, E., Mahlberg, M., y Teubert, W (Eds.), Text, discourse and corpora. Theory and analysis (pp. 127-162). New York, EEUU: Continuum.
Torrens Álvarez, M. J. (2018). Evolución e historia de la lengua española. 2a edición. Madrid, España: Arco / Libros.
Ueda, H. (2017). Unilateral correspondence analysis applied to Spanish linguistic data in time and space. Sixteenth International Conference on Methods in Dialectology. National Institute for Japanese Language and Linguistics, Tokyo, 10 August, 2017.
https://lecture.ecc.u-tokyo.ac.jp/~cueda/kenkyuchiricorrespondencecorrespondence2017.pdf
_____ (2018). Tratamiento lingüístico y matemático de textos digitales españoles. Presentación del Programa LEXIS-web. Actas del IX Congreso de la Asociación Asiática de Hispanistas (Bangkok, 2016), 617-630.
http://www.sinoele.org/images/Revistá17/monograficos/AAH_2016/AAH_2016_hiroto_ueda.pdf
Publicado
Cómo citar
Número
Sección
Licencia
Las ediciones impresa y electrónica de esta Revista son editadas por la Editorial Universidad de Sevilla, siendo necesario citar la procedencia en cualquier reproducción parcial o total.
Salvo indicación contraria, todos los contenidos de la edición electrónica se distribuyen bajo una licencia de uso y distribución “Creative Commons Atribución-NoComercial-SinDerivar 4.0 Internacional” . Puede consultar desde aquí la versión informativa y el texto legal de la licencia. Esta circunstancia ha de hacerse constar expresamente de esta forma cuando sea necesario.
Los autores/as que publiquen en esta revista aceptan las siguientes condiciones:
- Los autores/as conservan los derechos de autor y ceden a la revista el derecho de la primera publicación, y consienten en que se distribuya con una licencia Creative Commons By NC ND 4.0, que permite a terceros utilizar lo publicado siempre que mencionen la autoría del trabajo y a la primera publicación en esta revista, no se haga uso comercial y se reutilice de igual forma."
- Los autores/as pueden realizar otros acuerdos contractuales independientes y adicionales para la distribución no exclusiva de la versión del artículo publicado en esta revista (p. ej., incluirlo en un repositorio institucional o publicarlo en un libro) siempre que indiquen claramente que el trabajo se publicó por primera vez en esta revista.
- Se permite y recomienda a los autores/as que una vez publicado el artículo en la revista Philologia Hispalensis (versión online) se descarguen el PDF correspondiente y lo difundan por internet (ResearchGate, Academia.edu, etc.) ya que puede conducir a intercambios científicos productivos y a una mayor y más rápida difusión del trabajo publicado (vea The Effect of Open Access).
Aceptado 2019-11-06
Publicado 2019-12-29
- Resumen 274
- HTML 174
- PDF 114