Relations between Entities Named in News Texts

Authors

  • Reynier Ávila Peña Empresa de Desarrollo de Aplicaciones, Tecnología y Sistemas
  • Celia María Pérez Marqués Universidad de Oriente
  • Yaney Bourzac Álvarez Empresa de Desarrollo de Aplicaciones, Tecnología y Sistemas
  • Daymara López Cordero Empresa de Desarrollo de Aplicaciones, Tecnología y Sistemas

Keywords:

corpus linguistics, named entities, language corpora, computational linguistics

Abstract

The article focuses on the analysis of news texts within a tagged corpus, addressing various topics. It presents a classification of semantic relationships between named entities in the tagged text in XML format, along with a description of the used tags. The main objective is to develop a solution for extracting relationships
between named entities in Spanish news, based on grammatical tagging, entity detection, and coreference resolution. The method employed consisted of grammatical tagging and syntactic analysis, covering both named entities and the
grammatical and semantic relationships. This proposal is considered useful for the
development and evaluation of new information extraction systems in Spanish, concluding that corpora, corpus linguistics, and computational linguistics are valuable tools in the process of teaching computers automatic understanding of
natural language.

Author Biographies

Reynier Ávila Peña, Empresa de Desarrollo de Aplicaciones, Tecnología y Sistemas

Reynier Ávila Peña es Licenciado en Letras. Desempeña su labor en la empresa Desarrollo de Aplicaciones, Tecnología y Sistemas (Datys) (Cuba). Se dedica a la construcción de corpus para entrenamiento y evaluación de las herramientas de Procesamiento de Lenguaje Natural. Trabaja en la construcción de ontologías, en la definición de Actos de diálogos en proyectos de asistentes virtuales, en la identificación de Entidades de todo tipo y trabajos de edición, transcripción, corrección ortográfica tanto de documentos, como de textos en la web.

Celia María Pérez Marqués, Universidad de Oriente

Celia María Pérez Marqués es Doctora en Ciencias Filológicas y Profesora Titular en la Universidad de Oriente, Cuba. Se ha especializado en estudios léxico-estadísticos a partir de corpus textuales. Actualmente coordina la construcción de un corpus de conversaciones de Santiago de Cuba siguiendo la metodología del corpus AMERESCO, creado en la Universidad de Valencia, España.

Yaney Bourzac Álvarez, Empresa de Desarrollo de Aplicaciones, Tecnología y Sistemas

Yaney Bourzac Álvarez es egresada de un Máster en Ciencias de la Educación. Ha realizado diversos cursos de posgrado: Tutoría y Oponencia; Máster en Ciencias de la Educación; Quién, Qué, Cuándo, Dónde: Etiquetado automático de roles semánticos en el procesamiento del Lenguaje; Freeling 4.0 al descubierto: Uso avanzado de la librería, entre otros. Es especialista en servicios, procesamiento y análisis de la información, en la empresa Datys (Cuba). Cuenta con experiencia en la construcción de corpus lingüísticos para el entrenamiento y la evaluación de las herramientas de Procesamiento de Lenguaje Natural, en la construcción de Ontologías, definición de Actos de diálogos en proyectos de Asistentes virtuales y en la detección y clasificación de entidades nombradas en idioma español, así como sus relaciones semánticas. Además, ha llevado a cabo trabajos de edición, transcripción y corrección ortográfica de textos y audios digitales.

Daymara López Cordero, Empresa de Desarrollo de Aplicaciones, Tecnología y Sistemas

Daymara López Cordero posee experiencia en construcción de Corpus para el entrenamiento y la evaluación de las herramientas de Procesamiento de Lenguaje Natural, y en la identificación de Entidades de todo tipo. Asimismo, ha realizado trabajos de edición, transcripción y corrección ortográfica, tanto de documentos como de textos en la web. Cuenta con experiencia como Tester y Analista de datos.

References

Alonso, L. (1998). El análisis sociológico de los discursos: una aproximación desde los usos concretos. Ed. Fundamentos.

Arredondo Toledo, L. M. (2018) Extracción de relaciones entre las entidades nombradas en el idioma español (Tesis presentada en opción al Título Académico de Máster en Ciencia de la Computación).

carmitada77, (4 julio, 2015) Análisis del Discurso. Métodos de investigación URL: https://metodosdeinvestigaciondcgunefa.wordpress.com/2015/07/04/analisis-del-discurso/

Bernal Chávez, Julio Alexánder y Diana Alejandra Hincapié Moreno (2018): Lingüística de corpus. URL: http://bibliotecadigital.caroycuervo.gov.co/1703/1/Linguistica-de-corpus-2018.pdf

Boillos Pereira, Mari Mar. (2018) La elaboración de un corpus del profesorado de español (copele): ¿utopía o realidad? URL: https://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-48832018000200153

Culotta, A., & Sorensen, J. (2004, July). Dependency tree kernels for relation extraction. In Proceedings of the 42nd annual meeting on association for computational linguistics (p. 423). Association for Computational Linguistics.

Culotta, A., McCallum, A., & Betz, J. (2006, June). Integrating probabilistic extraction models and data mining to discover relations and patterns in text. In Proceedings of the main conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics (pp. 296-303). Association for Computational Linguistics.

Filología e informática (1999): nuevas tecnologías en los estudios filológicos (pp. 45-77). Milenio.

Jurafsky, D., & Martin, J. H. (2017) Vector Semantics. Speech and Language Processing: An Introduction to Natural Language Processing. Computational Linguistics, and Speech Recognition (3rd ed draft chapter 15-16).

Lyons, John. (1997): Semántica lingüística. Paidós.

Mar Cruz Piñol. Lingüística de corpus y enseñanza del español como 2/L. Madrid: Arco/Libros, 2017. pp 189. URL: https://www.arcomuralla.com/detalle_libro.php?id=872

Martín Peris, Ernesto. (coord.) (2008). Diccionario de términos clave de ELE. SGEL.

Mercado, H. (2008). Fundamentos de la lingüística de corpus.

Pardo Abril, Neyla Graciela (2002). El contexto y el discurso público. URL: https://revistas.udistrital.edu.co/index.php/enunc/article/view/2465/3432

Sinclair, J.M. (1991). Corpus, Concordance, Collocation. Oxford: Oxford University Press.

Torruela, J. & Llisterri, J. (1999a). Diseño de corpus textuales y orales. En Filología e informática: nuevas tecnologías en los estudios filológicos (pp. 45-77). Milenio.

Wallis, S. and Nelson G. 'Knowledge discovery in grammatically analysed corpora'. Data Mining and Knowledge Discovery, 5: 307–340.

Published

20-12-2023

How to Cite

Ávila Peña, R., Pérez Marqués, C. M., Álvarez, Y. B., & López Cordero, D. (2023). Relations between Entities Named in News Texts. Anales De Lingüística, (11), 95–134. Retrieved from https://revistas.uncu.edu.ar/ojs3/index.php/analeslinguistica/article/view/6677

Issue

Section

Article