Relaciones entre entidades nombradas en un texto noticioso

Reynier Ávila Peña; Celia María Pérez Marqués; Yaney Bourzac Álvarez; Daymara López Cordero

Autores/as

Reynier Ávila Peña Empresa de Desarrollo de Aplicaciones, Tecnología y Sistemas
Celia María Pérez Marqués Universidad de Oriente
Yaney Bourzac Álvarez Empresa de Desarrollo de Aplicaciones, Tecnología y Sistemas
Daymara López Cordero Empresa de Desarrollo de Aplicaciones, Tecnología y Sistemas

Palabras clave:

lingüística de corpus, entidades nombradas, corpus lingüísticos, ling¨üística computacional

Resumen

El artículo se enfoca en el análisis de textos de noticias dentro de un corpus etiquetado, abordando temas diversos. Se presenta una clasificación de las relaciones semánticas entre las entidades nombradas en un texto etiquetado en
formato XML, junto con una descripción de las etiquetas utilizadas. El objetivo principal es desarrollar una solución para extraer relaciones entre entidades nombradas en noticias en español, basándose en el etiquetado gramatical, la detección de entidades y la resolución de correferencias. El método empleado consiste en el etiquetado gramatical y el análisis sintáctico, y abarca tanto entidades nombradas como relaciones gramaticales y semánticas. Esta propuesta puede considerarse útil para el desarrollo y evaluación de nuevos sistemas de extracción de información en español, concluyendo que los corpus, la lingüística de corpus y la lingüística computacional son herramientas valiosas en el proceso de enseñanza automática a las computadoras para comprender el lenguaje natural.

Biografía del autor/a

Reynier Ávila Peña, Empresa de Desarrollo de Aplicaciones, Tecnología y Sistemas

Reynier Ávila Peña es Licenciado en Letras. Desempeña su labor en la empresa Desarrollo de Aplicaciones, Tecnología y Sistemas (Datys) (Cuba). Se dedica a la construcción de corpus para entrenamiento y evaluación de las herramientas de Procesamiento de Lenguaje Natural. Trabaja en la construcción de ontologías, en la definición de Actos de diálogos en proyectos de asistentes virtuales, en la identificación de Entidades de todo tipo y trabajos de edición, transcripción, corrección ortográfica tanto de documentos, como de textos en la web.

Celia María Pérez Marqués, Universidad de Oriente

Celia María Pérez Marqués es Doctora en Ciencias Filológicas y Profesora Titular en la Universidad de Oriente, Cuba. Se ha especializado en estudios léxico-estadísticos a partir de corpus textuales. Actualmente coordina la construcción de un corpus de conversaciones de Santiago de Cuba siguiendo la metodología del corpus AMERESCO, creado en la Universidad de Valencia, España.

Yaney Bourzac Álvarez, Empresa de Desarrollo de Aplicaciones, Tecnología y Sistemas

Yaney Bourzac Álvarez es egresada de un Máster en Ciencias de la Educación. Ha realizado diversos cursos de posgrado: Tutoría y Oponencia; Máster en Ciencias de la Educación; Quién, Qué, Cuándo, Dónde: Etiquetado automático de roles semánticos en el procesamiento del Lenguaje; Freeling 4.0 al descubierto: Uso avanzado de la librería, entre otros. Es especialista en servicios, procesamiento y análisis de la información, en la empresa Datys (Cuba). Cuenta con experiencia en la construcción de corpus lingüísticos para el entrenamiento y la evaluación de las herramientas de Procesamiento de Lenguaje Natural, en la construcción de Ontologías, definición de Actos de diálogos en proyectos de Asistentes virtuales y en la detección y clasificación de entidades nombradas en idioma español, así como sus relaciones semánticas. Además, ha llevado a cabo trabajos de edición, transcripción y corrección ortográfica de textos y audios digitales.

Daymara López Cordero, Empresa de Desarrollo de Aplicaciones, Tecnología y Sistemas

Daymara López Cordero posee experiencia en construcción de Corpus para el entrenamiento y la evaluación de las herramientas de Procesamiento de Lenguaje Natural, y en la identificación de Entidades de todo tipo. Asimismo, ha realizado trabajos de edición, transcripción y corrección ortográfica, tanto de documentos como de textos en la web. Cuenta con experiencia como Tester y Analista de datos.

Citas

Alonso, L. (1998). El análisis sociológico de los discursos: una aproximación desde los usos concretos. Ed. Fundamentos.

Arredondo Toledo, L. M. (2018) Extracción de relaciones entre las entidades nombradas en el idioma español (Tesis presentada en opción al Título Académico de Máster en Ciencia de la Computación).

carmitada77, (4 julio, 2015) Análisis del Discurso. Métodos de investigación URL: https://metodosdeinvestigaciondcgunefa.wordpress.com/2015/07/04/analisis-del-discurso/

Bernal Chávez, Julio Alexánder y Diana Alejandra Hincapié Moreno (2018): Lingüística de corpus. URL: http://bibliotecadigital.caroycuervo.gov.co/1703/1/Linguistica-de-corpus-2018.pdf

Boillos Pereira, Mari Mar. (2018) La elaboración de un corpus del profesorado de español (copele): ¿utopía o realidad? URL: https://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-48832018000200153

Culotta, A., & Sorensen, J. (2004, July). Dependency tree kernels for relation extraction. In Proceedings of the 42nd annual meeting on association for computational linguistics (p. 423). Association for Computational Linguistics.

Culotta, A., McCallum, A., & Betz, J. (2006, June). Integrating probabilistic extraction models and data mining to discover relations and patterns in text. In Proceedings of the main conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics (pp. 296-303). Association for Computational Linguistics.

Filología e informática (1999): nuevas tecnologías en los estudios filológicos (pp. 45-77). Milenio.

Jurafsky, D., & Martin, J. H. (2017) Vector Semantics. Speech and Language Processing: An Introduction to Natural Language Processing. Computational Linguistics, and Speech Recognition (3rd ed draft chapter 15-16).

Lyons, John. (1997): Semántica lingüística. Paidós.

Mar Cruz Piñol. Lingüística de corpus y enseñanza del español como 2/L. Madrid: Arco/Libros, 2017. pp 189. URL: https://www.arcomuralla.com/detalle_libro.php?id=872

Martín Peris, Ernesto. (coord.) (2008). Diccionario de términos clave de ELE. SGEL.

Mercado, H. (2008). Fundamentos de la lingüística de corpus.

Pardo Abril, Neyla Graciela (2002). El contexto y el discurso público. URL: https://revistas.udistrital.edu.co/index.php/enunc/article/view/2465/3432

Sinclair, J.M. (1991). Corpus, Concordance, Collocation. Oxford: Oxford University Press.

Torruela, J. & Llisterri, J. (1999a). Diseño de corpus textuales y orales. En Filología e informática: nuevas tecnologías en los estudios filológicos (pp. 45-77). Milenio.

Wallis, S. and Nelson G. 'Knowledge discovery in grammatically analysed corpora'. Data Mining and Knowledge Discovery, 5: 307–340.

Relaciones entre entidades nombradas en un texto noticioso

Autores/as

Palabras clave:

Resumen

Biografía del autor/a

Reynier Ávila Peña, Empresa de Desarrollo de Aplicaciones, Tecnología y Sistemas

Celia María Pérez Marqués, Universidad de Oriente

Yaney Bourzac Álvarez, Empresa de Desarrollo de Aplicaciones, Tecnología y Sistemas

Daymara López Cordero, Empresa de Desarrollo de Aplicaciones, Tecnología y Sistemas

Citas

Descargas

Publicado

Cómo citar

Número

Sección

Licencia

Indexada_en

Incluida_en

Información

Idioma

Palabras clave

Número actual

Avisos

Nuestras Redes

arca