El pasado 14 de noviembre celebramos el II Encuentro Oficial Lingẅars centrado en la lingüística de corpus (ya habíamos realizado uno,
pero de ese no escribimos crónica :/). Es el primer encuentro en el que nos centramos en un área concreta y creo que es una
coincidencia que debemos adoptar como constumbre, ya que permite seguir un hilo conductor durante toda la jornada y relacionar
unas charlas con otras.
Spoiler alert.- Algunos dicen que el próximo encuentro podría ir sobre algo llamado semántica estructural. ¡Apúntate utilizando
el sobrecito que hay arriba y serás pertinentemente avisado!
Por la mañana
Comenzamos el día con una introducción al grupo a cargo de Eduardo así los que vienen de nuevas
pueden saber a qué nos dedicamos, quiénes somos y qué objetivos tenemos... y de paso vamos autodefiniéndonos, que no es tarea fácil.
Introducción a la lingüística de corpus
A continuación entramos en harina, directos hacia el corpus de la mano de Tania y con la ayuda de Leticia;
entre las dos aprendimos lo que es un corpus y cómo manejarlo. En primer lugar nos introdujeros varios conceptos sobre los corpora:
- Qué son.
- Por qué usarlos.
- Criterios para construir un corpus.
- Corpus anotados.
- Tipos de corpus.
Una introducción imprescindible para la gente que se acerca por vez primera a este campo, podéis descargar la presentación
aquí.

AntConc
Después Tania nos mostró como utilizar AntConc, una herramienta para
trabajar con corpus desarrollada por Laurence Anthony. Tania nos guió por la herramienta en un recorrido desde las cosas
más simples como contar palabras hasta estudios de concordancia que permiten identificar el sustrato cultural al que
pertenece un conjunto de documentos.
Si quieres hacer pruebas tú mismo puedes instalarte el programa y descargarte el corpus con el que anduvimos cacharreando:
una selección de artículos de El País recogidos por Tania utilizando import.io, ¡algún día nos contará
cómo lo hizo! Corpus El Pais 2015-7 (7,8 Mb).
Por la tarde
Proyectos
Dividimos la tarde en dos secciones, en primer lugar contamos algunos proyectos que están en marcha o en los que participamos:
- Neutrón (Javi): una herramienta para ayudar en la neutralización de textos y la
traducción translectal. Está en fase de gestación, pero apunta maneras ;D
- Aracne (Leticia y Elena): un proyecto de Fundéu BBVA para analizar la
evolución del lenguaje periodístico durante el último siglo. En breve tendremos noticias de las conclusiones a las que vayan
llegando a través de los medios, seguro.
- El Enclitizador (Tania y Leticia): herramienta que analiza una forma verbal con
enclíticos y ofrece información detallada sobre su corrección y la función de cada uno de ellos. Por cierto, buscan a alguien
con conocimientos de programación que quiera hacer una interfaz: una web, un bot de Telegram,... ¿te animas?

Recuperación de información
Después la cosa tornó diferente, empezamos a ver ecuaciones proyectadas. Javi
nos introdujo lo que era la recuperación de información y la importancia de poder medir la distancia entre
dos documentos cualesquiera, un problema muy común que se encuentra en la raíz de los sistemas de búsqueda
en internet y de los motores de recomendación o el topic modelling. Los dos objetivos principales de la
presentación eran concienciarnos del problema y exponer una métrica muy sencilla (pero potente) para realizar
estos cálculos: TF-IDF. También puedes ver
la presentación.
La jornada terminó con un pequeño trozo de código en el que se implementaba un motor de búsqueda muy básico, pero
que nos permitía realizar queries y obtener el documento que estábamos buscando
(ver código).
¡Te esperamos en la próxima!
There are comments.