coocurrencias

Las coocurrencias, en lingüística y ciencias de datos, son pares o conjuntos de elementos que aparecen juntos dentro de un contexto definido en un conjunto de datos. En procesamiento del lenguaje natural, se refieren principalmente a palabras que ocurren dentro de una ventana de contexto establecida (por ejemplo, dentro de tres palabras a la izquierda o derecha). Las coocurrencias se representan en una matriz de coocurrencia, donde filas y columnas son palabras y cada celda contiene la frecuencia de aparición conjunta.

Para cuantificar la fuerza de la asociación entre dos elementos, se utilizan medidas como la información mutua

Más allá de las palabras, las coocurrencias se aplican a eventos, productos, usuarios o proteínas, siempre que

Limitaciones: la alta frecuencia de palabras funcionales genera coocurrencias simples que pueden carecer de significado semántico;

o

a

y

y

o

y

estocasticidad;

preprocesamiento

(tokenización,

y

interpretación