Home

coocurrencias

Las coocurrencias, en lingüística y ciencias de datos, son pares o conjuntos de elementos que aparecen juntos dentro de un contexto definido en un conjunto de datos. En procesamiento del lenguaje natural, se refieren principalmente a palabras que ocurren dentro de una ventana de contexto establecida (por ejemplo, dentro de tres palabras a la izquierda o derecha). Las coocurrencias se representan en una matriz de coocurrencia, donde filas y columnas son palabras y cada celda contiene la frecuencia de aparición conjunta.

Para cuantificar la fuerza de la asociación entre dos elementos, se utilizan medidas como la información mutua

Más allá de las palabras, las coocurrencias se aplican a eventos, productos, usuarios o proteínas, siempre que

Limitaciones: la alta frecuencia de palabras funcionales genera coocurrencias simples que pueden carecer de significado semántico;

puntual
(PMI),
la
razón
de
verosimilitud
(LLR),
la
chi-cuadrado,
Dice,
o
coeficientes
de
Jaccard.
Estas
medidas
ayudan
a
identificar
colocaciones
y
relaciones
semánticas,
y
son
útiles
para
construir
recursos
como
listas
de
colocaciones
o
para
entrenar
modelos
de
vectores
de
palabras
(por
ejemplo,
modelos
basados
en
coocurrencias
como
GloVe).
existan
datos
de
presencia
conjunta
dentro
de
un
contexto.
Su
análisis
requiere
grandes
corpus
para
evitar
sesgos
y
para
reducir
la
fricción
de
la
estocasticidad;
el
tamaño
de
la
ventana,
el
preprocesamiento
(tokenización,
stemming),
y
la
normalización
influyen
en
los
resultados.
la
interpretación
puede
depender
del
dominio;
correlación
no
implica
causalidad;
la
sparsidad
de
datos
puede
afectar
las
medidas.