dissabte, 21 de març del 2009

Correlació

Estadística bidimensional

Hi ha situacions en què la relació entre dues variables no és exacta. Per exemple, l'alçada d'una persona i el nombre de sabata que calça. Amb aquest tema el pretén trobar una mesura del grau de validesa de la relació i una manera de trobar valors aproximats.

Les fórmules:

Fan falta algunes fórmules que són de l'estadística unidimensional:

Les mitjanes

i les variànces


Per saber el grau de validesa de la relació, utilitzam les fórmules:


La covariançaque, encara que té significat per sí mateixa, la podem considerar auxiliar i el coeficient de correlació que és el que ens interessa:


aquest nombre sempre està entre -1 i 1. Com més pròxim a 1 o a -1 és, més bona és la relació per aproximar-la per una recta. Com més aprop de zero, més dolenta.

Finalment per obtenir un valor aproximat, hem d'utilitzar la recta de regressió

Empram l'equació de la recta punt-pendent

amb pendent .

És a dir , la fórmula que cercam és


Un exemple:

A la següent taula hi ha el nombre de societat anònimes creades i donades de baixa a l'estat espanyol des de l'any 2003 al 2008


Font: Instituto Nacional de Estadística INE


Es demana
a) Es pot afirmar que hi ha correlació entre les dues variables?

b) En cas afirmatiu de la primera pregunta, quantes baixes s'esper en en un any de 3500 altes?


Solució:

x seran les altes i y les baixes.

Ordenam les dades en columnes:


Així
Les mitjanes

les variànces




d'on

i


La covariança
a)

coeficient de correlació, que és el que ens interessa:

no és una correlació gaire forta, però suficient com per acceptar-la

b)
la recta de regressió és



Per respondre a la pregunta hem de substituir la x pel nombre que ens demanen:



d'on y = 491'226 + 4216'3 = 4707'726

Resposta: Pot ser que hi hagi alguna correlació, ja que el coeficient és 0'62. Si fos així, en un any de 3500 altes de societats anònimes, hi hauria,aproximadament, unes 4708 baixes.