viernes, 25 de julio de 2008

METODO DE MINIMOS CUADRADOS

Métodos de mínimos cuadrados.
El procedimiento mas objetivo para ajustar una recta a un conjunto de datos presentados en
un diagrama de dispersión se conoce como "el método de los mínimos cuadrados". La recta
resultante presenta dos características importantes:
1. Es nula la suma de las desviaciones verticales de los puntos a partir de la recta de ajuste
∑ (Yー - Y) = 0.
2. Es mínima la suma de los cuadrados de dichas desviaciones. Ninguna otra recta daría
una suma menor de las desviaciones elevadas al cuadrado ∑ (Yー - Y)² → 0
(mínima).
El procedimiento consiste entonces en minimizar los residuos al cuadrado Ci²
Re emplazando nos queda

La obtención de los valores de a y b que minimizan esta función es un problema que se puede resolver recurriendo a la derivación parcial de la función en términos de a y b: llamemos G a la función que se va a minimizar:

Tomemos las derivadas parciales de G respecto de a y b que son las incógnitas y las igualamos a cero; de esta forma se obtienen dos ecuaciones llamadas ecuaciones normales del modelo que pueden ser resueltas por cualquier método ya sea igualación o matrices para obtener los valores de a y b.


Derivamos parcialmente la ecuación respecto de a
Primera ecuación normal

Derivamos parcialmente la ecuación respecto de b
Segunda ecuación normal

Los valores de a y b se obtienen resolviendo el sistema de ecuaciones resultante. Veamos el siguiente ejemplo:
En un estudio económico se desea saber la relación entre el nivel de instrucción de las personas y el ingreso.
EJEMPLO 1
Se toma una muestra aleatoria de 8 ciudades de una región geográfica de 13 departamentos y se determina por los datos del censo el porcentaje de graduados en educación superior y la mediana del ingreso de cada ciudad, los resultados son los siguientes:
CIUDAD : 1 2 3 4 5 6 7 8
% de (X)
Graduados : 7.2 6.7 17.0 12.5 6.3 23.9 6.0 10.2
Ingreso (Y)
Mediana : 4.2 4.9 7.0 6.2 3.8 7.6 4.4 5.4 (0000)

Tenemos las ecuaciones normales

∑y = na + b∑x
∑xy = a∑x + b∑x²

Debemos encontrar los términos de las ecuaciones
∑y, ∑x, ∑xy, ∑ x² Por tanto procedemos de la siguiente forma:

Y
X
XY





4.2
7.2
30.24
51.84
4.9
6.7
32.83
44.89
7.0
17.0
119.00
289.00
6.2
12.5
77.50
156.25
3.8
6.3
23.94
39.69
7.6
23.9
181.64
571.21
4.4
6.0
26.40
36.00
5.4
10.2
55.08
104.04
43.5
89.8
546.63
1292.92

Sustituyendo en las ecuaciones los resultados obtenidos tenemos: 43.50 = 8a + 89.8b
546.63 = 89.8a + 1292.92b
multiplicamos la primera ecuación por (-89.8) y la segunda por (8) así:
43.50 = 8a + 89.8b (-89.8) 546.63 = 89.8a + 1292.92b (8)
-3906.30 = -718.4a - 8064.04b 4373.04 = 718.4a + 10343.36b
466.74 = -0- 2279.32b

Este valor de b lo reemplazamos en cualquiera de las ecuaciones para obtener a así:

Reemplazando b = 0.20477 en la primera ecuación normal

43.5 = 8a + 89.8 (0.20477) 43.5 = 8a + 18.3880 43.5 - 18.3880 = 8a 25.1120 = 8a
Tenemos entonces que los coeficientes de regresión son : a = 3.139 y b = 0.20477. Por tanto la ecuación de regresión nos queda:
Significa entonces que por cada incremento en una unidad en X el valor de se aumenta en 0.20477
Esta ecuación permite estimar el valor de para cualquier valor de X, por ejemplo: Una ciudad que tiene un porcentaje de graduados a nivel superior del 28% la mediana de ingreso para la ciudad será:

Los valores a y b también se pueden obtener de la siguiente forma: partiendo de las ecuaciones normales tenemos:
Si dividimos todos los términos de la ecuación (1) entre n nos queda:

Tenemos entonces que el primer termino es el segundo termino es la incógnita a y el tercer termino es la incógnita b multiplicada por por tanto nos queda:

entonces


Reemplazando a en la ecuación (2) tenemos


a = 5.4375 – 0.20477 (11.2250) = 5.4375 – 2.2985 = 3.139
Se debe tener presente la diferencia entre el valor de obtenido con la ecuación de regresión y el valor de Y observado. Mientras es una estimación y su bondad en la estimación depende de lo estrecha que sea la relación entre las dos variables que se estudian; Yー es el valor efectivo, verdadero obtenido mediante la observación del investigador. En el ejemplo Yー es el valor mediano del ingreso que obtuvo el investigador
utilizando todos los ingresos observados en cada ciudad y es el valor estimado con base en el modelo lineal utilizado para obtener la ecuación de regresión
Los valores estimados y observados pueden no ser iguales por ejemplo la primera ciudad tiene un ingreso mediano observado de Yー = 4.2 al reemplazar en la ecuación el porcentaje
de graduados obtenemos un estimado de
Gráficamente lo anterior se puede mostrar así:

Claramente se observa en la gráfica que hay una diferencia entre el valor efectivo de Yー y el valor estimado; esta diferencia se conoce como error en la estimación, este error se puede medir. A continuación se verá el procedimiento.
Error estándar en la estimación
El error estándar de la estimación designado por sYX mide la disparidad "promedio" entre
los valores observados y los valores estimados de . Se utiliza la siguiente formula.
Debemos entonces calcular los valores de para cada ciudad sustituyendo en la ecuación los valores de los porcentajes de graduados de cada ciudad estudiada.

Y
X
4.2
7.2
4.6
-0.4
0.16
4.9
6.7
4.5
0.4
0.16
7.0
17.0
6.6
0.4
0.16
6.2
12.5
5.7
0.5
0.25
3.8
6.3
4.4
-0.6
0.36
7.6
23.9
8.0
-0.4
0.16
4.4
6.0
4.4
0.0
0.00
5.4
10.2
5.2
0.2
0.04




1.29

Syx = 0.46 (decenas de miles $)

Como esta medida trata de resumir la disparidad entre lo observado y lo estimado, es decir, trata de medir la diferencia promedio entre lo observado y lo estimado ó esperado de acuerdo al modelo, puede considerarse como un indicador del grado de precisión con que la ecuación de regresión, describe la relación entre las dos variables. Este error estándar se ve afectado por las unidades y sus cambios ya que es una medida absoluta, pues, se da en la misma unidad de medida que esta dada la variable Y; en el ejemplo 0.46 serán decenas de miles de pesos, razón por la cual no es posible comparar con las relaciones de variables dadas en distinta unidad de medida. Es necesario entonces calcular una medida que interprete o mida mejor el grado de relación entre las variables.

Coeficiente de determinación.
El cambio de la variable Y generalmente depende de muchos factores, en ocasiones, difíciles de identificar; con el modelo lineal simple, sólo tenemos presente uno. Por ejemplo, en nuestro caso la mediana del ingreso depende no sólo del porcentaje de graduados en el nivel superior, que es, el factor que tenemos presente, pueden entrar a jugar factores tales como, la distribución de la edad en la población, la distribución por sexo en la población, la industrialización de la ciudad, el numero de universidades y muchos otros.
El coeficiente de determinación mide o interpreta la cantidad relativa de la variación que ha sido explicada por la recta de regresión, es decir, la proporción de cambio en Y explicado por un cambio en la variable X ( X es el factor que se utiliza para calcular la recta de ajuste o ecuación de regresión, en el ejemplo es el porcentaje de graduados en el nivel superior en cada ciudad).
Para el ejemplo el Coeficiente de determinación va a medir la proporción del cambio en el ingreso mediano de cada ciudad, debido o explicado por un cambio en el porcentaje de graduados en el nivel superior.
Veamos algunos componentes de la variabilidad en el análisis de regresión:
La diferencia entre cada valor de Yー observado y media se denomina variación de Y.
La diferencia entre estimado y media , es la variación tenida en cuenta por la ecuación de regresión, razón por la cual se denomina variación explicada de Y.

La diferencia entre Yー observado y estimado, son variaciones consideradas debidas a factores diferentes al tenido presente por la ecuación de regresión por eso se llama: variación no explicada de Y.
La diferencia entre Yー observado y estimado, son variaciones consideradas debidas a factores diferentes al tenido presente por la ecuación de regresión por eso se llama: variación no explicada de Y.

La sumatoria de las diferencias en cada una de las formas de variación la podemos representar así:


Gráficamente esta relación se puede representar así:
Se dijo anteriormente, que el coeficiente de determinación es la proporción de cambio explicado en Y, por cambio en X, es decir, la proporción que representa la variación explicada de la variación total. Recuerde una proporción es la relación de una parte con el total, por tanto, el coeficiente de determinación será:

En otras palabras el coeficiente de determinación es la relación entre la variación explicada y la variación total. Su valor siempre estará

No hay comentarios: