viernes, 25 de julio de 2008

METODO DE MINIMOS CUADRADOS

Métodos de mínimos cuadrados.
El procedimiento mas objetivo para ajustar una recta a un conjunto de datos presentados en
un diagrama de dispersión se conoce como "el método de los mínimos cuadrados". La recta
resultante presenta dos características importantes:
1. Es nula la suma de las desviaciones verticales de los puntos a partir de la recta de ajuste
∑ (Yー - Y) = 0.
2. Es mínima la suma de los cuadrados de dichas desviaciones. Ninguna otra recta daría
una suma menor de las desviaciones elevadas al cuadrado ∑ (Yー - Y)² → 0
(mínima).
El procedimiento consiste entonces en minimizar los residuos al cuadrado Ci²
Re emplazando nos queda

La obtención de los valores de a y b que minimizan esta función es un problema que se puede resolver recurriendo a la derivación parcial de la función en términos de a y b: llamemos G a la función que se va a minimizar:

Tomemos las derivadas parciales de G respecto de a y b que son las incógnitas y las igualamos a cero; de esta forma se obtienen dos ecuaciones llamadas ecuaciones normales del modelo que pueden ser resueltas por cualquier método ya sea igualación o matrices para obtener los valores de a y b.


Derivamos parcialmente la ecuación respecto de a
Primera ecuación normal

Derivamos parcialmente la ecuación respecto de b
Segunda ecuación normal

Los valores de a y b se obtienen resolviendo el sistema de ecuaciones resultante. Veamos el siguiente ejemplo:
En un estudio económico se desea saber la relación entre el nivel de instrucción de las personas y el ingreso.
EJEMPLO 1
Se toma una muestra aleatoria de 8 ciudades de una región geográfica de 13 departamentos y se determina por los datos del censo el porcentaje de graduados en educación superior y la mediana del ingreso de cada ciudad, los resultados son los siguientes:
CIUDAD : 1 2 3 4 5 6 7 8
% de (X)
Graduados : 7.2 6.7 17.0 12.5 6.3 23.9 6.0 10.2
Ingreso (Y)
Mediana : 4.2 4.9 7.0 6.2 3.8 7.6 4.4 5.4 (0000)

Tenemos las ecuaciones normales

∑y = na + b∑x
∑xy = a∑x + b∑x²

Debemos encontrar los términos de las ecuaciones
∑y, ∑x, ∑xy, ∑ x² Por tanto procedemos de la siguiente forma:

Y
X
XY





4.2
7.2
30.24
51.84
4.9
6.7
32.83
44.89
7.0
17.0
119.00
289.00
6.2
12.5
77.50
156.25
3.8
6.3
23.94
39.69
7.6
23.9
181.64
571.21
4.4
6.0
26.40
36.00
5.4
10.2
55.08
104.04
43.5
89.8
546.63
1292.92

Sustituyendo en las ecuaciones los resultados obtenidos tenemos: 43.50 = 8a + 89.8b
546.63 = 89.8a + 1292.92b
multiplicamos la primera ecuación por (-89.8) y la segunda por (8) así:
43.50 = 8a + 89.8b (-89.8) 546.63 = 89.8a + 1292.92b (8)
-3906.30 = -718.4a - 8064.04b 4373.04 = 718.4a + 10343.36b
466.74 = -0- 2279.32b

Este valor de b lo reemplazamos en cualquiera de las ecuaciones para obtener a así:

Reemplazando b = 0.20477 en la primera ecuación normal

43.5 = 8a + 89.8 (0.20477) 43.5 = 8a + 18.3880 43.5 - 18.3880 = 8a 25.1120 = 8a
Tenemos entonces que los coeficientes de regresión son : a = 3.139 y b = 0.20477. Por tanto la ecuación de regresión nos queda:
Significa entonces que por cada incremento en una unidad en X el valor de se aumenta en 0.20477
Esta ecuación permite estimar el valor de para cualquier valor de X, por ejemplo: Una ciudad que tiene un porcentaje de graduados a nivel superior del 28% la mediana de ingreso para la ciudad será:

Los valores a y b también se pueden obtener de la siguiente forma: partiendo de las ecuaciones normales tenemos:
Si dividimos todos los términos de la ecuación (1) entre n nos queda:

Tenemos entonces que el primer termino es el segundo termino es la incógnita a y el tercer termino es la incógnita b multiplicada por por tanto nos queda:

entonces


Reemplazando a en la ecuación (2) tenemos


a = 5.4375 – 0.20477 (11.2250) = 5.4375 – 2.2985 = 3.139
Se debe tener presente la diferencia entre el valor de obtenido con la ecuación de regresión y el valor de Y observado. Mientras es una estimación y su bondad en la estimación depende de lo estrecha que sea la relación entre las dos variables que se estudian; Yー es el valor efectivo, verdadero obtenido mediante la observación del investigador. En el ejemplo Yー es el valor mediano del ingreso que obtuvo el investigador
utilizando todos los ingresos observados en cada ciudad y es el valor estimado con base en el modelo lineal utilizado para obtener la ecuación de regresión
Los valores estimados y observados pueden no ser iguales por ejemplo la primera ciudad tiene un ingreso mediano observado de Yー = 4.2 al reemplazar en la ecuación el porcentaje
de graduados obtenemos un estimado de
Gráficamente lo anterior se puede mostrar así:

Claramente se observa en la gráfica que hay una diferencia entre el valor efectivo de Yー y el valor estimado; esta diferencia se conoce como error en la estimación, este error se puede medir. A continuación se verá el procedimiento.
Error estándar en la estimación
El error estándar de la estimación designado por sYX mide la disparidad "promedio" entre
los valores observados y los valores estimados de . Se utiliza la siguiente formula.
Debemos entonces calcular los valores de para cada ciudad sustituyendo en la ecuación los valores de los porcentajes de graduados de cada ciudad estudiada.

Y
X
4.2
7.2
4.6
-0.4
0.16
4.9
6.7
4.5
0.4
0.16
7.0
17.0
6.6
0.4
0.16
6.2
12.5
5.7
0.5
0.25
3.8
6.3
4.4
-0.6
0.36
7.6
23.9
8.0
-0.4
0.16
4.4
6.0
4.4
0.0
0.00
5.4
10.2
5.2
0.2
0.04




1.29

Syx = 0.46 (decenas de miles $)

Como esta medida trata de resumir la disparidad entre lo observado y lo estimado, es decir, trata de medir la diferencia promedio entre lo observado y lo estimado ó esperado de acuerdo al modelo, puede considerarse como un indicador del grado de precisión con que la ecuación de regresión, describe la relación entre las dos variables. Este error estándar se ve afectado por las unidades y sus cambios ya que es una medida absoluta, pues, se da en la misma unidad de medida que esta dada la variable Y; en el ejemplo 0.46 serán decenas de miles de pesos, razón por la cual no es posible comparar con las relaciones de variables dadas en distinta unidad de medida. Es necesario entonces calcular una medida que interprete o mida mejor el grado de relación entre las variables.

Coeficiente de determinación.
El cambio de la variable Y generalmente depende de muchos factores, en ocasiones, difíciles de identificar; con el modelo lineal simple, sólo tenemos presente uno. Por ejemplo, en nuestro caso la mediana del ingreso depende no sólo del porcentaje de graduados en el nivel superior, que es, el factor que tenemos presente, pueden entrar a jugar factores tales como, la distribución de la edad en la población, la distribución por sexo en la población, la industrialización de la ciudad, el numero de universidades y muchos otros.
El coeficiente de determinación mide o interpreta la cantidad relativa de la variación que ha sido explicada por la recta de regresión, es decir, la proporción de cambio en Y explicado por un cambio en la variable X ( X es el factor que se utiliza para calcular la recta de ajuste o ecuación de regresión, en el ejemplo es el porcentaje de graduados en el nivel superior en cada ciudad).
Para el ejemplo el Coeficiente de determinación va a medir la proporción del cambio en el ingreso mediano de cada ciudad, debido o explicado por un cambio en el porcentaje de graduados en el nivel superior.
Veamos algunos componentes de la variabilidad en el análisis de regresión:
La diferencia entre cada valor de Yー observado y media se denomina variación de Y.
La diferencia entre estimado y media , es la variación tenida en cuenta por la ecuación de regresión, razón por la cual se denomina variación explicada de Y.

La diferencia entre Yー observado y estimado, son variaciones consideradas debidas a factores diferentes al tenido presente por la ecuación de regresión por eso se llama: variación no explicada de Y.
La diferencia entre Yー observado y estimado, son variaciones consideradas debidas a factores diferentes al tenido presente por la ecuación de regresión por eso se llama: variación no explicada de Y.

La sumatoria de las diferencias en cada una de las formas de variación la podemos representar así:


Gráficamente esta relación se puede representar así:
Se dijo anteriormente, que el coeficiente de determinación es la proporción de cambio explicado en Y, por cambio en X, es decir, la proporción que representa la variación explicada de la variación total. Recuerde una proporción es la relación de una parte con el total, por tanto, el coeficiente de determinación será:

En otras palabras el coeficiente de determinación es la relación entre la variación explicada y la variación total. Su valor siempre estará

METODO DE MINIMOS CUADRADOS

Mínimos cuadrados es una técnica de optimización matemática que, dada una serie de mediciones, intenta encontrar una función que se aproxime a los datos (un "mejor ajuste"). Intenta minimizar la suma de cuadrados de las diferencias ordenadas (llamadas residuos) entre los puntos generados por la función y los correspondientes en los datos. Específicamente, se llama mínimos cuadrados promedio (LMS) cuando el número de datos medidos es 1 y se usa el método de descenso por gradiente para minimizar el residuo cuadrado. Se sabe que LMS minimiza el residuo cuadrado esperado, con el mínimo de operaciones (por iteración). Pero requiere un gran número de iteraciones para converger.
Un requisito implícito para que funcione el método de mínimos cuadrados es que los errores de cada medida estén distribuidos de forma aleatoria. El teorema de Gauss-Markov prueba que los estimadores mínimos cuadráticos carecen de sesgo y que el muestreo de datos no tiene que ajustarse, por ejemplo, a una distribución normal. También es importante que los datos recogidos estén bien escogidos, para que permitan visibilidad en las variables que han de ser resueltas (para dar más peso a un dato en particular, véase mínimos cuadrados ponderados).
La técnica de mínimos cuadrados se usa comúnmente en el ajuste de curvas. Muchos otros problemas de optimización pueden expresarse también en forma de mínimos cuadrados, minimizando la energía o maximizando la entropía
Tabla de contenidos[ocultar]
1 Historia
2 Formulación del problema
3 Solución del problema de los mínimos cuadrados
4 Deducción geométrica del problema discreto
5 Mínimos cuadrados y análisis de regresión
6 Referencias
7 Véase también
8 Enlaces externos
//

Historia [editar]

Carl Friedrich Gauss
El día de Año Nuevo de 1801, el astrónomo italiano Giuseppe Piazzi descubrió el asteroide Ceres. Fue capaz de seguir su órbita durante 40 días. Durante el curso de ese año, muchos científicos intentaron estimar su trayectoria con base en las observaciones de Piazzi (resolver las ecuaciones no lineales de Kepler de movimiento es muy difícil). La mayoría de evaluaciones fueron inútiles; el único cálculo suficientemente preciso para permitir a Zach, astrónomo alemán, reencontrar a Ceres al final del año fue el de un Carl Friedrich Gauss de 24 años (los fundamentos de su enfoque ya los había plantado en 1795, cuando aún tenía 18 años). Pero su método de mínimos cuadrados no se publicó hasta 1809, apareciendo en el segundo volumen de su trabajo sobre mecánica celeste, Theoria Motus Corporum Coelestium in sctionibus conicis solem ambientium. El francés Adrien-Marie Legendre desarrolló el mismo método de forma independiente en 1805.
En 1829 Gauss fue capaz de establecer la razón del éxito maravilloso de este procedimiento: simplemente, el método de mínimos cuadrados es óptimo en muchos aspectos. El argumento concreto se conoce como teorema de Gauss-Markov.

Formulación del problema [editar]
Supóngase el conjunto de puntos (xk,yk), siendo . Sea una base de m funciones linealmente independientes fj(x), con . Queremos encontrar una función combinación lineal de las funciones base tal que , esto es:
Se trata de hallar los m coeficientes cj que hagan que la función aproximante f(x) sea la mejor aproximación a los puntos (xk,yk). El criterio de mejor aproximación puede variar, pero en general se basa en aquél que dé un menor error en la aproximación. El error en un punto (xk,yk) se podría definir como:
ek = yk − f(xk)
En este caso se trata de medir y minimizar el error en el conjunto de la aproximación. Dicho error podrá ser
Error Máximo:
Error Medio:
Error Cuadrático Medio:
La aproximación mínimo cuadrada se basa en la minimización del error cuadrático medio, o, equivalentemente en la minimización del radicando del error, el llamado error cuadrático, definido como:
Para llegar a este objetivo, suponemos que la función f es de una forma particular que contenga algunos parámetros que necesitamos determinar. Por ejemplo, supongamos que es cuadrática, lo que quiere decir que , donde no conocemos aún , y . Ahora buscamos los valores de , y que minimicen la suma de los cuadrados de los residuos (S):

Esto explica el nombre de mínimos cuadrados. A las funciones que multiplican a los coeficientes buscados, esto es, a x2, x y 1, se les conoce con el nombre de funciones base de la aproximación. Dichas funciones base pueden ser cualesquiera funciones, y para ese caso se deduce a continuación la fórmula general en el caso de que la aproximación sea discreta y lineal.
La aproximación de mínimos cuadrados es la mejor aproximación al conjunto de puntos (xk,yk), según el criterio del error mínimo cuadrático. Es posible generar otro tipo de aproximaciones si se toman los errores máximo o medio, pero la dificultad que entraña operar con ellos debido al valor absoluto de su expresión hace que apenas se usen.

Solución del problema de los mínimos cuadrados [editar]
La aproximación mínimo cuadrada tiene solución general para el caso de un problema de aproximación lineal en sus coeficientes cj cualesquiera sean las funciones base fj(x) antes expuestas. Por lineal se entiende f(x) es una combinación lineal de dichas funciones base. Para hallar la expresión de la fórmula general, es posible o bien minimizar el error cuadrático arriba expuesto, para lo cual se haría uso del cálculo multivariable (se trataría de un problema de optimización en cj), o alternativamente hacer uso del álgebra lineal en la llamada deducción geométrica. Para los Modelos estáticos uniecuacionales, el método de mínimos cuadrados no ha sido superado, a pesar de diversos intentos para ello, desde principios del Siglo XIX.

Deducción geométrica del problema discreto [editar]
La mejor aproximación deberá tender a interpolar la función de la que proviene el conjunto de pares (xk,yk), esto es, deberá tender a pasar exactamente por todos los puntos. Eso supone que se debería cumplir que:
f(xk) = yk, con k=1,2,...,n
Sustituyendo f(x) por su expresión:
Esto es, se tiene que verificar exactamente un sistema de n ecuaciones y m incógnitas, pero como en general n>m, dicho sistema está sobredeterminado, no tiene solución general. De ahí surge la necesidad de aproximarlo.
Dicho sistema podría expresarse en forma matricial como:

Esto es: Ac = b
La aproximación trata de hallar el vector c aproximante que mejor aproxime el sistema Ac = b.
Con dicho vector c aproximante, es posible definir el vector residuo como:
r = b − Ac
De manera que el mínimo error cuadrático supone minimizar el residuo, definiendo su tamaño en base a la norma euclídea o usual del residuo, que equivale al error cuadrático:
siendo (r,r)2 el producto interior o escalar del vector residuo sobre sí mismo.
Si atendemos al sistema Ac = b, entonces se ve claramente que al multiplicar A y c, lo que se realiza es una combinación lineal de las columnas de A:

El problema de aproximación será hallar aquella combinación lineal de columnas de A lo más cercana posible al vector b. Se comprueba que el conjunto de las columnas de A engendran un espacio vectorial del que son base, esto es, que forman un Span lineal: span(A1,A2,...,Am), al que el vector b no tiene porqué pertenecer (si lo hiciera, el sistema Ac=b tendría solución).
Entonces, de los infinitos vectores del span(A1,A2,...,Am) que son combinación lineal de los vectores de la base, se tratará de hallar el más cercano al vector b.
De entre todos ellos, el que cumple esto es la proyección ortogonal del b sobre span(A1,A2,...,Am), y que por tanto hace que el tamaño del vector r, que será el vector que una los extremos de los vectores b y proyección ortogonal de b sobre el span, sea mínimo, esto es, que minimiza su norma euclídea.
Es inmediato ver que si el residuo une b con su proyección ortogonal, entonces es a su vez ortogonal al span(A1,A2,...,Am), y a cada uno de los vectores de la base, esto es, ortogonal a cada columna de A.
La condición de minimización del residuo será:
Esto solo es cierto si:
A su vez, cada una de las m condiciones de perpendicularidad se puede agrupar en una sola:
Atr = 0
Sustituyendo el residuo por su expresión:
Por tanto, la mejor aproximación mínimo cuadrada lineal para un conjunto de puntos discretos, sean cuales sean las funciones base, se obtiene al resolver el sistema cuadrado:
AtAc = Atb.
A esta ecuación se le llama ecuación normal de Gauss, y es válida para cualquier conjunto de funciones base. Si estas son la unidad y la función x, entonces la aproximación se llama regresión lineal.
En el ejemplo anterior, f es lineal para los parámetros a, b y c. El problema se simplifica considerablemente en este caso y esencialmente se reduce a un sistema lineal de ecuaciones. Esto se explica en el artículo de los mínimos cuadrados lineales.
El problema es más complejo si f no es lineal para los parámetros a ser determinados. Entonces necesitamos resolver un problema de optimización general (sin restricciones). Se puede usar cualquier algoritmo para tal problema, como el método de Newton y el descenso por gradiente. Otra posibilidad es aplicar un algoritmo desarrollado especialmente para tratar con los problemas de mínimos cuadrados, como por ejemplo el algoritmo de Gauss-Newton o el algoritmo de Levenberg-Marquardt.

Mínimos cuadrados y análisis de regresión [editar]
En el análisis de regresión, se sustituye la relación

por

siendo el término de perturbación ε una variable aleatoria con media cero. Obśervese que estamos asumiendo que los valores x son exactos, y que todos los errores están en los valores y. De nuevo, distinguimos entre regresión lineal, en cuyo caso la función f es lineal para los parámetros a ser determinados (ej., f(x) = ax2 + bx + c), y regresión no lineal. Como antes, la regresión lineal es mucho más sencilla que la no lineal. (Es tentador pensar que la razón del nombre regresión lineal es que la gráfica de la función f(x) = ax + b es una línea. Ajustar una curva f(x) = ax2 + bx + c, estimando a, b y c por mínimos cuadrados es un ejemplo de regresión lineal porque el vector de estimadores mínimos cuadráticos de a, b y c es una transformación lineal del vector cuyos componentes son f(xi) + εi).
Los parámetros (a, b y c en el ejemplo anterior) se estiman con frecuencia mediante mínimos cuadrados: se toman aquellos valores que minimicen la suma S. El teorema de Gauss-Markov establece que los estimadores mínimos cuadráticos son óptimos en el sentido de que son los estimadores lineales insesgados de menor varianza, y por tanto de menor error cuadrático medio, si tomamos f(x) = ax + b estando a y b por determinar y con los términos de perturbación ε independientes y distribuidos idénticamente (véase el artículo si desea una explicación más detallada y con condiciones menos restrictivas sobre los términos de perturbación).
La estimación de mínimos cuadrados para modelos lineales es notoria por su falta de robustez frente a valores atípicos (outliers). Si la distribución de los atípicos es asimétrica, los estimadores pueden estar sesgados. En presencia de cualquier valor atípico, los estimadores mínimos cuadráticos son ineficientes y pueden serlo en extremo. Si aparecen valores atípicos en los datos, son más apropiados los métodos de regresión robusta.

CORRELACION

Correlación.

Recordemos que para el caso de una variable, la varianza era un parámetro que nos mostraba cuanta variación existía entre la media un conjunto de datos. En el mismo tenor, estamos en determinar la dependencia entre dos variables por lo que una primera propuesta es construir una medida que nos permita en forma análoga tratar la “variación”.

Se define la covarianza como la variación que existe entre los datos de dos variables, expresada como:


donde son las variables para n datos que intervienen en el estudio.
En realidad la correlación es una medida sobre el grado de relación entre dos variables, sin importar cual es la causa y cual es el efecto. La dependencia de la que se habla en este sentido es la dependencia entre la varianza de las variables.

Como hemos visto el manejo de unidades adimensionales nos permiten tener un coeficiente sobre el que de forma cómoda se pueda trabajar, por lo que podemos dividir entre el producto de las desviaciones de las variables, es decir:

los valores para este coeficiente están comprendidos entre -1 y 1.

Se tiene los siguientes criterios para r


entre mas se aproxima a los valores 1 y -1 la aproximación a una correlación se considera buena. Cuando mas se aleja de 1 o de -1 y se acerca a cero se tiene menos confianza en la dependencia lineal por lo que una aproximación lineal será lo menos apropiado, sin embargo no significa que no existe dependencia, lo único que podemos decir es que la dependencia no es lineal. Un valor positivo para r indica que a medida que una variable crece la otra también lo hace, por el contrario si su valor es negativo, lo que podemos decir es que a medida que una variable crece la otra decrece.
Datos influyentes
Ejemplos de correlación

Una vez que se determina que existe dependencia lineal un aspecto sumamente relevante es el investigar las características del modelo matemático que relaciona una variable con otra, así de esta forma podemos decir, una variable puede clasificarse como
determinístico y probabilistico. El modelo determinístico, que no será abordado en este curso, esta ligado a la ecuación que regula de forma determinante el comportamiento de un fenómeno, así por ejemplo podemos determinar a partir de la obtención de una ecuación sobre el potencial de frenado en un material, que ante cambios de la longitud de onda la relación es lineal no permitirá predecir cuales serán sus valores. Ecuaciones que permiten ver como es la oposición a la corriente eléctrica, o resistencia eléctrica, al aumentar la temperatura de un metal, entre otros, es un claro indicio de una ecuación que es determinística, en ella se podrá describir como cambiara la resistencia eléctrica del material en cuestión ante el aumento de una temperatura en el material. Por otro lado, los fenómenos probabilísticos están sujetos a la modelos que aunque puedan ser descritos por una ecuación no implica que todos los valores que intervienen en el estudio puedan ser localizados en el gráfico que los representan, y por supuesto un dato mas no es garantía que sea localizado en la ecuación.

A continuación será presentado un método para localizar en un fenómeno probabilístico la mejor línea recta que describa un fenómeno. Aunque el método de mínimos cuadrados permite encontrar la mejor ecuación para un conjunto de datos obtenidos de una muestra que puede ser aleatoria el método también permite obtener la ecuación para un fenómeno determinístico, y que por supuesto, en último caso el conjunto de puntos se ubicaran sobre la ecuación.
Línea de Regresión
Método de Mínimos Cuadrados

REGRESION

En estadística la regresión lineal o ajuste lineal es un método matemático que modeliza la relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:
donde β0 es la intersección o término "constante", las βi son los parámetros respectivos a cada variable independiente, y p es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.
Tabla de contenidos[ocultar]
1 Historia
1.1 Etimología
2 El modelo de regresión lineal
3 Supuestos del modelo de regresión lineal
4 Tipos de modelos de regresión lineal
4.1 Regresión lineal simple
4.1.1 Análisis
4.2 Regresión lineal múltiple
5 Rectas de regresión
6 Aplicaciones de la regresión lineal
6.1 Líneas de tendencia
6.2 Medicina
7 Véase también
8 Referencias
8.1 Fuentes adicionales
9 Enlaces externos
//

Historia [editar]
La primer forma de regresiones lineales documentada fue el método de los mínimos cuadrados, el cual fue publicado por Legendre en 1805,[1] y por Gauss en 1809.[2] El término "mínimos cuadrados" proviene de la descripción dada por Legendre "moindres carrés". Sin embargo Gauss aseguró que conocía dicho método desde 1795.
Tanto Legendre como Gauss aplicaron el método para determinar, a partir de observaciones astronómicas, las órbitas de cuerpos alrededor del sol. En 1821, Gauss publicó un trabajo en dónde desarrollaba de manera más profunda el método de los mínimos cuadrados,[3] y en dónde se incluía una versión del teorema de Gauss-Markov.

Etimología [editar]
El término regresión se utilizó por primera vez en el estudio de variables antropométricas: al comparar la estatura de padres e hijos, resultó que los hijos cuyos padres tenían una estatura muy superior al valor medio tendían a igualarse a éste, mientras que aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la estatura media; es decir, "regresaban" al promedio.[4] La constatación empírica de esta propiedad se vio reforzada más tarde con la justificación teórica de ese fenómeno.
El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que emplean modelos basados en cualquier clase de función matemática. Los modelos lineales son una explicación simplificada de la realidad, mucho más ágil y con un soporte teórico por parte de la matemática y la estadística mucho más extenso.

El modelo de regresión lineal [editar]
El modelo lineal relaciona la variable dependiente Y con K variables explicativas Xk (k = 1,...K), o cualquier transformación de éstas, que generan un hiperplano de parámetros βk desconocidos:
(2)
donde es la perturbación aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carácter estocástico. En el caso más sencillo de dos variables explicativas, el hiperplano es una recta:
(3)
El problema de la regresión consiste en elegir unos valores determinados para los parámetros desconocidos βk, de modo que la ecuación quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observación cualquiera i-ésima (i= 1,... I) se registra el comportamiento simultáneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables).
(4)
Los valores escogidos como estimadores de los parámetros, , son los coeficientes de regresión, sin que se pueda garantizar que coinciden con parámetros reales del proceso generador. Por tanto, en
(5)
Los valores son por su parte estimaciones de la perturbación aleatoria o errores.

Supuestos del modelo de regresión lineal [editar]
Para poder crear un modelo de regresión lineal, es necesario que se cumpla con los siguientes supuestos:[5]
La relación entre las variables es lineal.
Los errores son independientes.
Los errores tienen varianza constante.
Los errores tienen una esperanza matemática igual a cero.
El error total es la suma de todos los errores.

Tipos de modelos de regresión lineal [editar]
Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus parámetros:

Regresión lineal simple [editar]
Sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros. Son de la forma:[6]
(6)
donde es el error asociado a la medición del valor Xi y siguen los supuestos de modo que (media cero, varianza constante e igual a un σ y con ).

Análisis [editar]
Dado el modelo de regresión simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene:[7]
(7)
(8)
Calculando y . Para esto se buscan dichos parámetros que minimicen
Derivando respecto a β0 y β1 e igualando a cero, se obtiene:[7]
(9)
(10)
Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solución para ambos parámetros:[6]
(11)
(12)

Regresión lineal múltiple [editar]
Maneja varias variables independientes. Cuenta con varios parámetros. Se expresan de la forma:[8]
(13)
donde es el error asociado a la medición i del valor Xip y siguen los supuestos de modo que (media cero, varianza constante e igual a un σ y con ).

Rectas de regresión [editar]
Las rectas de regresión son las rectas que mejor se ajustan a la nube de puntos (o también llamado diagrama de dispersión) generada por una distribución binomial. Matemáticamente, son posibles dos rectas de máximo ajuste:[9]
La recta de regresión de Y sobre X:
(14)
La recta de regresión de X sobre Y:
(15)
La correlación ("r") de las rectas determinará la calidad del ajuste. Si r es cercano o igual a 1, el ajuste será bueno; si r es cercano o igual a 0, se tratará de un ajuste malo. Ambas rectas de regresión se intersectan en un punto llamado centro de gravedad de la distribución.

Aplicaciones de la regresión lineal [editar]

Líneas de tendencia [editar]
Véase también: Tendencia
Una línea de tendencia representa una tendencia en una serie de datos obtenidos a través de un largo periodo de tiempo. Este tipo de líneas puede decirnos si un conjunto de datos en particular (como por ejemplo, el PBI, el precio del petróleo o el valor de las acciones) han aumentado o decrementado en un determinado periodo de tiempo.[10] Se puede dibujar una línea de tendencia a simple vista fácilmente a partir de un grupo de puntos, pero su posición y pendiente se calcula de manera más precisa utilizando técnicas estadísticas como las regresiones lineales. Las líneas de tendencia son generalmente líneas rectas, aunque algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvatura deseada en la línea.

Medicina [editar]
En medicina, las primeras evidencias relacionando la mortalidad con el fumar tabaco[11] vinieron de estudios que utilizaban la regresión lineal. Los investigadores incluyen una gran cantidad de variables en su análisis de regresión en un esfuerzo por eliminar factores que pudieran producir correlaciones espurias. En el caso del tabaquismo, los investigadores incluyeron el estado socio-económico para asegurarse que los efectos de mortalidad por tabaquismo no sean un efecto de su educación o posición económica. No obstante, es imposible incluir todas las variables posibles en un estudio de regresión.[12] [13] En el ejemplo del tabaquismo, un hipotético gen podría aumentar la mortalidad y aumentar la propensión a adquirir enfermedades relacionadas con el consumo de tabaco. Por esta razón, en la actualidad las pruebas controladas aleatorias son consideradas mucho más confiables que los análisis de regresión

REGRESION

Regresión
De Wikipedia, la enciclopedia libre
Saltar a navegación, búsqueda
El término regresión puede hacer referencia a:
Regresión (estadística): la regresión estadística o regresión a la media es la tendencia de una medición extrema a presentarse más cercana a la media en una segunda medición.
Regresión (informática): las pruebas de regresión son cualquier tipo de pruebas de software que intentan descubrir las causas de nuevos errores (bugs), carencias de funcionalidad, o divergencias funcionales con respecto al comportamiento esperado del software.
Regresión (psicología): teoría freudiana de la regresión.
Regresión (parapsicología)
Regresión lineal (matemáticas) (estadística)
Regresión logística (estadística)
Regresión de arista o Regularización de Tikhonov (matemáticas)
Para la regresión en biología véase Atavismo.

miércoles, 23 de julio de 2008

SERIES DE TIEMPO

En estadística, procesamiento de señales, y econometría, una serie temporal es una secuencia de puntos de datos, medidos típicamente a intervalos de tiempo sucesivos , y espaciados (con frecuencia) de forma uniforme. El análisis de series temporales comprende métodos que ayudan a interpretar este tipo de datos, extrayendo información representativa, tanto referente a los orígenes o relaciones subyacentes como a la posibilidad de extrapolar y predecir su comportamiento futuro.
De hecho uno de los usos más habituales de las series de datos temporales es su análisis para predicción y pronóstico. Por ejemplo de los datos climáticos, o de las acciones de bolsa, o las series pluviométricas.

SERIES DE TIEMPO

2.1 Series de Tiempo
Una serie temporal o cronologica es un conjunto e observaciones de una variable, ordenadas segu transcurre el tiempo.
En una serie de tiempo las observaciones no se deben ordenar de mayor a menor debidoa que se perderia el grueso de la informacion debido a que nos intersea detectar como se mueve la variable en el tiempo es muy importante respetar la secuencia temporal de las observaciones.
2.2 Representacion de una Serie Temporal
Par realizar la reprsenyacion de una serie ytemporal se debe realizae mediante una gráfica de disprsión x-y como se muestra en la fig.1
Fig.1. Representación de una serie temporal
2.3 Componetes de una serie temporal
2.3.1 Tendencia
La tendencia es un movimiento de larga duración que muestra la evolucion general de laserie en el tiempo.
La tedencia es un movimiento que puede ser estacionario o ascendente, y su recorrido, una linea recta o una curva. Algunas de la posibles formas son las que se muestran en la fig.2
Fig.2. Representación de la tendencia
La tendencia es un movimiento que puede ser estacionario o ascendente o descendete como se indica en la fig.3
Fig. 3 Tendencias ascendente, estacionaria y descendente
Tambien son posibles algunas formas para la tendencia, que no necesariamente tiene una distribución de puntos en forma aproximadamente lienal sino como las que se muestran en la fig. 4
Fig.4 Líneas de tendencia de otras posibles formas.
2.3.2 Variaciones estacionales.
Se habla de este tipo de variaciones usualmente cuando el comportamiento de la variable en el tiempo ennun periodo esta relacionado con la época o un periodo particular, por lo general en el espacio cronologico presente.
Fig. 5 Variaciones estacionales
2.3.3 Variaciones ciclicas
Se llama asi a las ocilaciones a lo largo de una tendencia con uneriodo superiro al año. El ciclo sugiere la idea de que este tipo de movimiento se repite cada cirto periosodo con caracterisitica parecidas. Los ejemplos mas frecuentes se encuentran en le campo de las variables economicas, en esto ca casos se deben principalmente a la alternancia de las etapas de prosperidad y depresioin en la actividad economica.
2.3.4 Variaciones residuales
Cuando a parecen hechos imprevistos, repentinos que afecten las variables en estudio acotamndo que no podemos preveer nos hallamos frenta a variaciones residuales provocadas poe r factore extermis a leatorios.
Por ejemplo un dia lluvioso y frio durante el veranos es dificil de predecir y aunque perturbaria cuertas acrividades diarias como la venta de helasod no afectaria en este caso significativamente la serie.
3. ANALISIS DE LA TENDENCIA
En la practica es difícil distinguir la tendencia del comportamiento cíclico. Por ejemplo la gráfica puede conducirnos a concluir que existe una tendencia ascendente en la parte de 1980 a 1982, pero esto es una parte de la serie de tiempo más grande.
Fig, 6 Tendencias cecrecientes, crecientes entre periodos de tiempo
3.1 Método Gráfico
Mediante este método muy elemental se detemina la tendencia a perttir de una representación grafica de la serie.la aplicaion de este metodo es como sigue
Se representa graficamente la serie cronologica
Se unen los extremos superiores de la serie, se hace los mismo con los inferiores
Se obtiee dos lineas que encierran ala serie original
Uniendo los punto medios de las distancias entre las dos dlineas o curvas se obtiene la tendencia. La linea o curva de rendencia obtenida tnedra un trazad mucho mas suave que la serie original.
Fig. 7 Representacion tendencia estacionaria
3.2 Método de las medias móviles
Para este método se deben de considear los siguientes pasos que se detallan
Observar con detenimieto la serie para determinar aproximadamente la fluctuacion con periodo mas largo y llamamos q al numero de observaciones que forman una oscilacion compleja.
Se procede a calcular una serie de medias. La primera de ellas secalcula aprtir de las q promeras observaciones de la serie pero elimiando la primera observacion y añadiendo al ainmediata posterior. Se prosigue asi hasta calcular la media de la ultimas q observaciones.
Cada una de las medias obtenidas en le paso anterior se asigna al instane o momento dentral del perios temporal que promedian.
Uniendo las medias se obtiene la tendencia.
4. APLICACIÓN
Caso 1: Producción de Motociletas en una empresa japonesa, periodo 1974 - 1990
En la siguiente tabla se tiene la producción de motocicletas de una empresa (en millones de motos) en un periodo de 17 años que se muestra en la tabla Nº 1
Tabla Nº1
Venta de Motocicletas en un periodo de 17 años
(Producción en millones de motocicletas)
Años
Producción
Años
Producción
Años
Producción
1974
2.1
1980
2.2
1986
2.1
1975
1.9
1981
2.0
1987
1.9
1976
1.7
1982
1.8
1988
1.5
1977
1.5
1983
1.7
1989
1.4
1978
1.6
1984
1.9
1990
2.5
1979
2.0
1985
2.4
----
-----
Se traslada los datos a Microsoft Excel, ordenados en dos columnas, luego se realiza la gráfica de los datos.
Se obtiene la gráfica mostrada en la fig.8
Fig. 8 Representación de la serie de tiempo para las motocicletas por año
En la grafica se observa que los años donde se registra mayor producción son 1974, 1980, 1985,1990
Entonces podemos tomar cada cinco años como la cantidad de años para la cual la empresa realiza su mayor producción.
Sin embargo es conveniente encontrar una linea de tendencia tal que se pueda hallar una ecuación ajustada para los pronósticos de la producción en el tiempo.
Utilizando el método de la media móvil
Seconstruye una nueva tabla con las medias móviles
Esto es para suavizar la distribución de puntos
Fig. 9 Serie original y serie suavizada por los promedios móviles
Hallando la linea de tendencia
En Microsoft Excel, la línea de tendencia para la curva suavizada se obtiene fácilmente y se nuestra en la fig 10
Fig. 10. Línea de tendencia con R2 = 0.4169
El coeficiente de determinación es muy pequeño por lo que no se puede asegurar categóricamente que la ecuación lineal hallada es la que pronostica la producción en los años posteriores.
Será necesario realizar un segundo arreglo con medias móviles
El problema ahora es que el periodo donde alcanza la mayor producción es un numero par de años, por lo que se hace difícil en la tabla hallar el año central, realizando el promedio de
Fig.11 Suavizando la línea de tendencia por segunda vez
La fig. 11 muestra la segunda suavizada de la línea de tendencia, no ha variado mucho con respecto a la primera,.
Caso 2: Temperatura en Lima – Aeropuerto Internacional Jorge Chávez, periodo 2000- 2004
En la ciudad de Lima (Perú) el el Aeropuerto Internacional Jorge Chávez, las tempraturas registradas durante los años 2000, 2001, 2002, 2003, 2004 consideramos en este caso solo los primeros cuatro meses de cada año, las temperaturas registradas por cada mes promediados son las que se muestran en la tabla Nº1
Tabla Nº 2
Temperaturas de Lima – Aeropuerto Internacional Jorge Chávez ( Lima –Perú) 2000 – 2004
2000
T ( º C )
2001
T ( º C )
2002
T ( º C )
2003
T ( º C )
2004
T ( º C )
Enero
21.835
21.694
21.132
22.257
20.443
Febrero
21.835
23.070
22.654
23.286
22.959
Marzo
21.113
22.181
22.654
22.053
21.887
Abril
21.113
20.440
21.270
19.340
20.443
Representación gráfica
Primero se organizan los datos de manera conveniente en lahoja de cáculo excel, Se obtine la siguiente representación de los datos
Fig. 12 Representación gráfica de los fatos de temperatura por cuatrimestrew

SERIES DE TIEMPO