Consultar ensayos de calidad


Informe practico estadística descriptiva



Buscar, dentro de la información contenida en anuarios, revistas, etc., tres series de datos: una nominal, otra ordinal y otra de intervalo. Especificar la referencia de la fuente incluyendo fotocopia del documento.

Medida nominal

Población: Películas pertenecientes a una saga.

Caracter a estudio: Saga a la que pertenecen.

Cuantificación del caracter

Serie resultante: 11111122233333344444455556666777888

Fuente: Revista Cinemanía. https://www.cinemania.es/

Medida ordinal

(Varios ejemplos)


Población: Personas encuestadas para una revista de salud.

Caracter a estudio: Nivel de estudios

Cuantificación del caracter:


Estudios
Analfabeto | 1 |
Inferior | 2 |
Medio | 3 |
Superior | 4 |

Serie resultante: 1..119..1,2..5836..2,3..1556..3,4..598..4

Fuente: https://scielo.isciii.es/scielo.php?pid=S1135-57272004000400010&script=sci_arttext
Medida de Intervalo:

Países según usuarios de internet:

EE.UU. | 166 Mill. |
Japón | 47 Mill. |
Gran Bretaña | 33 Mill. |
Alemania | 28 Mill. |
China | 26 Mill. |
Corea del Sur | 22 Mill. |
Italia | 19 Mill. |
Canada | 14 Mill. |
Brasil | 11 Mill. |
Francia | 11 Mill. |
Taiwan | 11 Mill. |
Australia | 10 Mill. |
Rusia | 9 Mill. |
Países Bajos | 8 Mill. |
España | 7 Mill. |
Suecia | 5 Mill. |
India | 5 Mill. |
Malasia | 4 Mill. |
Turquía | 4 Mill. |
Argentina | 3 Mill. |

Población: Países delmundo.

Caracter a estudio: nº de usuarios de internet

Serie resultante: 3.9, 4.0, 4.1, 5.0, 5.6, 7.4, 8.7, 9.2, 10.0, 11.6, 11.7, 11.9, 14.4, 19.2, 22.2, 26.5, 28.6, 33.0, 47.1, 166.0

Fuente: https://www.pro-tran.com/es/Sprachen-Daten/Sprachen-Daten.html

II)Sobre una variable estadística multidimensional, se propone:

Describir graficamente ese conjunto de datos multidimensionales. Conclusiones.

CLUSTERS

Podemos dividir los clústers o agrupaciones en dos tipos; en estrellas grandes o en estrellas pequeñas. A su vez cada grupo lo podemos dividir en estrellas regulares o estrellas irregulares. Así podemos ver en el grafico de los primeros veinticinco valores, podemos ver que los valores del uno al cinco son estrellas pequeñas y regulares, al igual que los valores del veintiuno al veinticinco. Así que por su regularidad podemos deducir que tanto su densidad, como su extensión, como su porcentaje de producción y su renta per capita estan equilibrados e igualados a un pequeño nivel. Por otro lado podemos observar que las estrellas de la diez a la catorce, y de la dieciseis a la veinte son estrellas regulares con un tamaño grande respecto al resto, con lo que podemos deducir lo mismo que antes solo que ahora en un mayor tamaño/cantidad tanto en renta per capita, como en extensión, densidad y porcentaje de producción. El resto de estrellas son grandes e irregulares y tienden a ser irregulares en la relación de extensión, densidad y porcentaje de producción, siendo directamente proporcional.
La extensión en este caso no tiene mucha relación, siendo ésta arbitraria a veces grande como en la estrella número trece y a veces pequeña como en la estrella número ocho y siete.

A su vez podemos hacerla misma relación con las veinticinco estrellas siguienes; Todas tienden a ser todas irregulares, con la misma irregularidad que hemos explicado antes, solo que en este caso todas tienden a ser pequeñas, exceptuando las estrellas cuarenta y cuarenta y ocho que son grandes.

Por la grafica de puntos podemos ver que la relación entre la extensión y la densidad es inversamente proporcional en una relación cuadratica.
La relación entre la extensión y el porcentaje de producción y la relación entre la extensión y la renta per capita es una nube de puntos sin mucha relación entre ellos.
La relación entre la densidad y el porcentaje de producción y la relación entre la densidad y la renta per capita es directamente proporcional y sigue una relación cuadratica.
Por último la relación entre el porcentaje de producción y la renta per capita es directamente proporcional siguiendo una relación lineal.

Poner un ejemplo de una distribución marginal y de otra condicionada, dando una interpretación a las mismas.

Tabla de Frecuencias para RPC_1 por SSECUND_1
| 2 | 3 | 4 | 5 | 7 | Total por Fila |
1 | 5 | 6 | 0 | 0 | 0 | 11 |
| 10,00% | 12,00% | 0,00% | 0,00% | 0,00% | 22,00% |
2 | 0 | 8 | 6 | 0 | 0 | 14 |
| 0,00% | 16,00% | 12,00% | 0,00% | 0,00% | 28,00% |
3 | 0 | 4 | 5 | 1 | 0 | 10 |
| 0,00% | 8,00% | 10,00% | 2,00% | 0,00% | 20,00% |
4 | 0 | 0 | 3 | 4 | 0 | 7 |
| 0,00% | 0,00% | 6,00% | 8,00% | 0,00% | 14,00% |
5 | 0 | 0 | 1| 2 | 0 | 3 |
| 0,00% | 0,00% | 2,00% | 4,00% | 0,00% | 6,00% |
6 | 0 | 0 | 0 | 1 | 4 | 5 |
| 0,00% | 0,00% | 0,00% | 2,00% | 8,00% | 10,00% |
Total por Columna | 5 | 18 | 15 | 8 | 4 | 50 |
| 10,00% | 36,00% | 30,00% | 16,00% | 8,00% | 100,00% |
Contenido de las celdas:
Frecuencia Observada
Porcentaje de la Tabla

El StatAdvisor
Esta tabla muestra con qué frecuencia se presentan los 6 valores de RPC_1 junto con cada uno de los 5 valores de SSECUND_1. El primer número de cada celda en la tabla es el recuento o frecuencia. El segundo número muestra el porcentaje de toda la tabla que representa esa celda. Por ejemplo, hubo 5 veces en las que RPC_1 es igual a 1 y SSECUND_1 es igual a 2. Esto representa el 10 % del total de las 50 observaciones.

Distribuciones marginales:

X (RPC) | Frecuencia absoluta | Frecuencia relativa |
[210,0 - 281,429) | 11 | 22 |
[281,429 - 352,857) | 14 | 28 |
[352,857 - 424,286) | 10 | 20 |
[424,286 - 495,714) | 7 | 14 |
[495,714 - 567,143) | 3 | 6 |
[567,143 - 638,571) | 4 | 10 |
[638,571 - 710,0) | 0 | 0 |
TOTAL | 50 | 100 |

Y (SSECUND) | Frecuencia absoluta | Frecuencia relativa |
[0,0 - 8571,43) | 0 | 0 |
[8571,43 - 17142,9) | 5 | 10 |
[17142,9 - 25714,3) | 18 | 36 |
[25714,3 - 34285,7) | 15 | 30 |
[34285,7 - 42857,1) | 8 | 16 |
[42857,1 - 51428,6) | 0 | 0 |
[51428,6 - 60000,0)| 4 | 8 |
TOTAL | 50 | 100 |
Distribución condicionada:

X/Y = 3 | Frecuencia absoluta | Frecuencia relativa |
[0,0 - 8571,43) | 6 | 12 |
[8571,43 - 17142,9) | 8 | 16 |
[17142,9 - 25714,3) | 4 | 8 |
[25714,3 - 34285,7) | 0 | 0 |
[34285,7 - 42857,1) | 0 | 0 |
[42857,1 - 51428,6) | 0 | 0 |
[51428,6 - 60000,0) | 0 | 0 |
TOTAL | 18 | 36 |

Histogramas tridimensionales

Realizar el siguiente estudio sobre dos de las variables unidimensionales de las que se compone la variable del apartado II:

Variables: Densidad, RCP:

Realizar una tabulación de frecuencia de los datos

Tabla de Frecuencias para DENSIDAD
| Límite | Límite | Frecuencia | Frecuencia | Frecuencia |
Clase | Inferior | Superior | Punto Medio | Frecuencia | Relativa | Acumulada | Rel. Acum. |
| menor o igual | 10199,0 0 | 0,0000 | 0 | 0,0000 |
1 | 10199,0 | 91370,7 | 50784,9 | 34 | 0,6800 | 34 | 0,6800 |
2 | 91370,7 | 172542, | 131957, | 6 | 0,1200 | 40 | 0,8000 |
3 | 172542, | 253714, | 213128, | 4 | 0,0800 | 44 | 0,8800 |
4 | 253714, | 334886, | 294300, | 2 | 0,0400 | 46 | 0,9200 |
5 | 334886, | 416058, | 375472, | 1 | 0,0200 | 47 | 0,9400 |
6 | 416058, | 497229, | 456643, | 0 | 0,0000 | 47 | 0,9400 |
7 | 497229, | 578401, | 537815, | 3 | 0,0600| 50 | 1,0000 |
| mayor de | 578401, 0 | 0,0000 | 50 | 1,0000 |
Media = 107320, Desviación Estandar = 139456,

Tabla de Frecuencias para RPC
| Límite | Límite | Frecuencia | Frecuencia | Frecuencia |
Clase | Inferior | Superior | Punto Medio | Frecuencia | Relativa | Acumulada | Rel. Acum. |
| menor o igual | 230,0 0 | 0,0000 | 0 | 0,0000 |
1 | 230,0 | 288,143 | 259,071 | 12 | 0,2400 | 12 | 0,2400 |
2 | 288,143 | 346,286 | 317,214 | 11 | 0,2200 | 23 | 0,4600 |
3 | 346,286 | 404,429 | 375,357 | 8 | 0,1600 | 31 | 0,6200 |
4 | 404,429 | 462,571 | 433,5 | 9 | 0,1800 | 40 | 0,8000 |
5 | 462,571 | 520,714 | 491,643 | 3 | 0,0600 | 43 | 0,8600 |
6 | 520,714 | 578,857 | 549,786 | 2 | 0,0400 | 45 | 0,9000 |
7 | 578,857 | 637,0 | 607,929 | 5 | 0,1000 | 50 | 1,0000 |
| mayor de | 637,0 0 | 0,0000 | 50 | 1,0000 |
Media = 381,402 Desviación Estandar = 111,818

Se divide el rango de las variables en intervalos uniforme y se cuenta el número de valores de los datos que se encuentran en cada intervalo. La frecuecia absoluta muestra el número de valores que hay en el intervalo y la frecuencia relativa la concentración de valores de cada intervalo.

RPC: Se observa somo disminuye la frecuencia de datos cuando crecen los valores del intervalo. El intervalo 1 es el que mas concentraciónde datos tiene (24%). En el intervalo 7 crece un poco respecto a los anteriores.

DENSIDAD: Disminuye la frecuencia cuando crecen los valores del intervalo. La mayor concentración de datos esta en el intervalo 1 (68%), con mucha diferencia respecto a los demas. En el intervalo 6 no hay ningún dato.

Representar graficamente dichos datos. Utilizar para ello representaciones diferenciales, histogramas o diagrama de barras, y representaciones integrales, curvas de frecuencias relativas acumuladas. En el caso de una v.a. continua, justificar la elección de un número concreto de clases; para ello jugar con diferentes números de éstas.

DENSIDAD: La agrupación de datos es totalmente asimétrica, la mayoría estan en la primera y segunda clase, y en el resto es casi inexistente, por lo que tendra mas valores atípicos.

RPC: Se nota una cierta simetría, a iferencia del histograma de DENSIDAD, aunque no es totalmente simétrica.

Curvas de frecuencia acumulada

Se observa en la curva de frecuencia relativa acumulada de RPC tiene los datos mucho mas repartidos que DENSIDAD, que empieza en 0,68.

Representar esas dos variables mediante un diagrama tallo-hoja.Interpretaciones.

Diagrama de Tallo y Hoja para DENSIDAD: unidad = 10000 1|2 representa 120000,

(26) 0|11111222222222222333444444
24 0|555677799
15 1|0222
11 1|57779

ALTO|288700, 322200, 354100, 538800, 555700, 578400,

Diagrama de Tallo y Hoja para RPC: unidad = 10,0 1|2 representa 120,0

5 2|33333
12 2|6677778
25 3|0011122223344
25 3|557789
19 4|011234
13 4|55669
8 5|02
6 5|688
3 6|123

El rango de los datos esta dividido en intervalos (llamados tallos), cada uno representado por un renglónen la tabla. Los tallos se etiquetan utilizando uno ó mas dígitos indicadores para los valores que caen dentro de ese intervalo. En cada renglón, los valores individuales se representan por un dígito (llamado hoja) a la derecha de la línea vertical. Si hay algunos puntos muy alejados del resto (llamados puntos lejanos), se colocan en tallos alto y bajo separados.La columna de números de la extrema izquierda contiene los recuentos acumulados desde el inicio y desde el fondo de la tabla, deteniéndose en el renglón que contiene a la mediana. En el caso de densidad, hay 6 puntos alejados. Los puntos alejados se muestran graficamente en la grafica de caja y bigote. También se observa que en el caso de rpc los elementos estan mucho mas repartidos y no hay puntos alejados.

Dar e interpretar los valores numéricos que resumen esos conjuntos de datos.

Resumen Estadístico para RPC
Recuento | 50 |
Promedio | 381,402 |
Mediana | 351,35 |
Moda | 235,5 |
Varianza | 12503,3 |
Desviación Estandar | 111,818 |
Coeficiente de Variación | 29,3177% |
Mínimo | 231,0 |
Maximo | 636,8 |
Rango | 405,8 |
Cuartil Inferior | 306,6 |
Cuartil Superior | 451,3 |
Rango Intercuartílico | 144,7 |
Sesgo Estandarizado | 2,13222 |
Curtosis | -0,276844 |
Curtosis Estandarizada | -0,399589 |
Suma | 19070,1 |

Observando el sesgo estandarizado y la curtosis estandar, se puede observar que los datos son bastante simétricos y pueden provenir de una distribución normal (para ello los valores deben estar entre 2 y -2).

Resumen Estadístico para DENSIDAD
Recuento | 50|
Promedio | 107320, |
Mediana | 48500,0 |
Moda
Varianza | 1,94478E10 |
Desviación Estandar | 139456, |
Coeficiente de Variación | 129,944% |
Mínimo | 10200,0 |
Maximo | 578400, |
Rango | 568200, |
Cuartil Inferior | 24200,0 |
Cuartil Superior | 124000, |
Rango Intercuartílico | 99800,0 |
Sesgo Estandarizado | 6,63818 |
Curtosis | 4,89138 |
Curtosis Estandarizada | 7,0601 |
Suma | 5,366E6 |

Aquí se puede observar que la distribución de los datos es mas asimétrica y no provendrían de una distribución normal.

El recuento son la cantidad de datos que tenemos, en este caso cincuenta datos.
El promedio es el valor medio es decir, la suma de todos los datos dividido entre todos los datos.
La mediana es el valor intermedio de los datos.
La moda es el valor que mas se repite.
Los valores maximos y mínimos en este caso se corresponden con 636 y con 231,0 respectivamente. (en el caso del RPC).
Los cuartiles quedan reflejados en el grafico de caja y bigotes.

Reconocimiento de valores atípicos mediante el diagrama de cajas.

Los bigotes representan el espcio entre el primer y el seguno cuartil. El rectangulo indica el rango intercuantil y encierra los datos típicos. En el grafico de caja y bigotes de RPC podemos observar que no hay valores atípicos en él. Por otro lado en el grafico de caja y bigotes de DENSIDAD podemos observar valores atípicos alrededor del tres y también entre el cinco y el seis.
Se observa que el grafico de DSP esta mas equilibrado que el de DENSIDAD, y la media y la mediana estan mas cerca una de la otra.


Política de privacidad