ANÁLISIS EN LA BASE DE DATOS IRIS
Autores: Diana Laura Aguirre Capistran y Judith Maydet Pérez Rodríguez
INTRODUCCIÓN
El presente trabajo esta realizado respecto a la base de datos iris con cinco variables que son el largo del sépalo, ancho del sépalo, largo del pétalo, ancho del pétalo y especies, las tres plantas versicolor, setosa y virginica, también se puede encontrar como iris conjunto de datos de Anderson porque Edgar Anderson coleccionó los datos para cuantificar la variación morfológica de la flor iris especies relacionadas. Dos de las tres especies se coleccionaron en la Península de Gaspesia ya que todos son de la misma pastura, recolectadas el mismo día y medidos al mismo tiempo, por la misma persona, con el mismo aparato por años. Se ejecuto el análisis exploratorio con histogramas, gráfica de pastel, gráficas de dispersión, gráficas de cajas, alambres y gráficas de caritas de Chernoff todo con el fin de darle una representación adecuada a los datos.
Para el análisis de la base de datos iris se realizara un modelo descriptivo, lo que pretende es evaluar ciertas características de las variables, es decir, las relaciones que pueden existir entre ellas.
DATOS
Requerimiento de datos: Fueron 150 observaciones recolectadas durante varios años por Edgar Anderson fue utilizada para demostrar que estas medidas podrían utilizarse para diferenciar entre especies de plantas iris. El conjunto de datos proporciona 5 variables de entrada que son una mezcla de tipos de datos categóricos y numéricos. La lista completa de variables es la siguiente:
- Largo del sépalo
- Ancho de sépalo
- Largo del pétalo
- Ancho de pétalo
- Especies
Recolección de los datos: Como lo que se necesita estudiar es la base de datos Iris, el tipo de base de datos fue tomada de la pagina Machine learning Repository, por lo que no se necesito ninguna recolección de datos. Esta compuesta por 150 observaciones de flores de la planta iris. En donde, existen tres tipos de clases de flores iris: virginica, setosa y versicolor. Hay 50 observaciones de cada una.
Comprensión de los datos: las variables o atributos que se miden de cada flor son:
- Longitud del sépalo en cm (Sepal.Length)
- Ancho del sépalo en cm (Sepal.Width)
- Longitud del pétalo en cm (Petal.Length)
- Ancho del pétalo en cm (Petal.Width)
- Clase (Species)
Para la preparación de los datos en primer paso se necesitaron nueve paqueterías:
- ggplot2: Es una librería de R que consiste en un sistema organizado de visualización de datos
- plyr: El paquete proporciona un conjunto de funciones para poder operar sobre listas o data frame y arrays (matrices, o vectores n-dimensional.
- ROCR: ES una de las varias paquetes en R para calcular y dibujar curvas de ROC.
- corrplot: la función crea un gráfico de una matriz de correlación, coloreando las regiones según el nivel de correlación.
- caret; Incluye una serie de funciones que facilitan el uso de decenas de métodos complejos de clasificación y regresión.
- rworldmap; Es un paquete en R para mapear datos globales.
- data.table: Permite la manipulación de los datos como subconjunto, grupo, actualización, unión etc. Están todas intrínsecamente relacionadas.
- readxl: Sirve para importar datos desde este tipo de archivos.
Para el análisis exploratorio fue necesario antes leer la base de datos y transformarla en un data frame.
Tabla 1: Base iris
Fuente: Data frame creada en R Cloud. |
ANÁLISIS EXPLORATORIO
Todos los pares de las cuatro variables de iris usando un color y un carácter distinto. Para cada especie. Como se muestra en el gráfico 1: matriz de dispersión las cuatro variables están positivamente correlacionadas. La relación más intensa parece ser entre la longitud del pétalo (petal length) y ancho del pétalo (petal width) los puntos de datos del gráfico de dispersión de la longitud del pétalo y ancho del pétalo son los que mejor se conglomeran alrededor de una línea imaginaria.
Fuente: Matriz de dispersión creada en R Cloud. |
Análisis exploratorio con parámetros
|
En la Gráfica 2 se obtiene la frecuencia de las cinco variables: Largo del sépalo, Ancho de sépalo, Largo del pétalo, Ancho de pétalo y Especies, se muestra que con mayor frecuencia tiene 37 flores y su largo del sépalo se encuentra entre 6 y 6.5. Y el mínimo de la frecuencia es de 5 flores que mide entre 4 y 4.5 de largo de cualquiera de las tres flores. Para la gráfica largo del pétalo la mayor frecuencia es de 40 flores con un largo de pétalo entre 1 y 1.5, para la menor frecuencia son 2 flores con un largo en un intervalo entre 2.5 y 3. Ancho del pétalo con mayor frecuencia es 22 flores con un ancho de 0.2 y la menor frecuencia es de 1 flor con una medida de ancho de 0.5. Para cada especie de Versicolor, Setosa y Virginica existe un 33 %.que equivale a 50 flores de cada especie.
Para poder tener los datos con mayor visibilidad he identificar el análisis descriptivo se realiza los histogramas y diagramas de cajas por cada variable.
Imagen 3: Longitud del Sépalo |
|
Imagen 4: Ancho del Sépalo |
|
|
Variable en cuestión de variable en cuestión del ancho del pétalo en un histograma y un diagrama de cajas de bigotes
Imagen 6: Ancho del pétalo |
|
Variable en cuestión de las tres especies Setosa, Versicolor y Virginica en un diagrama de cajas y bigotes.
Los boxplots muestran una línea gruesa central (la mediana), una caja, que delimita el primer y tercer cuartil y los bigotes, los cuales se extienden hasta los valores extremos. En el caso que estos valores estén por sobre 1.5 veces la distancia entre el primer y tercer cuartil, estos serán representados por puntos (siendo considerados outlyers). en la imagen 7, sólo Iris virginica presenta un outlayer en cuanto a las medidas del largo del sépalo.
Imagen 8: Especies |
Fuente: Gráfico de dispersión creada en R Cloud.
Se muestra en el gráfico general los datos atípicos por cada especie
Imagen 9: Tres variables |
Fuente: Diagrama cajas de bigotes creada en R Cloud. |
Fuente: Gráfico caritas de Chernoff creada en R Cloud. |
Imagen 11: Modelo lineal |
Fuente: Gráfico de dispersión con creada en R Cloud. |
1) Asociación lineal entre las variables:
Imagen 12: Verificación
Fuente: Gráfico creada en R Cloud. |
Petal.Length =−7.10144+1.85843(Sepal.Length) donde el valor de R2=0.76 indica que el 76% de la variabilidad en la longitud del pétalo puede ser explicada por la variabilidad en la longitud del sépalo. Vemos que la asociación entre la longitud del pétalo y la longitud del sépalo es estadísticamente significativa, con valor P<2e−16.
PAJNXKSS
Imagen 13: Gráfico dispersión
Fuente: Gráfico creada en R Cloud. |
Fuente: Histograma creada en R Cloud. |
Un gráfico Q-Q también sería muy útil para determinar si los residuales siguen una distribución normal:
Fuente: Gráfica creada en R Cloud. |
Imagen 16: Gráfico de dispersión de los residuales |
Fuente: Gráfica creada en R Cloud. |
Comentarios
Publicar un comentario