from sklearn.datasets import fetch_openml
import pandas as pd
import matplotlib.pyplot as plt
import missingno as msno
import seaborn as sns
import numpy as np


            
              # Descargar el conjunto de datos de openml
dataset = fetch_openml(data_id = 42803,
                       as_frame = True)

# Extraiga la matriz de características X y muestre 5 muestras aleatorias
df_X = dataset["frame"]
df_X.sample(5)


            
              # Mostrar el tamaño del conjunto de datos
df_X.shape

(363243, 67)


            
              # Cuente cuántas veces está presente cada tipo de datos en el conjunto de datos
pd.value_counts(df_X.dtypes)

float64    61
object      6
dtype: int64


            
              # Mostrar características no numéricas
df_X.select_dtypes(exclude = "number").head()


            
              # Cambia el tipo de datos de 'Sex_of_Driver'
df_X["Sex_of_Driver"] = df_X["Sex_of_Driver"].astype("float")


            
              df_X.describe(exclude = "number")


            
              # Para cada característica numérica, calcule el número de entradas únicas
unique_values = df_X.select_dtypes(include = "number").nunique().sort_values()

# Trazar información con el eje y en escala logarítmica
unique_values.plot.bar(logy = True,
                       figsize = (15, 4),
                       title = "Valores únicos por característica");


            
              # Verifique el número de duplicados mientras ignora la función de índice
n_duplicates = df_X.drop(labels = ["Accident_Index"],
                         axis = 1).duplicated().sum()
print(f"pareces tener {n_duplicates} duplicados en su base de datos.")

pareces tener 22 duplicados en su base de datos.


            
              #  Extraiga los nombres de columna de todas las funciones, excepto 'Accident_Index'
columns_to_consider = df_X.drop(labels = ["Accident_Index"],
                                axis = 1).columns

# Eliminar duplicados en función de 'columns_to_consider'
df_X = df_X.drop_duplicates(subset = columns_to_consider)
df_X.shape

(363221, 67)


            
              plt.figure(figsize = (10, 8))
plt.imshow(df_X.isna(),
           aspect = "auto",
           interpolation = "nearest",
           cmap = "gray")
plt.xlabel("Número de columna")
plt.ylabel("Numero de muestra");


            
              msno.matrix(df_X,
            labels = True,
            sort = "descending");


            
              df_X = df_X.dropna(thresh = df_X.shape[1] * 0.80,
                   axis = 0).reset_index(drop = True)
df_X.shape

(319790, 67)


            
              df_X.isna().mean().sort_values().plot(
    kind = "bar", figsize = (15, 4),
    title = "Porcentaje de valores faltantes por característica",
    ylabel = "Proporción de valores perdidos por característica");


            
              df_X = df_X.dropna(thresh = df_X.shape[0] * 0.85,
                   axis = 1)
df_X.shape

(319790, 60)


            
              df_X.plot(lw = 0,
          marker = ".",
          subplots = True,
          layout = (-1, 4),
          figsize = (15, 30),
          markersize = 1);


            
              # Extraer propiedades descriptivas de características no numéricas
df_X.describe(exclude = ["number",
                         "datetime"])


            
              # Crear objeto de figura con 3 subparcelas
fig, axes = plt.subplots(ncols = 1,
                         nrows = 3,
                         figsize = (12, 8)
                        )
# Identificar características no numéricas
df_non_numerical = df_X.select_dtypes(exclude = ["number",
                                                 "datetime"]
                                     )
# Recorra las funciones y coloque cada subtrama en un objeto de eje matplotlib
for col, ax in zip(df_non_numerical.columns, axes.ravel()):
    # Selecciona una sola característica y cuenta el número de ocurrencias por valor único
    df_non_numerical[col].value_counts().plot(
        # Traza esta información en una figura con el eje Y a escala logarítmica
        logy = True,
        title = col,
        lw = 0,
        marker = ".",
        ax = ax)
plt.tight_layout();


            
              # Recopilar valores de entrada de los 10 accidentes más frecuentes
accident_ids = df_non_numerical["Accident_Index"].value_counts().head(10).index

# Elimina accidentes de la lista 'accident_ids'
df_X = df_X[~df_X["Accident_Index"].isin(accident_ids)]
df_X.shape

(317665, 60)


            
              # Traza el histograma para cada característica numérica en una subparcela separada
df_X.hist(bins = 25,
          figsize = (15, 25),
          layout = (-1, 5),
          edgecolor ="black"
         )
plt.tight_layout();


            
              # Recopila para cada característica la entrada más frecuente
most_frequent_entry = df_X.mode()
# Comprueba para cada entrada si contiene la entrada más frecuente
df_freq = df_X.eq(most_frequent_entry.values,
                  axis = 1
                 )
# Calcula la media de la ocurrencia 'is_most_frequent'
df_freq = df_freq.mean().sort_values(ascending = False)
# Muestre las 5 funciones principales con la proporción más alta de contenido de valor singular
display(df_freq.head())
# Visualiza la tabla 'df_freq'
df_freq.plot.bar(figsize = (15, 4));

Pedestrian_Crossing-Human_Control    0.995259
Was_Vehicle_Left_Hand_Drive?         0.990137
Carriageway_Hazards                  0.983646
Towing_and_Articulation              0.983221
Vehicle_Location-Restricted_Lane     0.982088
dtype: float64


            
              df_X[["Location_Northing_OSGR",
      "1st_Road_Number",
      "Journey_Purpose_of_Driver",
      "Pedestrian_Crossing-Physical_Facilities"]].plot(lw = 0,
                                                       marker = ".",
                                                       subplots = True,
                                                       layout = (-1, 2),
                                                       markersize = 0.1,
                                                       figsize = (15, 6));


            
              # Crea una máscara para identificar características
# numéricas con más o menos de 25 características únicas
cols_continuous = df_X.select_dtypes(include = "number").nunique() >= 25


            
              # Cree un nuevo marco de datos que solo contenga las características continuas
df_continuous = df_X[cols_continuous[cols_continuous].index]
df_continuous.shape

(317665, 11)


            
              sns.pairplot(df_continuous,
             height = 1.5,
             plot_kws = {"s": 2, "alpha": 0.2});


            
              sns.pairplot(
    df_X, plot_kws = {"s": 3, "alpha": 0.2},
    hue = "Police_Force",
    palette = "Spectral",
    x_vars = ["Location_Easting_OSGR", "Location_Northing_OSGR", "Longitude"],
    y_vars = "Latitude"
);


            
              # Cree un nuevo marco de datos que no contenga las características continuas numéricas
df_discrete = df_X[cols_continuous[~cols_continuous].index]
df_discrete.shape

(317665, 44)


            
              # Establecer el número de columnas y filas necesarias para trazar todas las características
n_cols = 5
n_elements = len(df_discrete.columns)
n_rows = np.ceil(n_elements / n_cols).astype("int")

# Especifique y_value para distribuir datos (idealmente, una característica continua)
y_value = df_X["Age_of_Driver"]

# Cree un objeto de figura con tantas filas y columnas como sea necesario
fig, axes = plt.subplots(ncols = n_cols,
                         nrows = n_rows,
                         figsize = (15, n_rows * 2.5))

# Recorra las funciones y coloque cada subtrama en un objeto de eje matplotlib
for col, ax in zip(df_discrete.columns, axes.ravel()):
    sns.stripplot(data = df_X,
                  x = col,
                  y = y_value,
                  ax = ax,
                  palette = "tab10",
                  size = 1,
                  alpha = 0.5
                 )
plt.tight_layout();


            
              # Especifique las características de interés
selected_features = ["Vehicle_Reference_df_res",
                     "Towing_and_Articulation",
                     "Skidding_and_Overturning",
                     "Bus_or_Coach_Passenger",
                     "Pedestrian_Road_Maintenance_Worker",
                     "Age_Band_of_Driver"]
# Crea una figura con subtramas de 3 x 2
fig, axes = plt.subplots(ncols = 3,
                         nrows = 2,
                         figsize = (16, 8)
                        )
# Recorra estas características y grafique
# las entradas de cada característica contra `Latitude`
for col, ax in zip(selected_features, axes.ravel()):
    sns.stripplot(data = df_X,
                  x = col,
                  y = df_X["Latitude"],
                  ax = ax,
                  palette = "tab10",
                  size = 2,
                  alpha = 0.5
                 )
plt.tight_layout();


            
              # Crea una figura con subtramas de 3 x 2
fig, axes = plt.subplots(ncols = 3,
                         nrows = 2,
                         figsize = (16, 8)
                        )
# Recorra estas características y grafique las
# entradas de cada característica contra `Latitude`
for col, ax in zip(selected_features, axes.ravel()):
    sns.violinplot(data = df_X,
                   x = col,
                   y = df_X["Latitude"],
                   palette = "Set2",
                   split = True,
                   hue = "Urban_or_Rural_Area",
                   ax = ax)
plt.tight_layout();


            
              # Calcula la correlación de características
df_corr = df_X.corr(method = "pearson")


            
              # Crear etiquetas para la matriz de correlación
labels = np.where(np.abs(df_corr) > 0.75,
                  "S",
                  np.where(np.abs(df_corr) > 0.5,
                           "M",
                           np.where(np.abs(df_corr) > 0.25,
                                    "W",
                                    "")
                          )
                 )
# Trazar matriz de correlación
plt.figure(figsize = (15, 15))
sns.heatmap(df_corr,
            mask = np.eye(len(df_corr)),
            square = True,
            center = 0,
            annot = labels,
            fmt ='',
            linewidths = .5,
            cmap = "vlag",
            cbar_kws = {"shrink": 0.8}
           );


            
              #  Creates a mask to remove the diagonal and the upper triangle.
lower_triangle_mask = np.tril(np.ones(df_corr.shape),
                              k = -1).astype("bool")

#  Apilar todas las correlaciones, después de aplicar la máscara
df_corr_stacked = df_corr.where(lower_triangle_mask).stack().sort_values()

#  Mostrando las correlaciones más bajas y más altas en la matriz de correlación
display(df_corr_stacked)

Local_Authority_(District)  Longitude                -0.509343
                            Location_Easting_OSGR    -0.502919
Police_Force                Longitude                -0.471327
                            Location_Easting_OSGR    -0.461112
Speed_limit                 1st_Road_Class           -0.438931
                                                        ...   
Age_Band_of_Casualty        Age_of_Casualty           0.974397
Age_Band_of_Driver          Age_of_Driver             0.979019
Local_Authority_(District)  Police_Force              0.984819
Longitude                   Location_Easting_OSGR     0.999363
Latitude                    Location_Northing_OSGR    0.999974
Length: 1485, dtype: float64

	Accident_Index	Vehicle_Reference_df_res	Vehicle_Type	Vehicle_Manoeuvre	Junction_Location	Skidding_and_Overturning	Hit_Object_in_Carriageway	Vehicle_Leaving_Carriageway	...	Age_Band_of_Casualty	Casualty_Severity	Car_Passenger	Casualty_Type	Casualty_Home_Area_Type	Casualty_IMD_Decile
154113	201520T049545	1.0	9.0	18.0	1.0	2.0	10.0	2.0	...	5.0	1.0	2.0	9.0	1.0	5.0
312648	2015521501818	1.0	9.0	18.0	0.0	0.0	0.0	0.0	...	6.0	3.0	0.0	9.0	1.0	10.0
228653	2015420033765	5.0	9.0	18.0	0.0	0.0	0.0	0.0	...	4.0	3.0	2.0	9.0	NaN	NaN
233448	201542I164505	1.0	9.0	9.0	7.0	0.0	0.0	0.0	...	6.0	3.0	0.0	5.0	1.0	6.0
189611	2015320020402	2.0	9.0	18.0	8.0	0.0	0.0	0.0	...	9.0	3.0	0.0	9.0	2.0	4.0

	Accident_Index	Sex_of_Driver	Date	Time	Local_Authority_(Highway)	LSOA_of_Accident_Location
0	201501BS70001	1.0	12/01/2015	18:45	E09000020	E01002825
1	201501BS70002	1.0	12/01/2015	07:50	E09000020	E01002820
2	201501BS70004	1.0	12/01/2015	18:08	E09000020	E01002833
3	201501BS70005	1.0	13/01/2015	07:40	E09000020	E01002874
4	201501BS70008	1.0	09/01/2015	07:30	E09000020	E01002814

	Accident_Index	Date	Time	Local_Authority_(Highway)	LSOA_of_Accident_Location
count	363243	319866	319822	319866	298758
unique	140056	365	1439	204	25979
top	201543P296025	14/02/2015	17:30	E10000017	E01028497
freq	1332	2144	2972	8457	1456

	Accident_Index	Date	Time	Local_Authority_(Highway)	LSOA_of_Accident_Location
count	319790	319790	319746	319790	298693
unique	123645	365	1439	204	25977
top	201543P296025	14/02/2015	17:30	E10000017	E01028497
freq	1332	2144	2969	8457	1456

Análisis Exploratorio Avanzado de Datos

Investigación de estructura, calidad y contenido

1. Investigación de estructura

1.1. Estructura de características no numéricas

1.2. Estructura de características numéricas

1.3. Conclusión de la investigación de la estructura.

2. Investigación de calidad

2.1. Duplicados

2.2. Valores faltantes

2.2.1. por muestra

2.2.2. por característica

2.2.3. Pequeña nota al margen

2.3. Entradas no deseadas y errores de registro

2.3.1. Características numéricas

2.3.2. Características no numéricas

2.4. Conclusión de la investigación de calidad.

3. Investigación de contenido

3.1. Distribución de características

3.2. Patrones de características

3.2.1. Características continuas

3.2.2. Rasgos discretos y ordinales

3.3. Relaciones de características

3.4. Conclusión de la investigación de contenido

Conclusiones Finales