import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree

import graphviz
import shap 
import eli5

from eli5.sklearn import PermutationImportance
from matplotlib import pyplot as plt
from pdpbox import pdp
from pdpbox import get_dataset
from pdpbox import info_plots

import os
os.environ["PATH"] += os.pathsep + 'C:/Program Files/Graphviz/bin'


              
                data = pd.read_csv('fifa_2018_statistics.csv')


              
                y = (data['Man of the Match'] == "Yes")  # Convertir de cadena "Sí" / "No" a binario
feature_names = [i for i in data.columns if data[i].dtype in [np.int64]]
X = data[feature_names]


              
                train_X, val_X, train_y, val_y = train_test_split(X, y, random_state = 1)
my_model = RandomForestClassifier(n_estimators = 100, random_state = 0).fit(train_X, train_y)


              
                perm = PermutationImportance(my_model, random_state = 1).fit(val_X, val_y)
eli5.show_weights(perm, feature_names = val_X.columns.tolist())


              
                train_X, val_X, train_y, val_y = train_test_split(X, y, random_state = 1)
tree_model = DecisionTreeClassifier(random_state = 0,
                                    max_depth = 5,
                                    min_samples_split = 5).fit(train_X, train_y)


              
                tree_graph = tree.export_graphviz(tree_model, out_file = None, feature_names = feature_names)


              
                graphviz.Source(tree_graph)


              
                pdp_goals = pdp.pdp_isolate(model = tree_model,
                            dataset = val_X,
                            model_features = feature_names,
                            feature = 'Goal Scored') # Crea los datos a trazar
pdp.pdp_plot(pdp_goals, 'Goal Scored')
plt.show()


              
                feature_to_plot = 'Distance Covered (Kms)'

pdp_dist = pdp.pdp_isolate(model = tree_model,
                           dataset = val_X,
                           model_features = feature_names,
                           feature = feature_to_plot)
pdp.pdp_plot(pdp_dist, feature_to_plot)
plt.show()


              
                rf_model = RandomForestClassifier(random_state = 0).fit(train_X, train_y) # Construye el modelo Random Forest

pdp_dist = pdp.pdp_isolate(model = rf_model,
                           dataset = val_X,
                           model_features = feature_names,
                           feature = feature_to_plot)
pdp.pdp_plot(pdp_dist, feature_to_plot)
plt.show()


              
                # Similar a la gráfica de PDP anterior, excepto que usamos pdp_interact en lugar de pdp_isolate y pdp_interact_plot en lugar de pdp_isolate_plot
features_to_plot = ['Goal Scored', 'Distance Covered (Kms)']

inter1  =  pdp.pdp_interact(model = tree_model,
                            dataset = val_X,
                            model_features = feature_names,
                            features = features_to_plot)
pdp.pdp_interact_plot(pdp_interact_out = inter1,
                      feature_names = features_to_plot,
                      plot_type = 'contour')
plt.show()


              
                train_X, val_X, train_y, val_y = train_test_split(X, y, random_state = 1)
my_model = RandomForestClassifier(random_state = 0).fit(train_X, train_y)


              
                row_to_show = 5
data_for_prediction = val_X.iloc[row_to_show]  # use 1 fila de datos aquí. Podría usar varias filas si lo desea
data_for_prediction_array = data_for_prediction.values.reshape(1, -1)
my_model.predict_proba(data_for_prediction_array)

array([[0.29, 0.71]])


              
                explainer = shap.TreeExplainer(my_model) # Crea el objeto que pueda calcular valores Shap
shap_values = explainer.shap_values(data_for_prediction) # Calcula los valores de Shap


              
                shap.initjs()
shap.force_plot(explainer.expected_value[1], shap_values[1], data_for_prediction)


              
                k_explainer = shap.KernelExplainer(my_model.predict_proba, train_X) # utiliza Kernel SHAP para explicar las predicciones del conjunto de pruebas
k_shap_values = k_explainer.shap_values(data_for_prediction)
shap.force_plot(k_explainer.expected_value[1], k_shap_values[1], data_for_prediction)


              
                train_X, val_X, train_y, val_y = train_test_split(X, y, random_state = 1)
my_model = RandomForestClassifier(random_state = 0).fit(train_X, train_y)


              
                explainer = shap.TreeExplainer(my_model) # Crear objeto que pueda calcular valores de shap
# calcula valores de shap. Esto es lo que se graficará.
# Calcula shap_values para todo val_X en lugar de una sola fila, para tener más datos para la gráfica.
shap_values = explainer.shap_values(val_X)
# Crea la trama. El índice de [1] se explica en el texto siguiente.
shap.summary_plot(shap_values[1], val_X)


              
                explainer = shap.TreeExplainer(my_model) # Crear objeto que pueda calcular valores de shap
shap_values = explainer.shap_values(X) # calcular valores de shap. Esto es lo que se graficará.
shap.dependence_plot('Ball Possession %', shap_values[1], X, interaction_index="Goal Scored")

Funcionamiento del Aprendizaje Automático (Machine Learning).

La Depuración.

La creación de ingeniería de características.

La recopilación de datos en el futuro.

La toma de decisiones humanas.

La creación de confianza.

Permutación de características.

Funcionamiento.

Caso de Estudio

Interpretación de la importancia de la permutación

Graficas de Dependencia Parcial

Funcionamiento

Gráficas de Dependencia Parcial 2D

Valores de Explicación de Aditivos Shapley (SHAP).

Funcionamiento

Usos avanzados de los valores SHAP.

Revisión de valores de SHAP

Gráficos de resumen

Gráficos de Contribución de Dependencia de SHAP

Gráficos de Contribución de Dependencia en Código