import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import warnings
warnings.filterwarnings("ignore")

from sklearn.cluster import KMeans
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier
from sklearn import metrics
from sklearn.metrics import confusion_matrix


              
                data = pd.read_csv("hhrr_employee_list.csv", encoding = 'latin-1')


              
                data.head()


              
                data.tail()


              
                data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14999 entries, 0 to 14998
Data columns (total 10 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Nivel_de_Satisfacción     14999 non-null  float64
 1   Última_Evaluación         14999 non-null  float64
 2   Cantidad_de_Proyectos     14999 non-null  int64  
 3   Horas_Promedio_Mensual    14999 non-null  int64  
 4   Tiempo_en_la_Empresa      14999 non-null  int64  
 5   Accidentes_Laborales      14999 non-null  int64  
 6   Abandono                  14999 non-null  int64  
 7   Promoción_Últimos_5_Años  14999 non-null  int64  
 8   Departamento              14999 non-null  object 
 9   Nivel_de_Sueldo           14999 non-null  object 
dtypes: float64(2), int64(6), object(2)
memory usage: 1.1+ MB


              
                abandono = data.groupby("Abandono")
abandono.mean()


              
                data.describe()


              
                # Define la paleta de colores a utilizar
colors_blue = ["#06344d", "#1E90FF", '#00b2ff', '#51C4D3', '#B4DBE9']
sns.palplot(colors_blue)


              
                plt.figure(figsize=(15,10))
sns.heatmap(data.corr(), annot=True, cmap = colors_blue)
plt.title('Correlación de Variables Numéricas\n', weight='bold');


              
                elem = data.Abandono.value_counts().unique()
elem = elem.tolist() / data.Abandono.count()
elem = elem.tolist()

labels = 'Permanece', 'Abandonó'
sizes = elem

plt.figure(figsize = (7,5))
plt.pie(sizes,
        autopct = '%1.1f%%',
        shadow = True,
        startangle = 90)
plt.title("% de empleados que permanecen \ny que abandonaron la Empresa",
          size = 15,
          y = 1.05)
plt.axis('equal')
plt.legend(labels)
plt.show()


              
                plt.figure(figsize = (10,8))
sns.histplot(data = data, x = "Nivel_de_Satisfacción",
             kde = True,
             hue = "Abandono")
plt.title("Distribución de empleados que \npermanecen y abandonaron la Empresa \nsegún el porcentaje satisfacción",
          size = 15, y = 1.04)
plt.xlabel("% de Satisfacción", size = 15)
plt.ylabel("Frecuencia / Empleados", size = 15)
plt.show();


              
                cant_proyectos = round(data.groupby("Cantidad_de_Proyectos").mean(),2)
plt.figure(figsize = (10,8))
plt.barh(cant_proyectos.index.values,
         cant_proyectos["Nivel_de_Satisfacción"])
for i, v in enumerate(cant_proyectos["Nivel_de_Satisfacción"]):
    plt.text(v + 0.01, i + 1.9, str(v))
plt.xlabel("% de Satisfacción", size = 15)
plt.ylabel("Proyectos", size = 15)
plt.title("% promedio de satisfacción de empleados \nsegún la cantidad de proyectos\nasignados",
          y = 1.05,
          size = 15)
plt.show();


              
                experiencia = round(data.groupby("Tiempo_en_la_Empresa").mean(),2)
plt.figure(figsize = (10,8))
plt.barh(experiencia.index.values,
         experiencia["Nivel_de_Satisfacción"])
for i, v in enumerate(experiencia["Nivel_de_Satisfacción"]):
    plt.text(v + 0.01, i + 1.9, str(v))
plt.title("% promedio de satisfacción de empleados \nsegún la cantidad de años trabajando\nen la Empresa",
          y = 1.05,
          size = 15)
plt.xlabel("% de satisfacción", size = 15)
plt.ylabel("Años", size = 15)
plt.show();


              
                features = ["Cantidad_de_Proyectos",
            "Tiempo_en_la_Empresa",
            "Accidentes_Laborales",
            "Abandono",
            "Promoción_Últimos_5_Años",
            "Departamento",
            "Nivel_de_Sueldo"]
fig = plt.subplots(figsize=(20,30))
for i, j in enumerate(features):
    plt.subplot(5, 2, i + 1)
    plt.subplots_adjust(hspace = 0.5)
    splot = sns.countplot(x = j, data = data, palette='PuBu')
    for p in splot.patches:
        splot.annotate(format(p.get_height(), '.1f'),
                       (p.get_x() + p.get_width() / 2., p.get_height()),
                       ha = 'center',
                       va = 'bottom',
                       rotation = 90,
                       xytext = (0, 9),
                       textcoords = 'offset points')
    plt.xticks(rotation = 90)
    plt.ylabel("Cantidad de empleados")
    plt.xlabel("")
    plt.title(j, y = 1.2);


              
                def element (df, col):
    elem = df[col].value_counts().unique()
    elem = elem.tolist() / df[col].count()
    elem = elem.tolist()
    return elem


              
                def donas (df,labs,titl):
    plt.pie(df,
             autopct = '%1.1f%%',
             startangle = 90,
             pctdistance = 0.85)
    plt.title(titl, size = 16, y = 1.05)
    plt.legend(labs)
    centre_circle = plt.Circle((0,0),0.60, fc = 'white')
    fig = plt.gcf()
    fig.gca().add_artist(centre_circle)
    plt.axis('equal')  
    plt.tight_layout()
    plt.show();


              
                elem = element(data,"Cantidad_de_Proyectos")
donas(elem,
      ["1 Proyecto", "2 Proyectos","3 Proyectos","4 Proyectos","5 Proyectos","6 Proyectos","7 Proyectos"],
      "% de empleados que trabajan en \nvarios proyectos a la vez")


              
                elem = element(data,"Tiempo_en_la_Empresa")
donas(elem,
      ["1 Año", "2 Años","3 Años","4 Años","5 Años","6 Años","7 Años","8 Años","9 Años","10 Años"],
      "% de empleados que tienen tantos \naños de experiencia trabajando \nen la empresa")


              
                elem = element(data,"Promoción_Últimos_5_Años")
donas(elem,
      ["No", "Si",],
      "% de empleados que obtivieron al menos una \npromoción en los últimos 5 años")


              
                elem = element(data,"Nivel_de_Sueldo")
donas(elem,
      ["Bajo", "Medio","Alto"],
      "% del total de empleados con distintos niveles \nde sueldos")


              
                def show_values_on_bars(axs):
    def _show_on_single_plot(ax):        
        for p in ax.patches:
            _x = p.get_x() + p.get_width() / 2
            _y = p.get_y() + p.get_height() + 5
            value = '{:.2f}%'.format(p.get_height())
            ax.text(_x, _y, value, ha="center") 
    if isinstance(axs, np.ndarray):
        for idx, ax in np.ndenumerate(axs):
            _show_on_single_plot(ax)
    else:
        _show_on_single_plot(axs)


              
                df = data
df_ = df["Nivel_de_Satisfacción"] * 100
df["Nivel_de_Satisfacción"] = df_


              
                fig, ax = plt.subplots(1, 1)
sns.barplot(x = "Nivel_de_Sueldo",
            y = "Nivel_de_Satisfacción",
            data = df[df["Abandono"]==0],
            )
sns.despine(bottom = False, left = False)
plt.title("% promedio del nivel de satisfacción \nsegún niveles de sueldo en \nempleados que permanecen en la Empresa",
          size = 15,
          y = 1.1)
plt.xlabel("Niveles de Sueldo", size = 15)
plt.ylabel("% de Satisfacción", size = 15)
show_values_on_bars(ax)


              
                fig, ax = plt.subplots(1, 1)
sns.barplot(x = "Nivel_de_Sueldo",
            y = "Nivel_de_Satisfacción",
            data = df[df["Abandono"]==1])
sns.despine(bottom = False, left = False)
plt.title("% promedio del nivel de satisfacción \nsegún niveles de sueldo en \nempleados que abandonaron la Empresa",
          size = 15,
          y = 1.1)
plt.xlabel("Niveles de Sueldo", size = 15)
plt.ylabel("% de Satisfacción", size = 15)
show_values_on_bars(ax)


              
                data_5 = data[data["Tiempo_en_la_Empresa"] >= 5] # Crea un conjunto de datos filtrado
# Confirma que efectivamente el conjunto de datos filtrado
# corresponde a empleados con 5 años o más de experiencia
# trabajando en la Empresa
data_5.Tiempo_en_la_Empresa.unique()

array([ 6,  5,  8, 10,  7], dtype=int64)


              
                elem = element(data_5,"Promoción_Últimos_5_Años")
donas(elem,
      ["No", "Si",],
      "% empleados con 5 años o más que obtivieron \nal menos una promoción ")


              
                print("Cantidad de empleados con promoción: ",
      data_5[data_5["Promoción_Últimos_5_Años"]==1].Promoción_Últimos_5_Años.count())
print("Cantidad de total empleados con 5 años o más de experiencia: ",
      data[data["Tiempo_en_la_Empresa"] >= 5].Promoción_Últimos_5_Años.count())

Cantidad de empleados con promoción:  96
Cantidad de total empleados con 5 años o más de experiencia:  2755


              
                fig = plt.subplots(figsize = (20,30))
for i, j in enumerate(features):
    plt.subplot(5, 2, i + 1)
    plt.subplots_adjust(hspace = 0.5)
    splot = sns.countplot(x = j,data = data, palette='PuBu', hue = "Abandono")
    for p in splot.patches:
        splot.annotate(format(p.get_height(), '.1f'),
                       (p.get_x() + p.get_width() / 2., p.get_height()),
                       ha = 'center',
                       va = 'bottom',
                       rotation = 90,
                       xytext = (0, 9),
                       textcoords = 'offset points')
    plt.xticks(rotation = 90)
    plt.ylabel("Cantidad de empleados")
    plt.xlabel("")
    plt.title(j, y = 1.2);


              
                # Se filtran los datos (únicamente empleados que abandonaron)
abandona_emp =  data[['Nivel_de_Satisfacción', 'Última_Evaluación']][data.Abandono == 1]
# Se crean los grupos usando K-means
clustering_kmeans = KMeans(n_clusters = 3,
                           random_state = 0).fit(abandona_emp)
# Se agrega una nueva columna "etiqueta" y se asigna por grupo.
abandona_emp['etiqueta'] = clustering_kmeans.labels_
# Se crea el diagrama de dispersión
plt.figure(figsize = (15,10))
plt.scatter(abandona_emp['Nivel_de_Satisfacción'],
            abandona_emp['Última_Evaluación'],
            c = abandona_emp['etiqueta'],
            cmap = 'Accent'
           )
plt.xlabel("% de satisfacción", size = 15)
plt.ylabel("% de desempeño según \núltima evaluación", size = 15)
plt.title("Clusterización de empleados \nque abandonaron la Empresa", y = 1.05, size = 15)
plt.show();


              
                data = pd.read_csv("hhrr_employee_list.csv", encoding = 'latin-1')
# Se crea el codificador
le = preprocessing.LabelEncoder()
# Se transforman las etiquetas en números.
data['Nivel_de_Sueldo'] = le.fit_transform(data['Nivel_de_Sueldo'])
data['Departamento'] = le.fit_transform(data['Departamento'])


              
                print("Departamentos: ",
      data.Departamento.unique(),
      "\nNiveles de sueldo: ", data.Nivel_de_Sueldo.unique())

Departamentos:  [8 0 6 9 7 1 3 2 4 5] 
Niveles de sueldo:  [1 2 0]


              
                # Se dividen los datos según características
X = data[["Nivel_de_Satisfacción",
          "Última_Evaluación",
          "Cantidad_de_Proyectos",
          "Horas_Promedio_Mensual",
          "Tiempo_en_la_Empresa",
          "Accidentes_Laborales",
          "Promoción_Últimos_5_Años",
          "Departamento",
          "Nivel_de_Sueldo"]]
y = data["Abandono"]
# Se divide el conjunto de datos en un conjuntos
# de entrenamiento y pruebas (70% de entrenamiento
# y 30% de prueba)
X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size = 0.3,
    random_state = 42
)


              
                # Se crear el clasificador de aumento de gradiente
gb = GradientBoostingClassifier()
# Se entrena el modelo con el conjunto de entrenamiento
gb.fit(X_train, y_train)
# Se realizan las predicciones para el conjunto de
# datos de prueba
y_pred = gb.predict(X_test)


              
                matriz = confusion_matrix(y_test, y_pred)
group_counts = ["{0:0.0f}".format(value) for value in
                matriz.flatten()]
group_percentages = ["{0:.2%}".format(value) for value in
                     matriz.flatten()/np.sum(matriz)]
labels = [f"{v1}\n{v2}" for v1, v2 in
          zip(group_counts,group_percentages)]
labels = np.asarray(labels).reshape(2,2)
ax = sns.heatmap(matriz,
                 annot = labels,
                 fmt = '',
                 cmap='Blues')
ax.set_title("Matriz de Confución para \nevaluación del modelo\n\n");
ax.set_xlabel("\nValores Predichos")
ax.set_ylabel("Valores Reales");
ax.xaxis.set_ticklabels(['Permanece','Abandona'])
ax.yaxis.set_ticklabels(['Permanece','Abandona'])
plt.show();


              
                print("Exactitud: ",metrics.accuracy_score(y_test, y_pred))
print("Precisión: ",metrics.precision_score(y_test, y_pred))
print("Evaluación: ",metrics.recall_score(y_test, y_pred))

Exactitud:  0.9708888888888889
Precisión:  0.9554695062923524
Evaluación:  0.9207089552238806

	Nivel_de_Satisfacción	Última_Evaluación	Cantidad_de_Proyectos	Horas_Promedio_Mensual	Tiempo_en_la_Empresa	Abandono	Departamento	Nivel_de_Sueldo
0	0.38	0.53	2	157	3	1	Ventas	Bajo
1	0.80	0.86	5	262	6	1	Ventas	Medio
2	0.11	0.88	7	272	4	1	Ventas	Medio
3	0.72	0.87	5	223	5	1	Ventas	Bajo
4	0.37	0.52	2	159	3	1	Ventas	Bajo

	Nivel_de_Satisfacción	Última_Evaluación	Cantidad_de_Proyectos	Horas_Promedio_Mensual	Tiempo_en_la_Empresa	Abandono	Departamento	Nivel_de_Sueldo
14994	0.40	0.57	2	151	3	1	Soporte Técnico	Bajo
14995	0.37	0.48	2	160	3	1	Soporte Técnico	Bajo
14996	0.37	0.53	2	143	3	1	Soporte Técnico	Bajo
14997	0.11	0.96	6	280	4	1	Soporte Técnico	Bajo
14998	0.37	0.52	2	158	3	1	Soporte Técnico	Bajo

	Nivel_de_Satisfacción	Última_Evaluación	Cantidad_de_Proyectos	Horas_Promedio_Mensual	Tiempo_en_la_Empresa	Accidentes_Laborales	Promoción_Últimos_5_Años
Abandono
0	0.666810	0.715473	3.786664	199.060203	3.380032	0.175009	0.026251
1	0.440098	0.718113	3.855503	207.419210	3.876505	0.047326	0.005321

	Nivel_de_Satisfacción	Última_Evaluación	Cantidad_de_Proyectos	Horas_Promedio_Mensual	Tiempo_en_la_Empresa	Accidentes_Laborales	Abandono	Promoción_Últimos_5_Años
count	14999.000000	14999.000000	14999.000000	14999.000000	14999.000000	14999.000000	14999.000000	14999.000000
mean	0.612834	0.716102	3.803054	201.050337	3.498233	0.144610	0.238083	0.021268
std	0.248631	0.171169	1.232592	49.943099	1.460136	0.351719	0.425924	0.144281
min	0.090000	0.360000	2.000000	96.000000	2.000000	0.000000	0.000000	0.000000
25%	0.440000	0.560000	3.000000	156.000000	3.000000	0.000000	0.000000	0.000000
50%	0.640000	0.720000	4.000000	200.000000	3.000000	0.000000	0.000000	0.000000
75%	0.820000	0.870000	5.000000	245.000000	4.000000	0.000000	0.000000	0.000000
max	1.000000	1.000000	7.000000	310.000000	10.000000	1.000000	1.000000	1.000000

Rotación de Empleados (Churn con Python)

1. Introducción.

1.1 Consideraciones Iniciales¶

2. Análisis Exploratorio de Datos.¶

2.1 Carga del Conjunto de Datos.¶

2.2 Descripción de Características.

2.3 Estadísticas de los Datos

3. Visualización de los Datos.

3.1. Correlación de Variables.

Análisis.

3.2 Proporción de permanencia y abandono.

Análisis.

3.3 Nivel de satisfacción general.

Análisis.

3.4 Niveles de satisfacción según proyectos asignados.

Análisis.

3.5 Niveles de satisfacción según la cantidad de tiempo en la Empresa (Experiencia).

Análisis.

3.6 Totalización de empleados.

Análisis.

3.7 Proporción de empleados.

Análisis.

Análisis.

Análisis.

Análisis.

3.8 Niveles de satisfacción según niveles de sueldos (Variable Categórica).

Análisis.

3.9 Promociones (Empleados con 5 años o más de experiencia).

Análisis.

3.10 Contraste de Empleados.

Análisis.

3.11 Análisis de conglomerados:

Análisis.

4. Construcción del Modelo de Predicción.

4.1 Datos de preprocesamiento

4.2 División del conjunto de datos (Train, Test)

4.3 Construcción del modelo

4.4 Predicciones del Modelo

4.4.1 Matriz de Confusión

Análisis.

4.4.2 Evaluación y Métricas

5. Conclusiones