import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt


              
                data = pd.read_csv ('marketing_analysis.csv', sep=';',low_memory=False)
data.head(5)


              
                data = pd.read_csv('marketing_analysis.csv', sep=';', skiprows = 2) # Eliminan las dos primeras filas.
data.head(5) # Muestra las cinco primeras filas


              
                data.drop('customerid', axis = 1, inplace = True) # Elimina la variable "customerid".

# Se extraen los valores trabajo y educación de la variable "jobedu" y se crean dos variables con sus respectivos nombres.

data['job']= data["jobedu"].apply(lambda x: x.split(",")[0]) # Se crea la columna empleo
data['education']= data["jobedu"].apply(lambda x: x.split(",")[1]) # Se crea la columna educación
data.drop('jobedu', axis = 1, inplace = True) # Elimina del dataframe la columna "jobedu"
data.head(5)


              
                data.isnull().sum() # Suma la cantidad de valores faltantes.

age          20
salary        0
balance       0
marital       0
targeted      0
default       0
housing       0
loan          0
contact       0
day           0
month        50
duration      0
campaign      0
pdays         0
previous      0
poutcome      0
response     30
job           0
education     0
dtype: int64


              
                data = data[~data.age.isnull()].copy() # Elimina los registros faltantes de la variable edad.
data.isnull().sum() # Suma nuevamente la cantidad de valores faltantes.

age           0
salary        0
balance       0
marital       0
targeted      0
default       0
housing       0
loan          0
contact       0
day           0
month        50
duration      0
campaign      0
pdays         0
previous      0
poutcome      0
response     30
job           0
education     0
dtype: int64


              
                month_mode = data.month.mode()[0] # Calcula la moda de la variable mes.
data.month.fillna(month_mode, inplace = True) # Se imputan los valores faltantes con la moda de la variable mes.


              
                data.month.isnull().sum() # Se suman los valores faltantes en la variable mes.

0


              
                data = data[~data.response.isnull()].copy() # Elimina registros faltantes en la columna respuesta.


              
                data.isnull().sum() # Sumatoria de valores faltantes presentes en el dataset.

age          0
salary       0
balance      0
marital      0
targeted     0
default      0
housing      0
loan         0
contact      0
day          0
month        0
duration     0
campaign     0
pdays        0
previous     0
poutcome     0
response     0
job          0
education    0
dtype: int64


              
                data.job.value_counts(normalize=True) # Cuantifica los valores normalizados de las categorías de la variable "job".

blue-collar      0.215274
management       0.209273
technician       0.168043
admin.           0.114369
services         0.091849
retired          0.050087
self-employed    0.034853
entrepreneur     0.032860
unemployed       0.028830
housemaid        0.027413
student          0.020770
unknown          0.006377
Name: job, dtype: float64


              
                data.job.value_counts(normalize=True).plot.barh()# Gráfico de categorías en la variable "job".
plt.show()


              
                data.education.value_counts(normalize=True) # Cuantifica los valores normalizados de las categorías de la variable "education".

secondary    0.513275
tertiary     0.294192
primary      0.151436
unknown      0.041097
Name: education, dtype: float64


              
                data.education.value_counts(normalize=True).plot.pie() # Gráfico de las categorías de la variable "education".
plt.show()


              
                data.salary.describe() # Datos estadísticos de la variable "salary".

count     45161.000000
mean      57004.849317
std       32087.698810
min           0.000000
25%       20000.000000
50%       60000.000000
75%       70000.000000
max      120000.000000
Name: salary, dtype: float64


              
                plt.scatter(data.salary,data.balance) # Diagrama de puntos de las variables "balance" y "salary".
plt.show()


              
                data.plot.scatter(x="age",y="balance") # Diagrama de dispersión de las variables "age" y "balance".
plt.show()


              
                sns.pairplot(data = data, vars=['salary','balance','age'])# Diagramas combinados de las variables "salary", "balance" y "age".
plt.show()


              
                data[['age','salary','balance']].corr() # Matriz de correlación, variables: "age", "salary", y "balance".


              
                sns.heatmap(data[['age','salary','balance']].corr(), annot=True, cmap = 'Blues') # Grafica de matriz de correlación, variables: "age", "salary", y "balance".
plt.show()


              
                data.groupby('response')['salary'].mean() # Media de la variable "salary" agrupado por la variable "response".

response
no     56769.510482
yes    58780.510880
Name: salary, dtype: float64


              
                data.groupby('response')['salary'].median() # Mediana de la variable "salary" agrupado por la variable "response".

response
no     60000
yes    60000
Name: salary, dtype: int64


              
                sns.boxplot(data.response, data.salary) # Gráfico de cajas para de la variable "salary" con respuestas "Si" y "No".
plt.show()


              
                data['response_rate'] = np.where(data.response=='yes',1,0) # Total de respuestas "sí" = 1, "no" = 0.
data.response_rate.value_counts()

0    39876
1     5285
Name: response_rate, dtype: int64


              
                data.groupby('marital')['response_rate'].mean().plot.bar() # Gráfico de la variable "marital" con respecto al valor promedio de la variable "response_rate".
plt.show()


              
                edu_mar = pd.pivot_table(data=data, index='education', columns='marital',values='response_rate') # Tabla dinámica de las variables "education", "marital", con respecto a "response_rate".
print(edu_mar)

marital    divorced   married    single
education                              
primary    0.138852  0.075601  0.106808
secondary  0.103559  0.094650  0.129271
tertiary   0.137415  0.129835  0.183737
unknown    0.142012  0.122519  0.162879


              
                sns.heatmap(edu_mar, annot=True, cmap = 'RdYlGn', center=0.117) # Mapa de gradientes de la tabla dinámica.
plt.show()


              
                job_mar = pd.pivot_table(data=data, index='job', columns='marital',values='response_rate') # Tabla dinámica("job", "marital", "response_rate").
sns.heatmap(job_mar, annot=True, cmap = 'RdYlGn', center=0.117) # Mapa de gradientes.
plt.show()


              
                edu_pou = pd.pivot_table(data=data, index='education', columns='poutcome',values='response_rate') # Tabla dinámica("marital", "education", "response_rate").
sns.heatmap(edu_pou, annot=True, cmap = 'RdYlGn', center=0.117) # Mapa de gradientes.
plt.show()

	banking marketing	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 4	Unnamed: 5	Unnamed: 6	Unnamed: 7	Unnamed: 8	Unnamed: 9	Unnamed: 10	Unnamed: 11	Unnamed: 12	Unnamed: 13	Unnamed: 14	Unnamed: 15	Unnamed: 16	Unnamed: 17	Unnamed: 18
0	customer id and age.	NaN	Customer salary and balance.	NaN	Customer marital status and job with education...	NaN	particular customer before targeted or not	NaN	Loan types: loans or housing loans	NaN	Contact type	NaN	month of contact	duration of call	NaN	NaN	NaN	outcome of previous contact	response of customer after call happned
1	customerid	age	salary	balance	marital	jobedu	targeted	default	housing	loan	contact	day	month	duration	campaign	pdays	previous	poutcome	response
2	1	58	100000	2143	married	management,tertiary	yes	no	yes	no	unknown	5	may, 2017	261 sec	1	-1	0	unknown	no
3	2	44	60000	29	single	technician,secondary	yes	no	yes	no	unknown	5	may, 2017	151 sec	1	-1	0	unknown	no
4	3	33	120000	2	married	entrepreneur,secondary	yes	no	yes	yes	unknown	5	may, 2017	76 sec	1	-1	0	unknown	no

Análisis Exploratorio de Datos (Exploratory Data Analysis, EDA).

Valores faltantes.¶

Manejo de valores atípicos.¶

Normalización de valores.¶

Matriz de correlación,¶

Conclusiones.¶

	customerid	age	salary	balance	marital	jobedu	targeted	default	housing	loan	contact	day	month	duration	campaign	pdays	poutcome	response
0	1	58.0	100000	2143	married	management,tertiary	yes	no	yes	no	unknown	5	may, 2017	261 sec	1	-1	unknown	no
1	2	44.0	60000	29	single	technician,secondary	yes	no	yes	no	unknown	5	may, 2017	151 sec	1	-1	unknown	no
2	3	33.0	120000	2	married	entrepreneur,secondary	yes	no	yes	yes	unknown	5	may, 2017	76 sec	1	-1	unknown	no
3	4	47.0	20000	1506	married	blue-collar,unknown	no	no	yes	no	unknown	5	may, 2017	92 sec	1	-1	unknown	no
4	5	33.0	0	1	single	unknown,unknown	no	no	no	no	unknown	5	may, 2017	198 sec	1	-1	unknown	no

	age	salary	balance
age	1.000000	0.024513	0.097710
salary	0.024513	1.000000	0.055489
balance	0.097710	0.055489	1.000000