import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder,OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Lasso
from sklearn.decomposition import PCA
from sklearn.pipeline import Pipeline


              
                df=pd.read_csv("cruise_ship_info.csv")


              
                df.head()


              
                df.describe()


              
                cols = ['Age', 'Tonnage', 'passengers', 'length', 'cabins','passenger_density','crew']


              
                sns.pairplot(df[cols], height=2.0);


              
                sns.histplot(df['Age'],bins=20)
plt.title("Distribución de Probabilidad")
plt.show()


              
                sns.histplot(df['Tonnage'],bins=20)
plt.title("Distribución de Probabilidad")
plt.show()


              
                cols = ['Age', 'Tonnage', 'passengers', 'length', 'cabins','passenger_density','crew']
stdsc = StandardScaler()
X_std = stdsc.fit_transform(df[cols].iloc[:,range(0,7)].values)


              
                cov_mat =np.cov(X_std.T)
plt.figure(figsize=(10,10))
sns.set(font_scale=1.5)
hm = sns.heatmap(cov_mat,
                 cbar=True,
                 annot=True,
                 square=True,
                 fmt='.2f',
                 annot_kws={'size': 12},
                 yticklabels=cols,
                 xticklabels=cols)
plt.title("Matriz de Covarianza de \nCoeficientes de Correlación \n")
plt.tight_layout()
plt.show()


              
                cols_selected = ['Tonnage', 'passengers', 'length', 'cabins','crew']


              
                df[cols_selected].head()


              
                X = df[cols_selected].iloc[:,0:4].values    # matriz de características 
y = df[cols_selected]['crew'].values        # variable de destino


              
                X.shape

(158, 4)


              
                y.shape

(158,)


              
                ohe = ColumnTransformer([('encoder', OneHotEncoder(), [0])],
                        remainder='passthrough')


              
                df2 = pd.get_dummies(df[['Ship_name', 'Cruise_line','Age', 'Tonnage', 'passengers', 'length', 'cabins','passenger_density','crew']])


              
                df2.head()


              
                plt.scatter(df2['Ship_name_Adventure'],df2['crew'])
plt.xlabel('Nombre del Barco')
plt.ylabel('Tripulación')
plt.show()


              
                X = df[cols_selected].iloc[:,0:4].values
y = df[cols_selected]['crew']


              
                X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.4, random_state=0)


              
                slr = LinearRegression()
slr.fit(X_train, y_train)
y_train_pred = slr.predict(X_train)
y_test_pred = slr.predict(X_test)


              
                plt.scatter(y_train_pred,  y_train_pred - y_train,
            c='steelblue', marker='o', edgecolor='white',
            label='Datos de entrenamiento')
plt.scatter(y_test_pred,  y_test_pred - y_test,
            c='limegreen', marker='s', edgecolor='white',
            label='Datos de prueba')
plt.xlabel('Valores predichos')
plt.ylabel('Residuos')
plt.legend(loc='upper left')
plt.hlines(y=0, xmin=-10, xmax=150, color='gray', lw=1)
plt.xlim([-10, 90])
plt.tight_layout()
plt.legend(loc='lower right')
plt.show()


              
                print('MSE train: %.3f, test: %.3f' % (
        mean_squared_error(y_train, y_train_pred),
        mean_squared_error(y_test, y_test_pred)))
print('R^2 train: %.3f, test: %.3f' % (
        r2_score(y_train, y_train_pred),
        r2_score(y_test, y_test_pred)))

MSE train: 0.955, test: 0.889
R^2 train: 0.920, test: 0.928


              
                slr.fit(X_train, y_train).intercept_

-0.7525074496158375


              
                slr.fit(X_train, y_train).coef_

array([ 0.01902703, -0.15001099,  0.37876395,  0.77613801])


              
                X = df[cols_selected].iloc[:,0:4].values     
y = df[cols_selected]['crew']  
sc_y = StandardScaler()
sc_x = StandardScaler()
y_std = sc_y.fit_transform(y_train[:, np.newaxis]).flatten()


              
                train_score = []
test_score = []


              
                for i in range(10):
    X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.4, random_state=i)
    y_train_std = sc_y.fit_transform(y_train[:, np.newaxis]).flatten()
    pipe_lr = Pipeline([('scl', StandardScaler()),('pca', PCA(n_components=4)),('slr', LinearRegression())])
    pipe_lr.fit(X_train, y_train_std)
    y_train_pred_std=pipe_lr.predict(X_train)
    y_test_pred_std=pipe_lr.predict(X_test)
    y_train_pred=sc_y.inverse_transform(y_train_pred_std)
    y_test_pred=sc_y.inverse_transform(y_test_pred_std)
    train_score = np.append(train_score, r2_score(y_train, y_train_pred))
    test_score = np.append(test_score, r2_score(y_test, y_test_pred))


              
                train_score

array([0.92028261, 0.91733937, 0.94839385, 0.93899476, 0.90621451,
       0.91156903, 0.92726066, 0.94000795, 0.93922948, 0.93629554])


              
                test_score

array([0.92827978, 0.93807946, 0.8741834 , 0.89901199, 0.94781315,
       0.91880183, 0.91437408, 0.89660876, 0.90427477, 0.90139208])


              
                print('R2 train: %.3f +/- %.3f' % (np.mean(train_score),np.std(train_score)))

R2 train: 0.929 +/- 0.013


              
                print('R2 test: %.3f +/- %.3f' % (np.mean(test_score),np.std(test_score)))

R2 test: 0.912 +/- 0.021


              
                train_score = []
test_score = []
cum_variance = []


              
                for i in range(1,5):
    X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.4, random_state=0)
    y_train_std = sc_y.fit_transform(y_train[:, np.newaxis]).flatten()
    pipe_lr = Pipeline([('scl', StandardScaler()),('pca', PCA(n_components=i)),('slr', LinearRegression())])
    pipe_lr.fit(X_train, y_train_std)
    y_train_pred_std=pipe_lr.predict(X_train)
    y_test_pred_std=pipe_lr.predict(X_test)
    y_train_pred=sc_y.inverse_transform(y_train_pred_std)
    y_test_pred=sc_y.inverse_transform(y_test_pred_std)
    train_score = np.append(train_score, r2_score(y_train, y_train_pred))
    test_score = np.append(test_score, r2_score(y_test, y_test_pred))
    cum_variance = np.append(cum_variance, np.sum(pipe_lr.fit(X_train, y_train).named_steps['pca'].explained_variance_ratio_))


              
                train_score

array([0.90411898, 0.9041488 , 0.90416405, 0.92028261])


              
                test_score

array([0.89217843, 0.89174896, 0.89159266, 0.92827978])


              
                cum_variance

array([0.949817  , 0.98322819, 0.99587366, 1.        ])


              
                plt.scatter(cum_variance,train_score, label = "Entrenamiento")
plt.plot(cum_variance, train_score)
plt.scatter(cum_variance,test_score, label = "Prueba")
plt.plot(cum_variance, test_score)
plt.xlabel("Varianza Acumulada")
plt.ylabel("R2")
plt.legend()
plt.show()


              
                X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.4, random_state=0)
y_train_std = sc_y.fit_transform(y_train[:, np.newaxis]).flatten()
X_train_std = sc_x.fit_transform(X_train)
X_test_std = sc_x.transform(X_test)


              
                alpha = np.linspace(0.01,0.4,10)


              
                lasso = Lasso(alpha=0.7)
r2_train=[]
r2_test=[]
norm = []
for i in range(10):
    lasso = Lasso(alpha=alpha[i])
    lasso.fit(X_train_std,y_train_std)
    y_train_std=lasso.predict(X_train_std)
    y_test_std=lasso.predict(X_test_std)
    r2_train=np.append(r2_train,r2_score(y_train,sc_y.inverse_transform(y_train_std)))
    r2_test=np.append(r2_test,r2_score(y_test,sc_y.inverse_transform(y_test_std)))
    norm= np.append(norm,np.linalg.norm(lasso.coef_))


              
                plt.scatter(alpha,r2_train,label="Entrenamiento")
plt.plot(alpha,r2_train)
plt.scatter(alpha,r2_test,label="Pruebas")
plt.plot(alpha,r2_test)
plt.scatter(alpha,norm,label = "Normal")
plt.plot(alpha,norm)
plt.ylim(-0.1,1)
plt.xlim(0,.43)
plt.xlabel("Alpha")
plt.ylabel("R2")
plt.legend()
plt.show()

	Ship_name	Cruise_line	Age	Tonnage	passengers	length	cabins	passenger_density	crew
0	Journey	Azamara	6	30.277	6.94	5.94	3.55	42.64	3.55
1	Quest	Azamara	6	30.277	6.94	5.94	3.55	42.64	3.55
2	Celebration	Carnival	26	47.262	14.86	7.22	7.43	31.80	6.70
3	Conquest	Carnival	11	110.000	29.74	9.53	14.88	36.99	19.10
4	Destiny	Carnival	17	101.353	26.42	8.92	13.21	38.36	10.00

	Age	Tonnage	passengers	length	cabins	passenger_density	crew
count	158.000000	158.000000	158.000000	158.000000	158.000000	158.000000	158.000000
mean	15.689873	71.284671	18.457405	8.130633	8.830000	39.900949	7.794177
std	7.615691	37.229540	9.677095	1.793474	4.471417	8.639217	3.503487
min	4.000000	2.329000	0.660000	2.790000	0.330000	17.700000	0.590000
25%	10.000000	46.013000	12.535000	7.100000	6.132500	34.570000	5.480000
50%	14.000000	71.899000	19.500000	8.555000	9.570000	39.085000	8.150000
75%	20.000000	90.772500	24.845000	9.510000	10.885000	44.185000	9.990000
max	48.000000	220.000000	54.000000	11.820000	27.000000	71.430000	21.000000

	Tonnage	passengers	length	cabins	crew
0	30.277	6.94	5.94	3.55	3.55
1	30.277	6.94	5.94	3.55	3.55
2	47.262	14.86	7.22	7.43	6.70
3	110.000	29.74	9.53	14.88	19.10
4	101.353	26.42	8.92	13.21	10.00

	Age	Tonnage	passengers	length	cabins	passenger_density	crew	...
0	6	30.277	6.94	5.94	3.55	42.64	3.55	...
1	6	30.277	6.94	5.94	3.55	42.64	3.55	...
2	26	47.262	14.86	7.22	7.43	31.80	6.70	...
3	11	110.000	29.74	9.53	14.88	36.99	19.10	...
4	17	101.353	26.42	8.92	13.21	38.36	10.00	...

Modelo de Aprendizaje Automático (ML)

1. Procesamiento de datos y selección de variables

2. Construcción del Modelo de Regresión Múltiple

3. Ajuste de Hiperparámetros

4. Técnicas de Reducción de Dimensionalidad del Modelo