import pandas as pd
from datetime import date
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sb


              
                data = pd.read_csv ('walmart_store_sales.csv')


              
                data.head()


              
                data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6435 entries, 0 to 6434
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Store         6435 non-null   int64  
 1   Date          6435 non-null   object 
 2   Weekly_Sales  6435 non-null   float64
 3   Holiday_Flag  6435 non-null   int64  
 4   Temperature   6435 non-null   float64
 5   Fuel_Price    6435 non-null   float64
 6   CPI           6435 non-null   float64
 7   Unemployment  6435 non-null   float64
dtypes: float64(5), int64(2), object(1)
memory usage: 402.3+ KB


              
                data.max()

Store                   45
Date            31-12-2010
Weekly_Sales    3818686.45
Holiday_Flag             1
Temperature         100.14
Fuel_Price           4.468
CPI             227.232807
Unemployment        14.313
dtype: object


              
                data.loc[data['Weekly_Sales'] == data['Weekly_Sales'].max()]


              
                maxstd = pd.DataFrame(data.groupby('Store').agg({'Weekly_Sales':['std','mean']}))


              
                axstd = maxstd.reset_index() # Restableciendo el índice de la agrupación.


              
                maxstd['CoV'] = round(((maxstd[('Weekly_Sales','std')]/maxstd[('Weekly_Sales','mean')]) *100),2)


              
                maxstd.loc[maxstd[('Weekly_Sales','std')] == maxstd[('Weekly_Sales','std')].max()]


              
                data['Date'] = pd.to_datetime(data['Date'])


              
                Q2_date_from = pd.Timestamp(date(2012,4,1))
Q2_date_to = pd.Timestamp(date(2012,6,30))
Q3_date_from = pd.Timestamp(date(2012,7,1))
Q3_date_to = pd.Timestamp(date(2012,9,30))


              
                Q2data = data[(data['Date'] > Q2_date_from) & (data['Date'] < Q2_date_to)]
Q3data = data[(data['Date'] > Q3_date_from) & (data['Date'] < Q3_date_to)]


              
                Q2 = pd.DataFrame(Q2data.groupby('Store')['Weekly_Sales'].sum())
Q2.reset_index(inplace=True)
Q2.rename(columns={'Weekly_Sales': 'Q2_Weekly_Sales'},inplace=True)


              
                Q3 = pd.DataFrame(Q3data.groupby('Store')['Weekly_Sales'].sum())
Q3.reset_index(inplace=True)
Q3.rename(columns={'Weekly_Sales': 'Q3_Weekly_Sales'},inplace=True)


              
                Q3_Growth= Q2.merge(Q3,how='inner',on='Store')


              
                Q3_Growth['Growth_Rate'] =(Q3_Growth['Q3_Weekly_Sales'] - Q3_Growth['Q2_Weekly_Sales'])/Q3_Growth['Q2_Weekly_Sales']
Q3_Growth['Growth_Rate'] = round(Q3_Growth['Growth_Rate'],2) # Redondea a dos dígitos


              
                Q3_Growth.sort_values('Growth_Rate',ascending=False).head(1)


              
                Q3_Growth.sort_values('Growth_Rate',ascending=False).tail(1)


              
                data.groupby('Holiday_Flag')['Weekly_Sales'].mean()

Holiday_Flag
0    1.041256e+06
1    1.122888e+06
Name: Weekly_Sales, dtype: float64


              
                Christmas1 = pd.Timestamp(date(2010,12,31) )
Christmas2 = pd.Timestamp(date(2011,12,30) )
Christmas3 = pd.Timestamp(date(2012,12,28) )
Christmas4 = pd.Timestamp(date(2013,12,27) )


              
                Thanksgiving1=pd.Timestamp(date(2010,11,26) )
Thanksgiving2=pd.Timestamp(date(2011,11,25) )
Thanksgiving3=pd.Timestamp(date(2012,11,23) )
Thanksgiving4=pd.Timestamp(date(2013,11,29) )


              
                LabourDay1=pd.Timestamp(date(2010,2,10) )
LabourDay2=pd.Timestamp(date(2011,2,9) )
LabourDay3=pd.Timestamp(date(2012,2,7) )
LabourDay4=pd.Timestamp(date(2013,2,6) )


              
                SuperBowl1=pd.Timestamp(date(2010,9,12) )
SuperBowl2=pd.Timestamp(date(2011,9,11) )
SuperBowl3=pd.Timestamp(date(2012,9,10) )
SuperBowl4=pd.Timestamp(date(2013,9,8) )


              
                Christmas_mean_sales=data[(data['Date'] == Christmas1) | (data['Date'] == Christmas2) | (data['Date'] == Christmas3) | (data['Date'] == Christmas4)]
Thanksgiving_mean_sales=data[(data['Date'] == Thanksgiving1) | (data['Date'] == Thanksgiving2) | (data['Date'] == Thanksgiving3) | (data['Date'] == Thanksgiving4)]
LabourDay_mean_sales=data[(data['Date'] == LabourDay1) | (data['Date'] == LabourDay2) | (data['Date'] == LabourDay3) | (data['Date'] == LabourDay4)]
SuperBowl_mean_sales=data[(data['Date'] == SuperBowl1) | (data['Date'] == SuperBowl2) | (data['Date'] == SuperBowl3) | (data['Date'] == SuperBowl4)]


              
                list_of_mean_sales = {'Christmas_mean_sales' : round(Christmas_mean_sales['Weekly_Sales'].mean(),2),
                      'Thanksgiving_mean_sales': round(Thanksgiving_mean_sales['Weekly_Sales'].mean(),2),
                      'LabourDay_mean_sales' : round(LabourDay_mean_sales['Weekly_Sales'].mean(),2),
                      'SuperBowl_mean_sales':round(SuperBowl_mean_sales['Weekly_Sales'].mean(),2),
                      'Non holiday weekly sales' : round((data[data['Holiday_Flag'] == 0 ]['Weekly_Sales'].mean()),2)}
list_of_mean_sales

{'Christmas_mean_sales': 960833.11,
 'Thanksgiving_mean_sales': 1471273.43,
 'LabourDay_mean_sales': 1008369.41,
 'SuperBowl_mean_sales': nan,
 'Non holiday weekly sales': 1041256.38}


              
                monthly = data.groupby(pd.Grouper(key='Date', freq='1M')).sum() # Agrupa los datos por mes
monthly=monthly.reset_index()
fig, ax = plt.subplots(figsize=(10,8))
X = monthly['Date']
Y = monthly['Weekly_Sales']
plt.plot(X,Y)
plt.title('Ventas Mensuales')
plt.xlabel('Meses')
plt.ylabel('Ventas Semanales (En millones de USD)');


              
                Quaterly = data.groupby(pd.Grouper(key='Date', freq='3M')).sum() # Agrupa los datos por trimestres
Quaterly = Quaterly.reset_index()
fig, ax = plt.subplots(figsize=(10,8))
X = Quaterly['Date']
Y = Quaterly['Weekly_Sales']
plt.plot(X,Y)
plt.title('Ventas Trimestrales')
plt.xlabel('Trimestres')
plt.ylabel('Ventas Semanales (En millones de USD)');


              
                Quaterly.head(10)


              
                Semester = data.groupby(pd.Grouper(key='Date', freq='6M')).sum() # Agrupa los datos por semestres
Semester = Semester.reset_index()
fig, ax = plt.subplots(figsize=(10,8))
X = Semester['Date']
Y = Semester['Weekly_Sales']
plt.plot(X,Y)
plt.title('Ventas Semestrales')
plt.xlabel('Semestre')
plt.ylabel('Ventas Semanales (En millones de USD)');

	Store	Date	Weekly_Sales	Holiday_Flag	Temperature	Fuel_Price	CPI	Unemployment
0	1	05-02-2010	1643690.90	0	42.31	2.572	211.096358	8.106
1	1	12-02-2010	1641957.44	1	38.51	2.548	211.242170	8.106
2	1	19-02-2010	1611968.17	0	39.93	2.514	211.289143	8.106
3	1	26-02-2010	1409727.59	0	46.63	2.561	211.319643	8.106
4	1	05-03-2010	1554806.68	0	46.50	2.625	211.350143	8.106

	Date	Store	Weekly_Sales	Holiday_Flag	Temperature	Fuel_Price	CPI	Unemployment
0	2010-01-31	1035	4.223988e+07	0	3144.06	123.045	7575.961790	381.388
1	2010-04-30	12420	5.616249e+08	0	30152.46	1517.442	90668.190883	4603.421
2	2010-07-31	13455	6.073143e+08	0	38886.30	1646.360	98241.900375	4968.652
3	2010-10-31	13455	5.953623e+08	45	39054.88	1640.944	98436.182932	4944.339
4	2011-01-31	14490	6.943104e+08	135	29278.66	1920.567	106369.690587	5296.918
5	2011-04-30	13455	6.030990e+08	0	31273.71	2071.638	100045.255668	4772.415
6	2011-07-31	12420	5.474564e+08	0	37317.61	2018.925	92523.508979	4382.378
7	2011-10-31	13455	6.028326e+08	45	39341.09	2112.421	100765.181291	4688.981
8	2012-01-31	13455	6.550670e+08	135	28096.00	2009.493	101326.042029	4565.239
9	2012-04-30	12420	5.561121e+08	0	30261.33	2041.429	94609.439676	4026.321

Análisis Exploratorio de Datos (EDA)

Análisis de datos de ventas en tiendas Walmart.

Planteamiento del Problema.

Descripción del conjunto de datos¶

Tareas de análisis¶

	Weekly_Sales		CoV
	std	mean
Store
14	317569.949476	2.020978e+06	15.71