import numpy as np
import matplotlib.pyplot as plt

from distfit import distfit
from scipy.stats import norm, gengamma

np.random.seed(1)


                        
                            # Generar datos a partir de una distribución normal
normal_samples = norm.rvs(10, 1, 10000)
# Cree una distribución gamma generalizada con los parámetros especificados
dist = gengamma(a=1.4, c=1, scale=0.8, loc=13)
# Generar muestras aleatorias a partir de la distribución.
gamma_samples = dist.rvs(size=2000)
# Combine los dos conjuntos de datos por concatenación
dataset = np.concatenate((normal_samples, gamma_samples))
# Mezclar el conjunto de datos
np.random.shuffle(dataset)
# Gráfico
bar_properties={'color': '#607B8B', 'linewidth': 1, 'edgecolor': '#5A5A5A'}
plt.figure(figsize=(20, 15)); plt.hist(dataset, bins=100, **bar_properties)
plt.grid(True)
plt.xlabel('Time', fontsize=22)
plt.ylabel('Frequency', fontsize=22)
# Tracemos la distribución y veamos cómo se ve (Figura 3).
# Por lo general, se necesitan algunas iteraciones para
# modificar los parámetros y realizar ajustes.

Text(0, 0.5, 'Frequency')


                        
                            # Inicializar distfit
dfit = distfit(distr='popular')
# Importar conjunto de datos
df = dfit.import_example(data='tips')
print(df.head())
# Hacer Gráfico
dfit.lineplot(df['tip'], xlabel='Número', ylabel='Valor de la propina')

[distfit] >INFO> Downloading and processing [tips] from github source.
No artists with labels found to put in legend.  Note that artists whose label start with
an underscore are ignored when legend() is called with no argument.

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4

(<Figure size 2500x1200 with 1 Axes>,
 <AxesSubplot:xlabel='Número', ylabel='Valor de la propina'>)


                        
                            # Inicializar con suavizado e intervalo de confianza de límite superior
dfit = distfit(smooth=3, bound='up')
# Modelo de ajuste
dfit.fit_transform(df['tip'], n_boots=100)
# Graficar PDF/CDF
fig, ax = plt.subplots(1,2, figsize=(25, 10))
dfit.plot(chart='PDF', n_top=10, ax=ax[0])
dfit.plot(chart='CDF', n_top=10, ax=ax[1])
plt.show()
# Crear gráfico de línea
dfit.lineplot(df['tip'], xlabel='Número', ylabel='Valor de la propina', projection=True)

[distfit] >INFO> fit
[distfit] >INFO> transform
[distfit] >INFO> [smoothline] >Smoothing by interpolation..
[distfit] >INFO> [norm      ] [0.51 sec] [RSS: 0.0156694] [loc=2.998 scale=1.381]
[distfit] >INFO> [expon     ] [0.46 sec] [RSS: 0.146759] [loc=1.000 scale=1.998] 
[distfit] >INFO> [pareto    ] [8.17 sec] [RSS: 0.275503] [loc=-0.211 scale=1.211] 
[distfit] >INFO> [dweibull  ] [5.08 sec] [RSS: 0.0169087] [loc=2.801 scale=1.112]  
[distfit] >INFO> [t         ] [13.4 sec] [RSS: 0.0103655] [loc=2.812 scale=1.060]
[distfit] >INFO> [genextreme] [13.4 sec] [RSS: 0.0153201] [loc=2.344 scale=0.957]     
[distfit] >INFO> [gamma     ] [6.01 sec] [RSS: 0.0135448] [loc=0.813 scale=0.852]
[distfit] >INFO> [lognorm   ] [11.3 sec] [RSS: 0.0150311] [loc=0.218 scale=2.483] 
[distfit] >INFO> [beta      ] [13.2 sec] [RSS: 0.00757804] [loc=-0.173 scale=13.910]
[distfit] >INFO> [uniform   ] [0.38 sec] [RSS: 0.223683] [loc=1.000 scale=9.000]   
[distfit] >INFO> [loggamma  ] [15.6 sec] [RSS: 0.0175704] [loc=-505.876 scale=66.339]
[distfit] >INFO> Compute confidence intervals [parametric]
[distfit] >INFO> Create PDF plot for the parametric method.
[distfit] >INFO> Estimated distribution: Beta(loc:-0.173207, scale:13.909676)
[distfit] >INFO> Create CDF plot for the parametric method.
[distfit] >INFO> Ploting CDF

[distfit] >INFO> [smoothline] >Smoothing by interpolation..

(<Figure size 2500x1200 with 1 Axes>,
 <AxesSubplot:title={'center':'\nbeta(a=3.83986, b=12.9412, loc=-0.173207, scale=13.9097)'}, 
 xlabel='Número', ylabel='Valor de la propina'>)


                        
                            # Crear datos sintéticos
X = dfit.generate(100)
# Graficar los datos
dfit.lineplot(X, xlabel='Número', ylabel='Valor de la propina', grid=True)

[distfit] >INFO> Create Synthetic data for 100 beta distributed samples with fitted params
  (3.8398602263040145, 12.941240498249325, -0.17320742358898006, 13.909676436498582).
[distfit] >INFO> [smoothline] >Smoothing by interpolation..

(<Figure size 2500x1200 with 1 Axes>,
 <AxesSubplot:title={'center':'\nbeta(a=3.83986, b=12.9412, loc=-0.173207, scale=13.9097)'}, 
 xlabel='Número', ylabel='Valor de la propina'>)

Generación de datos sintéticos mediante muestreo a partir de Distribuciones Univariadas.

Datos sintéticos — Antecedentes.

Descripción general de las funciones de densidad de probabilidad.

Crear datos sintéticos para simulación.

Traducir el conocimiento del dominio en un modelo estadístico.

Optimice los parámetros para crear datos sintéticos que mejor se adapten al escenario.

Creación de datos sintéticos que reflejan fielmente la distribución de datos reales.

Inspección visual del conjunto de datos.