Más trucos de Pandas

Más trucos de Pandas.

Publicado el: 19 de Diciembre del 2020 - Jhonatan Montilla

Función concat() que debes conocer para acelerar tus análisis de datos.

Pandas proporciona varias funciones integradas para combinar fácilmente DataFrames. Entre ellos, la función concat() parece bastante sencilla de usar, pero todavía hay muchos trucos que debe conocer para acelerar su análisis de datos.

En este artículo, aprenderá a tratar con los siguientes inconvenientes comunes:

Tratamiento de índices y ejes
Evitar índices duplicados
Agregar índice jerárquico con opciones de claves y nombres
Correspondencia y clasificación de columnas
Carga y concatenación de conjuntos de datos de un montón de archivos CSV

Primeramente se procede a la carga de las librerías

In [2]:

                import pandas as pd
import numpy as np
import pathlib2 as pl2

              

1. Tratamiento de índices y ejes¶

Se tienen dos conjuntos de datos sobre las calificaciones de exámenes de un grupo de alumnos.

In [3]:

                df1 = pd.DataFrame({
    'name': ['A', 'B', 'C', 'D'],
    'math': [60,89,82,70],
    'physics': [66,95,83,66],
    'chemistry': [61,91,77,70]
})
df2 = pd.DataFrame({
    'name': ['E', 'F', 'G', 'H'],
    'math': [66,95,83,66],
    'physics': [60,89,82,70],
    'chemistry': [90,81,78,90]
})

              

La concatenación es bastante simple con la función concat(), consiste en pasar una lista de DataFrames, por ejemplo [df1, df2]. Y de manera predeterminada, está concatenando verticalmente a lo largo del eje 0 y conservando todos los índices existentes.
Si desea que la concatenación ignore los índices existentes, puede establecer el argumento ignore_index = True. Luego, el índice DataFrame resultante se etiquetará con 0,…, n-1.

In [4]:

                pd.concat([df1, df2], ignore_index=True)

              

Out[4]:

	name	math	physics	chemistry
0	A	60	66	61
1	B	89	95	91
2	C	82	83	77
3	D	70	66	70
4	E	66	60	90
5	F	95	89	81
6	G	83	82	78
7	H	66	70	90

Para concatenar DataFrames horizontalmente a lo largo del eje 1, puede establecer el argumento axis = 1.

In [5]:

                pd.concat([df1, df2], axis=1)

              

Out[5]:

	name	math	physics	chemistry	name	math	physics	chemistry
0	A	60	66	61	E	66	60	90
1	B	89	95	91	F	95	89	81
2	C	82	83	77	G	83	82	78
3	D	70	66	70	H	66	70	90

2. Evitar índices duplicados

La función concat() conserva los índices, para establecer que los índices en el resultado de pd.concat() no se superpongann, se establece el argumento verify_integrity = True. Con este establecido en Verdadero, generará una excepción si hay índices duplicados.

In [6]:

                try:
    pd.concat([df1,df2], verify_integrity=True)
except ValueError as e:
    print('ValueError', e)

              

ValueError Indexes have overlapping values: Int64Index([0, 1, 2, 3], dtype='int64')

3. Agregar un índice jerárquico con opciones de claves y nombres

Es muy útil agregar un índice jerárquico (también conocido como índice multinivel) para un análisis de datos más sofisticado. En este caso, se agrega el año 1 y el año 2 del índice para df1 y df2 respectivamente. Para hacer esto, simplemente se especifica el argumento en las claves.

In [7]:

                res = pd.concat([df1, df2], keys=['Year 1','Year 2'])
res

Out[7]:

		name	math	physics	chemistry
Year 1	0	A	60	66	61
	1	B	89	95	91
	2	C	82	83	77
	3	D	70	66	70
Year 2	0	E	66	60	90
	1	F	95	89	81
	2	G	83	82	78
	3	H	66	70	90

Por lo tanto, para acceder a un grupo específico de valores, por ejemplo, Año 1

In [8]:

                res.loc['Year 1']

              

Out[8]:

	name	math	physics	chemistry
0	A	60	66	61
1	B	89	95	91
2	C	82	83	77
3	D	70	66	70

Además, los nombres de los argumentos se pueden utilizar para agregar nombres al índice jerárquico resultante. Por ejemplo: agregue el nombre Class al índice más externo que acabamos de crear.

In [9]:

                pd.concat(
    [df1, df2], 
    keys=['Year 1', 'Year 2'],
    names=['Class', None],
)

              

Out[9]:

		name	math	physics	chemistry
Class
Year 1	0	A	60	66	61
	1	B	89	95	91
	2	C	82	83	77
	3	D	70	66	70
Year 2	0	E	66	60	90
	1	F	95	89	81
	2	G	83	82	78
	3	H	66	70	90

También se puede restablecer un índice y convertirlo en una columna de datos, a través de reset_index()

In [10]:

                pd.concat(
    [df1, df2], 
    keys=['Year 1', 'Year 2'],
    names=['Class', None],
).reset_index(level=0)
# reset_index(level='Class')

              

Out[10]:

	Class	name	math	physics	chemistry
0	Year 1	A	60	66	61
1	Year 1	B	89	95	91
2	Year 1	C	82	83	77
3	Year 1	D	70	66	70
0	Year 2	E	66	60	90
1	Year 2	F	95	89	81
2	Year 2	G	83	82	78
3	Year 2	H	66	70	90

4. Columnas coincidentes y ordenadas

La función concat() puede concatenar DataFrames con las columnas en un orden diferente. De forma predeterminada, el DataFrame resultante tendría la misma clasificación que el primer DataFrame. Por ejemplo, en el siguiente ejemplo, es el mismo orden que df1.

Si prefiere que el DataFrame resultante se ordene alfabéticamente, puede establecer el argumento sort = True.

In [11]:

                pd.concat([df1, df2], sort=True)

              

Out[11]:

	chemistry	math	name	physics
0	61	60	A	66
1	91	89	B	95
2	77	82	C	83
3	70	70	D	66
0	90	66	E	60
1	81	95	F	89
2	78	83	G	82
3	90	66	H	70

Si prefiere una ordenación personalizada, a continuación se explica cómo hacerlo:

In [12]:

                custom_sort = ['math', 'chemistry', 'physics', 'name']
res = pd.concat([df1, df2])
res[custom_sort]

              

Out[12]:

	math	chemistry	physics	name
0	60	61	66	A
1	89	91	95	B
2	82	77	83	C
3	70	70	66	D
0	66	90	60	E
1	95	81	89	F
2	83	78	82	G
3	66	90	70	H

Se almacenan los conjuntos de datos en archivos .CSV para la ejecución de próximo ejercicio.

In [15]:

                df1.to_csv("test/df1.csv", sep=",", index=False)
df2.to_csv("test/df2.csv", sep=",", index=False)

5. Carga y concatenación de conjuntos de datos de un montón de archivos CSV

Supongamos que necesitamos cargar y concatenar conjuntos de datos desde varios archivos .CSV contenidos en un directorio, a través de un bucle for se puede efectuar dicha tarea.

In [16]:

                ps = pl2.Path('test/')
dfs = (
    pd.read_csv(p, encoding='utf8') for p in ps.glob('*.csv')
)
res = pd.concat(dfs)
res

              

Out[16]:

	name	math	physics	chemistry
0	A	60	66	61
1	B	89	95	91
2	C	82	83	77
3	D	70	66	70
0	E	66	60	90
1	F	95	89	81
2	G	83	82	78
3	H	66	70	90

Una sola línea de código lee todos los archivos .CSV y genera una lista de DataFrames dfs. Luego, solo necesitamos llamar a pd.concat (dfs) una vez para obtener el mismo resultado.
Si desea calcula el tiempo de ambas ejecuciones, lo puede hacer utilizando %% timeit, probablemente encontrará que esta solución ahorra la mitad del tiempo.
La concatenación de varios conjuntos de datos ahorra tiempo y códigos. Es una manera sencilla de generar una lista en comparación con el uso de bucles.

	name	math	physics	chemistry
0	A	60	66	61
1	B	89	95	91
2	C	82	83	77
3	D	70	66	70
4	E	66	60	90
5	F	95	89	81
6	G	83	82	78
7	H	66	70	90

	name	math	physics	chemistry	name	math	physics	chemistry
0	A	60	66	61	E	66	60	90
1	B	89	95	91	F	95	89	81
2	C	82	83	77	G	83	82	78
3	D	70	66	70	H	66	70	90

	chemistry	math	name	physics
0	61	60	A	66
1	91	89	B	95
2	77	82	C	83
3	70	70	D	66
0	90	66	E	60
1	81	95	F	89
2	78	83	G	82
3	90	66	H	70

	math	chemistry	physics	name
0	60	61	66	A
1	89	91	95	B
2	82	77	83	C
3	70	70	66	D
0	66	90	60	E
1	95	81	89	F
2	83	78	82	G
3	66	90	70	H

	name	math	physics	chemistry
0	A	60	66	61
1	B	89	95	91
2	C	82	83	77
3	D	70	66	70
0	E	66	60	90
1	F	95	89	81
2	G	83	82	78
3	H	66	70	90

	name	math	physics	chemistry
0	A	60	66	61
1	B	89	95	91
2	C	82	83	77
3	D	70	66	70
4	E	66	60	90
5	F	95	89	81
6	G	83	82	78
7	H	66	70	90

	name	math	physics	chemistry	name	math	physics	chemistry
0	A	60	66	61	E	66	60	90
1	B	89	95	91	F	95	89	81
2	C	82	83	77	G	83	82	78
3	D	70	66	70	H	66	70	90

	chemistry	math	name	physics
0	61	60	A	66
1	91	89	B	95
2	77	82	C	83
3	70	70	D	66
0	90	66	E	60
1	81	95	F	89
2	78	83	G	82
3	90	66	H	70

	math	chemistry	physics	name
0	60	61	66	A
1	89	91	95	B
2	82	77	83	C
3	70	70	66	D
0	66	90	60	E
1	95	81	89	F
2	83	78	82	G
3	66	90	70	H

	name	math	physics	chemistry
0	A	60	66	61
1	B	89	95	91
2	C	82	83	77
3	D	70	66	70
0	E	66	60	90
1	F	95	89	81
2	G	83	82	78
3	H	66	70	90

	name	math	physics	chemistry
0	A	60	66	61
1	B	89	95	91
2	C	82	83	77
3	D	70	66	70
4	E	66	60	90
5	F	95	89	81
6	G	83	82	78
7	H	66	70	90

	name	math	physics	chemistry	name	math	physics	chemistry
0	A	60	66	61	E	66	60	90
1	B	89	95	91	F	95	89	81
2	C	82	83	77	G	83	82	78
3	D	70	66	70	H	66	70	90

	chemistry	math	name	physics
0	61	60	A	66
1	91	89	B	95
2	77	82	C	83
3	70	70	D	66
0	90	66	E	60
1	81	95	F	89
2	78	83	G	82
3	90	66	H	70

	math	chemistry	physics	name
0	60	61	66	A
1	89	91	95	B
2	82	77	83	C
3	70	70	66	D
0	66	90	60	E
1	95	81	89	F
2	83	78	82	G
3	66	90	70	H

	name	math	physics	chemistry
0	A	60	66	61
1	B	89	95	91
2	C	82	83	77
3	D	70	66	70
0	E	66	60	90
1	F	95	89	81
2	G	83	82	78
3	H	66	70	90