¿Cómo crear un DataFrame en Python?

Un marco de datos es una colección de datos bidimensional. Es una estructura de datos donde los datos se almacenan en forma de tabla. Los conjuntos de datos están organizados en filas y columnas; Podemos almacenar múltiples conjuntos de datos en el marco de datos. Podemos realizar varias operaciones aritméticas, como agregar selección de columnas/filas y columnas/filas en el marco de datos.

En Python, un DataFrame, un componente fundamental de la biblioteca Pandas, sirve como un contenedor de datos bidimensional completo. Parecido a una tabla, encapsula los datos con claridad, empleando filas y columnas, cada una dotada de un índice distintivo. Su versatilidad permite acomodar diversos tipos de datos dentro de columnas, lo que brinda flexibilidad en el manejo de conjuntos de datos complejos.

Pandas DataFrames brinda a los usuarios una amplia gama de funcionalidades. Desde la creación de datos estructurados utilizando diccionarios u otras estructuras de datos hasta el empleo de una indexación sólida para un acceso fluido a los datos, Pandas facilita la manipulación de datos sin esfuerzo. La biblioteca proporciona una interfaz intuitiva para ejecutar operaciones como filtrar filas según condiciones, agrupar datos para su agregación y realizar análisis estadísticos con facilidad.

Podemos importar los DataFrames desde el almacenamiento externo; Estos almacenamientos pueden denominarse SQL Base de datos, archivo CSV y un archivo Excel. También podemos usar las listas, diccionario, y desde una lista de diccionario, etc.

En este tutorial, aprenderemos a crear el marco de datos de varias maneras. Entendamos estas diferentes formas.

Primero, necesitamos instalar la biblioteca pandas en el Pitón ambiente.

Un marco de datos vacío

Podemos crear un Dataframe vacío básico. Es necesario llamar al constructor del marco de datos para crear el marco de datos. Entendamos el siguiente ejemplo.

Ejemplo -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are Calling DataFrame constructor df = pd.DataFrame() print(df) # here, we are printing the dataframe  

Producción:

 Empty DataFrame Columns: [] Index: []  

Método - 2: crear un marco de datos usando Lista

Podemos crear un marco de datos usando una lista única o una lista de listas. Entendamos el siguiente ejemplo.

Ejemplo -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are declaring the string values in the list lst = ['Java', 'Python', 'C', 'C++', 'JavaScript', 'Swift', 'Go'] # Here, we are calling DataFrame constructor on list dframe = pd.DataFrame(lst) print(dframe) # here, we are printing the dataframe  

Producción:

 0 Java 1 Python 2 C 3 C++ 4 JavaScript 5 Swift 6 Go  

Explicación:

  • Importar Pandas: importar pandas como pd importa la biblioteca de Pandas y la denomina pd por su brevedad.
  • Crear lista: lst es un resumen que contiene valores de cadena que abordan dialectos de programación.
  • Desarrollo de DataFrame: pd.DataFrame(lst) crea un DataFrame a partir del resumen lst. Por supuesto, cuando se proporciona un resumen solitario, Pandas crea un DataFrame con una sección solitaria.
  • Impresión de DataFrame: print(dframe) imprime el DataFrame posterior.

Método - 3: crear un marco de datos a partir de dict de ndarray/lists

El dictado de ndarray/lists se puede utilizar para crear un marco de datos, todos los ndarray debe tener la misma longitud. El índice será un rango (n) de forma predeterminada; donde n denota la longitud de la matriz. Entendamos el siguiente ejemplo.

Ejemplo -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the data of lists. data = {'Name': ['Tom', 'Joseph', 'Krish', 'John'], 'Age': [20, 21, 19, 18]} # Here, we are creating the DataFrame df = pd.DataFrame(data) # here, we are printing the dataframe # Here, we are printing the output. print(df) # here, we are printing the dataframe  

Producción:

 Name Age 0 Tom 20 1 Joseph 21 2 Krish 19 3 John 18  

Explicación:

  • Importar Pandas: importar pandas como pd importa la biblioteca Pandas y la denomina pd.
  • Crear diccionario: la información es una referencia de palabras donde las claves son nombres de segmentos ('Nombre' y 'Edad') y los valores son registros que contienen información relacionada.
  • Desarrollo de DataFrame: pd.DataFrame(data) construye un DataFrame a partir de la palabra referencia. Las claves se convierten en nombres de secciones y los resúmenes se convierten en segmentos.
  • Impresión de DataFrame: print(df) imprime el DataFrame posterior.

Método - 4: Crear un marco de datos de índices usando matrices

Entendamos el siguiente ejemplo para crear el marco de datos de índices usando matrices.

Ejemplo -

 # Here, we are implementing the DataFrame using arrays. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the data of lists. data = {'Name':['Renault', 'Duster', 'Maruti', 'Honda City'], 'Ratings':[9.0, 8.0, 5.0, 3.0]} # Here, we are creating the pandas DataFrame. df = pd.DataFrame(data, index =['position1', 'position2', 'position3', 'position4']) # Here, we are printing the data print(df)  

Producción:

 Name Ratings position1 Renault 9.0 position2 Duster 8.0 position3 Maruti 5.0 position4 Honda City 3.0  

Explicación:

  • Importar Pandas: importar pandas como pd importa la biblioteca Pandas y la denomina pd.
  • Crear diccionario: información es una referencia de palabras donde las claves son nombres de segmentos ('Nombre' y 'Evaluaciones') y los valores son registros que contienen información relacionada.
  • Desarrollo de DataFrame: pd.DataFrame(data, index=['position1', 'position2', 'position3', 'position4']) construye un DataFrame a partir de la palabra referencia. La lista predefinida se asigna a las líneas.
  • Impresión de DataFrame: print(df) imprime el DataFrame posterior.

Método - 5: crear un marco de datos a partir de una lista de dictados

Podemos pasar las listas de diccionarios como datos de entrada para crear el marco de datos de Pandas. Los nombres de las columnas se toman como claves de forma predeterminada. Entendamos el siguiente ejemplo.

Ejemplo -

 # Here, we are implementing an example to create # Pandas DataFrame by using the lists of dicts. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the values to lists. data = [{'A': 10, 'B': 20, 'C':30}, {'x':100, 'y': 200, 'z': 300}] # Here, we are creating the DataFrame. df = pd.DataFrame(data) # Here, we are printing the data of the dataframe print(df)  

Producción:

 A B C x y z 0 10.0 20.0 30.0 NaN NaN NaN 1 NaN NaN NaN 100.0 200.0 300.0  

Entendamos otro ejemplo para crear el marco de datos de pandas a partir de una lista de diccionarios con índice de fila y índice de columna.

Explicación:

  • Importar Pandas: importar pandas como pd importa la biblioteca Pandas y la denomina pd.
  • Crear lista y diccionario: la información es un resumen donde cada componente es una referencia de palabra que se dirige a una columna en el marco de datos. Las claves de las referencias de palabras se convierten en nombres de segmentos.
  • Desarrollo de DataFrame: pd.DataFrame(data) crea un DataFrame a partir del resumen de referencias de palabras. Las claves de las referencias de palabras se convierten en secciones y las cualidades se convierten en información en el DataFrame.
  • Impresión de DataFrame: print(df) imprime el DataFrame posterior.

Ejemplo - 2:

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the values to the lists. data = [{'x': 1, 'y': 2}, {'A': 15, 'B': 17, 'C': 19}] # Here, we are declaring the two column indices, values same as the dictionary keys dframe1 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y']) # Here, we are declaring the variable dframe1 with the parameters data and the indexes # Here, we are declaring the two column indices with # one index with other name dframe2 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y1']) # Here, we are declaring the variable dframe2 with the parameters data and the indexes # Here, we are printing the first data frame i.e., dframe1 print (dframe1, '
') # Here, we are printing the first data frame i.e., dframe2 print (dframe2)  

Producción:

 x y first 1.0 2.0 second NaN NaN x y1 first 1.0 NaN second NaN NaN  

Explicación:

La biblioteca pandas se utiliza para crear dos DataFrames inconfundibles, denominados dframe1 y dframe2, a partir de una lista de referencias de palabras denominadas información. Estas referencias de palabras actúan como representaciones de líneas individuales dentro de los DataFrames, donde las claves se relacionan con los nombres de los segmentos y las cualidades relacionadas abordan la información relevante. El DataFrame subyacente, dframe1, se inicia con archivos de línea explícitos ('primero' y 'segundo') y registros de sección ('x' e 'y'). Por lo tanto, se crea un segundo DataFrame, dframe2, utilizando una recopilación de información similar pero con una disparidad en los archivos de sección, explícitamente indicados como 'x' e 'y1'. El código cierra imprimiendo ambos DataFrames al centro de control, aclarando los diseños de secciones particulares de cada DataFrame. Este código sirve como un esquema extenso de la creación y control de DataFrame dentro de la biblioteca de pandas, brindando experiencias sobre cómo se pueden ejecutar variedades en registros de sección.

Ejemplo - 3

 # The example is to create # Pandas DataFrame by passing lists of # Dictionaries and row indices. import pandas as pd # Here, we are importing the pandas library as pd # assign values to lists data = [{'x': 2, 'z':3}, {'x': 10, 'y': 20, 'z': 30}] # Creates padas DataFrame by passing # Lists of dictionaries and row index. dframe = pd.DataFrame(data, index =['first', 'second']) # Print the dataframe print(dframe)  

Producción:

 x y z first 2 NaN 3 second 10 20.0 30  

Explicación:

En este código Python, se desarrolla un Pandas DataFrame utilizando la biblioteca de pandas al proporcionar disposiciones de referencias de palabras y determinar registros de columnas. El ciclo comienza con la importación de la biblioteca pandas, asignada con el nombre falso 'pd' por brevedad. Por lo tanto, se caracteriza un resumen de referencias de palabras denominadas información, donde cada referencia de palabras direcciona una línea del DataFrame. Las claves dentro de estas referencias de palabras significan los nombres de los segmentos, mientras que los valores relacionados indican la información importante.

Luego, el DataFrame, indicado como dframe, se crea utilizando el constructor pd.DataFrame(), consolidando la información proporcionada y estableciendo expresamente los registros de línea en 'primero' y 'segundo'. El DataFrame posterior muestra un diseño uniforme con secciones denominadas 'x', 'y' y 'z'. Cualquier cualidad faltante se indica como 'NaN'.

Método - 6: Crear un marco de datos usando la función zip()

La función zip() se utiliza para fusionar las dos listas. Entendamos el siguiente ejemplo.

Ejemplo -

 # The example is to create # pandas dataframe from lists using zip. import pandas as pd # Here, we are importing the pandas library as pd # List1 Name = ['tom', 'krish', 'arun', 'juli'] # List2 Marks = [95, 63, 54, 47] # two lists. # and merge them by using zip(). list_tuples = list(zip(Name, Marks)) # Assign data to tuples. print(list_tuples) # Converting lists of tuples into # pandas Dataframe. dframe = pd.DataFrame(list_tuples, columns=['Name', 'Marks']) # Print data. print(dframe)  

Producción:

 [('john', 95), ('krish', 63), ('arun', 54), ('juli', 47)] Name Marks 0 john 95 1 krish 63 2 arun 54 3 juli 47  

Explicación:

Este código Python muestra la producción de un Pandas DataFrame a partir de dos registros, específicamente 'Nombre' y 'Sellos', utilizando la biblioteca pandas y la capacidad de compresión. Después de la importación de la biblioteca pandas, se caracterizan los registros 'Nombre' y 'Verificaciones', abordando las secciones ideales del DataFrame. La función zip se utiliza para unir componentes de comparación de estos resúmenes en tuplas, enmarcando otro resúmen llamado list_tuples.

Luego, el código, en ese punto, imprime el resumen de tuplas para dar un breve vistazo a la información unida. En consecuencia, se crea un Pandas DataFrame llamado dframe utilizando el constructor pd.DataFrame(), en el que la lista de tuplas se convierte en una configuración uniforme organizada. Los segmentos 'Nombre' y 'Sellos' se asignan inequívocamente durante este proceso de creación de DataFrame.

Método - 7: crear un marco de datos a partir de dictados de series

El diccionario se puede pasar para crear un marco de datos. Podemos usar los dictados de series donde el índice posterior es la unión de todas las series de valores de índice pasados. Entendamos el siguiente ejemplo.

Ejemplo -

 # Pandas Dataframe from Dicts of series. import pandas as pd # Here, we are importing the pandas library as pd # Initialize data to Dicts of series. d = {'Electronics' : pd.Series([97, 56, 87, 45], index =['John', 'Abhinay', 'Peter', 'Andrew']), 'Civil' : pd.Series([97, 88, 44, 96], index =['John', 'Abhinay', 'Peter', 'Andrew'])} # creates Dataframe. dframe = pd.DataFrame(d) # print the data. print(dframe)  

Producción:

 Electronics Civil John 97 97 Abhinay 56 88 Peter 87 44 Andrew 45 96  

Explicación:

En este código Python, un Pandas DataFrame se crea a partir de referencias de palabras de series que utilizan la biblioteca pandas. Dos temas, 'Gadgets' y 'Comunes', se abordan como secciones y las partituras individuales con archivos explícitos se coordinan en un DataFrame llamado dframe. La siguiente estructura simple se imprime en el centro de control, mostrando un método compacto para coordinar e investigar información marcada utilizando Pandas.

En este tutorial, hemos analizado las diferentes formas de crear DataFrames.