Como criar um DataFrame em Python?

Um Data Frame é uma coleção bidimensional de dados. É uma estrutura de dados onde os dados são armazenados em forma tabular. Os conjuntos de dados são organizados em linhas e colunas; podemos armazenar vários conjuntos de dados no quadro de dados. Podemos realizar várias operações aritméticas, como adicionar seleção de coluna/linha e colunas/linhas no quadro de dados.

Em Python, um DataFrame, um componente essencial da biblioteca Pandas, serve como um contêiner de dados bidimensional abrangente. Assemelhando-se a uma tabela, encapsula os dados com clareza, empregando linhas e colunas, cada uma dotada de um índice distinto. Sua versatilidade permite a acomodação de diversos tipos de dados em colunas, proporcionando flexibilidade no tratamento de conjuntos de dados complexos.

Pandas DataFrames capacita os usuários com uma ampla gama de funcionalidades. Desde a criação de dados estruturados usando dicionários ou outras estruturas de dados até o emprego de indexação robusta para acesso contínuo aos dados, o Pandas facilita a manipulação de dados sem esforço. A biblioteca fornece uma interface intuitiva para executar operações como filtrar linhas com base em condições, agrupar dados para agregação e realizar análises estatísticas com facilidade.

Podemos importar os DataFrames do armazenamento externo; esses armazenamentos podem ser chamados de SQL Banco de dados, arquivo CSV e um arquivo Excel. Também podemos usar as listas, dicionário e de uma lista de dicionário, etc.

Neste tutorial, aprenderemos como criar o quadro de dados de várias maneiras. Vamos entender essas diferentes maneiras.

Primeiro, precisamos instalar a biblioteca pandas no Pitão ambiente.

Um dataframe vazio

Podemos criar um Dataframe vazio básico. O construtor do dataframe precisa ser chamado para criar o DataFrame. Vamos entender o exemplo a seguir.

Exemplo -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are Calling DataFrame constructor df = pd.DataFrame() print(df) # here, we are printing the dataframe  

Saída:

 Empty DataFrame Columns: [] Index: []  

Método - 2: Crie um dataframe usando List

Podemos criar dataframe usando uma única lista ou lista de listas. Vamos entender o exemplo a seguir.

Exemplo -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are declaring the string values in the list lst = ['Java', 'Python', 'C', 'C++', 'JavaScript', 'Swift', 'Go'] # Here, we are calling DataFrame constructor on list dframe = pd.DataFrame(lst) print(dframe) # here, we are printing the dataframe  

Saída:

 0 Java 1 Python 2 C 3 C++ 4 JavaScript 5 Swift 6 Go  

Explicação:

  • Importar Pandas: importar pandas como pd importa a biblioteca Pandas e a chama de pd para ser breve.
  • Criar lista: lst é um resumo contendo valores de string que abordam dialetos de programação.
  • Desenvolvimento de DataFrame: pd.DataFrame(lst) constrói um DataFrame a partir do resumo lst. Claro, quando um resumo solitário é fornecido, o Pandas cria um DataFrame com uma seção solitária.
  • Imprimindo DataFrame: print(dframe) imprime o DataFrame subsequente.

Método - 3: Criar Dataframe a partir de dict of ndarray/lists

O ditado de ndarray/lists pode ser usado para criar um dataframe, todos os ndarray deve ter o mesmo comprimento. O índice será um intervalo(n) por padrão; onde n denota o comprimento da matriz. Vamos entender o exemplo a seguir.

Exemplo -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the data of lists. data = {'Name': ['Tom', 'Joseph', 'Krish', 'John'], 'Age': [20, 21, 19, 18]} # Here, we are creating the DataFrame df = pd.DataFrame(data) # here, we are printing the dataframe # Here, we are printing the output. print(df) # here, we are printing the dataframe  

Saída:

 Name Age 0 Tom 20 1 Joseph 21 2 Krish 19 3 John 18  

Explicação:

  • Importar Pandas: importar pandas como pd importa a biblioteca Pandas e a chama de pd.
  • Criar Dicionário: informação é uma referência de palavra onde as chaves são nomes de segmentos ('Nome' e 'Idade') e os valores são registros contendo informações relacionadas.
  • Desenvolvimento de DataFrame: pd.DataFrame(data) constrói um DataFrame a partir da palavra referência. As chaves tornam-se nomes de seção e os resumos tornam-se os segmentos.
  • Imprimindo DataFrame: print(df) imprime o DataFrame subsequente.

Método - 4: Crie um Dataframe de índices usando arrays

Vamos entender o exemplo a seguir para criar o dataframe de índices usando arrays.

Exemplo -

 # Here, we are implementing the DataFrame using arrays. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the data of lists. data = {'Name':['Renault', 'Duster', 'Maruti', 'Honda City'], 'Ratings':[9.0, 8.0, 5.0, 3.0]} # Here, we are creating the pandas DataFrame. df = pd.DataFrame(data, index =['position1', 'position2', 'position3', 'position4']) # Here, we are printing the data print(df)  

Saída:

 Name Ratings position1 Renault 9.0 position2 Duster 8.0 position3 Maruti 5.0 position4 Honda City 3.0  

Explicação:

  • Importar Pandas: importar pandas como pd importa a biblioteca Pandas e a chama de pd.
  • Criar Dicionário: informação é uma referência de palavra onde as chaves são nomes de segmentos ('Nome' e 'Avaliações') e os valores são registros contendo informações relacionadas.
  • Desenvolvimento de DataFrame: pd.DataFrame(data, index=['position1', 'position2', 'position3', 'position4']) constrói um DataFrame a partir da palavra referência. A lista predefinida é alocada às linhas.
  • Imprimindo DataFrame: print(df) imprime o DataFrame subsequente.

Método - 5: Criar Dataframe a partir da lista de dictos

Podemos passar as listas de dicionários como dados de entrada para criar o dataframe do Pandas. Os nomes das colunas são considerados chaves por padrão. Vamos entender o exemplo a seguir.

Exemplo -

 # Here, we are implementing an example to create # Pandas DataFrame by using the lists of dicts. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the values to lists. data = [{'A': 10, 'B': 20, 'C':30}, {'x':100, 'y': 200, 'z': 300}] # Here, we are creating the DataFrame. df = pd.DataFrame(data) # Here, we are printing the data of the dataframe print(df)  

Saída:

 A B C x y z 0 10.0 20.0 30.0 NaN NaN NaN 1 NaN NaN NaN 100.0 200.0 300.0  

Vamos entender outro exemplo para criar o dataframe do pandas a partir de uma lista de dicionários com índice de linha e índice de coluna.

Explicação:

  • Importar Pandas: importar pandas como pd importa a biblioteca Pandas e a chama de pd.
  • Criar lista e dicionário: a informação é um resumo onde cada componente é uma referência de palavra que aborda uma coluna no DataFrame. As chaves das referências de palavras tornam-se nomes de segmentos.
  • Desenvolvimento de DataFrame: pd.DataFrame(data) constrói um DataFrame a partir do resumo de referências de palavras. As chaves das referências de palavras tornam-se seções e as qualidades tornam-se as informações no DataFrame.
  • Imprimindo DataFrame: print(df) imprime o DataFrame subsequente.

Exemplo - 2:

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the values to the lists. data = [{'x': 1, 'y': 2}, {'A': 15, 'B': 17, 'C': 19}] # Here, we are declaring the two column indices, values same as the dictionary keys dframe1 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y']) # Here, we are declaring the variable dframe1 with the parameters data and the indexes # Here, we are declaring the two column indices with # one index with other name dframe2 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y1']) # Here, we are declaring the variable dframe2 with the parameters data and the indexes # Here, we are printing the first data frame i.e., dframe1 print (dframe1, '
') # Here, we are printing the first data frame i.e., dframe2 print (dframe2)  

Saída:

 x y first 1.0 2.0 second NaN NaN x y1 first 1.0 NaN second NaN NaN  

Explicação:

A biblioteca pandas é utilizada para criar dois DataFrames inconfundíveis, denominados dframe1 e dframe2, começando com um resumo de referências de palavras denominadas informações. Essas referências de palavras atuam como representações de linhas individuais dentro dos DataFrames, em que as chaves se relacionam aos nomes dos segmentos e as qualidades relacionadas tratam das informações relevantes. O DataFrame subjacente, dframe1, é iniciado com arquivos de linha explícitos ('primeiro' e 'segundo') e registros de seção ('x' e 'y'). Assim, um segundo DataFrame, dframe2, é criado usando uma coleção de informações semelhante, mas com uma disparidade nos arquivos de seção, explicitamente significados como 'x' e 'y1'. O código termina imprimindo ambos os DataFrames no centro de controle, esclarecendo os designs de seção específicos de cada DataFrame. Este código é preenchido como um extenso esboço da criação e controle do DataFrame dentro da biblioteca pandas, oferecendo experiências sobre como variedades em registros de seção podem ser executadas.

Exemplo - 3

 # The example is to create # Pandas DataFrame by passing lists of # Dictionaries and row indices. import pandas as pd # Here, we are importing the pandas library as pd # assign values to lists data = [{'x': 2, 'z':3}, {'x': 10, 'y': 20, 'z': 30}] # Creates padas DataFrame by passing # Lists of dictionaries and row index. dframe = pd.DataFrame(data, index =['first', 'second']) # Print the dataframe print(dframe)  

Saída:

 x y z first 2 NaN 3 second 10 20.0 30  

Explicação:

Neste código Python, um DataFrame Pandas é desenvolvido utilizando a biblioteca pandas, fornecendo arranjos de referências de palavras e determinando registros de colunas. O ciclo começa com a importação da biblioteca pandas, atribuída pelo nome falso 'pd' por questões de brevidade. Assim, é caracterizado um resumo de referências de palavras denominadas informações, onde cada referência de palavra aborda uma linha do DataFrame. As chaves dentro dessas referências de palavras significam os nomes dos segmentos, enquanto os valores relacionados indicam as informações importantes.

O DataFrame, indicado como dframe, é então feito utilizando o construtor pd.DataFrame(), consolidando as informações fornecidas e configurando expressamente os registros de linha como 'primeiro' e 'segundo'. O DataFrame subsequente exibe um design uniforme com seções denominadas 'x', 'y' e 'z'. Quaisquer qualidades ausentes são significadas como 'NaN'.

Método - 6: Criar Dataframe usando a função zip()

A função zip() é usada para mesclar as duas listas. Vamos entender o exemplo a seguir.

Exemplo -

 # The example is to create # pandas dataframe from lists using zip. import pandas as pd # Here, we are importing the pandas library as pd # List1 Name = ['tom', 'krish', 'arun', 'juli'] # List2 Marks = [95, 63, 54, 47] # two lists. # and merge them by using zip(). list_tuples = list(zip(Name, Marks)) # Assign data to tuples. print(list_tuples) # Converting lists of tuples into # pandas Dataframe. dframe = pd.DataFrame(list_tuples, columns=['Name', 'Marks']) # Print data. print(dframe)  

Saída:

 [('john', 95), ('krish', 63), ('arun', 54), ('juli', 47)] Name Marks 0 john 95 1 krish 63 2 arun 54 3 juli 47  

Explicação:

Este código Python mostra a produção de um Pandas DataFrame a partir de dois registros, especificamente 'Name' e 'Stamps', utilizando a biblioteca pandas e o recurso de compactação. Após a importação da biblioteca pandas, são caracterizados os registros 'Nome' e 'Verificações', abordando as seções ideais do DataFrame. O recurso zip é utilizado para unir componentes de comparação desses resumos em tuplas, enquadrando outro resumo chamado list_tuples.

O código então, nesse ponto, imprime o resumo das tuplas para dar uma breve visão das informações unidas. Conseqüentemente, um Pandas DataFrame chamado dframe é criado utilizando o construtor pd.DataFrame(), onde o resumo das tuplas é alterado para uma configuração uniforme e organizada. Os segmentos 'Nome' e 'Carimbos' são atribuídos de forma inequívoca durante este processo de criação do DataFrame.

Método - 7: Criar Dataframe a partir de dictos de série

O dicionário pode ser passado para criar um dataframe. Podemos usar os dictos de série onde o índice subsequente é a união de todas as séries de valores de índice passados. Vamos entender o exemplo a seguir.

Exemplo -

 # Pandas Dataframe from Dicts of series. import pandas as pd # Here, we are importing the pandas library as pd # Initialize data to Dicts of series. d = {'Electronics' : pd.Series([97, 56, 87, 45], index =['John', 'Abhinay', 'Peter', 'Andrew']), 'Civil' : pd.Series([97, 88, 44, 96], index =['John', 'Abhinay', 'Peter', 'Andrew'])} # creates Dataframe. dframe = pd.DataFrame(d) # print the data. print(dframe)  

Saída:

 Electronics Civil John 97 97 Abhinay 56 88 Peter 87 44 Andrew 45 96  

Explicação:

Neste código Python, um DataFrame do Pandas é feito a partir de referências de palavras de séries utilizando a biblioteca pandas. Dois assuntos, 'Gadgets' e 'Common', são abordados como seções, e pontuações individuais com arquivos explícitos são coordenadas em um DataFrame denominado dframe. A estrutura simples subsequente é impressa no centro de controle, mostrando uma técnica compacta para coordenar e investigar dados marcados utilizando Pandas.

Neste tutorial, discutimos as diferentes maneiras de criar DataFrames.