Jak czytać i zapisywać pliki w formacie Parquet w Python

Czym jest format parquet?

Parquet to kolumnowy typ danych stosowany m.in w rozwiązaniach Big Data. Możemy się z nim spotkać m.in w takich rozwiązaniach jak Hadoop, AWS Athena. Pliki parquet mogą być bez problemu przetwarzane za pomocą pakietu pandas w Python. Typ kolumnowy różni się od typu wierszowego stosowanego m.in. w bazach relacyjnych. Jego główne zalety, to:

  • Wysoka wydajność i kompresja
  • Ograniczenie operacji I/O
  • Ograniczenie przetwarzania danych tylko dla kolumn wymaganych w zapytaniu.

W porównaniu do baz relacyjnych, dane zorganizowane są kolumnowo, a nie rekordowo

Poniżej krótki opis tego, w jaki sposób zapisywać i odczytywać dane w formacie parquet z użyciem Python. W artykule zawarte są także przykłady. użycia.

Odczyt plików parquet w Python z użyciem Pandas

W pakiecie Pandas możemy skorzystać z dwóch metod do obsługi formatu parquet – pyarrow i fastparquet.

import pandas
df=pd.read_parquet('FILE_NAME.parquet', engine='pyarrow')
print(df)

lub

import pandas
df=pd.read_parquet('FILE_NAME.parquet', engine='fastparquet')
print(df)

 

 

 

 

 

 

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *