Czym jest format parquet?
Parquet to kolumnowy typ danych stosowany m.in w rozwiązaniach Big Data. Możemy się z nim spotkać m.in w takich rozwiązaniach jak Hadoop, AWS Athena. Pliki parquet mogą być bez problemu przetwarzane za pomocą pakietu pandas w Python. Typ kolumnowy różni się od typu wierszowego stosowanego m.in. w bazach relacyjnych. Jego główne zalety, to:
- Wysoka wydajność i kompresja
- Ograniczenie operacji I/O
- Ograniczenie przetwarzania danych tylko dla kolumn wymaganych w zapytaniu.
W porównaniu do baz relacyjnych, dane zorganizowane są kolumnowo, a nie rekordowo
Poniżej krótki opis tego, w jaki sposób zapisywać i odczytywać dane w formacie parquet z użyciem Python. W artykule zawarte są także przykłady. użycia.
Odczyt plików parquet w Python z użyciem Pandas
W pakiecie Pandas możemy skorzystać z dwóch metod do obsługi formatu parquet – pyarrow i fastparquet.
import pandas
df=pd.read_parquet('FILE_NAME.parquet', engine='pyarrow')
print(df)
lub
import pandas
df=pd.read_parquet('FILE_NAME.parquet', engine='fastparquet')
print(df)