Knowledge Base

Friday, November 22, 2024

Processing nested json dynamically in PySpark (databricks)

Below youtube video provides excellent way to process complex json dynamically in PySpark (databricks)

Corresponding code is in github

https://github.com/raveendratal/ravi_azureadbadf/blob/main/azure_realtime_scenarios/dynamic_json_process.ipynb

Saturday, November 19, 2022

How to remove Duplicates in DataFrame using PySpark

Below ways can be used to remove duplicates from a dataframe in PySpark:

distinct

df.distinct()
df.distinct(["Column1","Column2"])

dropDuplicates

df.dropDuplicates()
df.dropDuplicates(["Column1","Column2"])

Friday, November 18, 2022

How to Sort a Dataframe in PySpark

Below are different ways to sort a dataframe:

sort

df.sort(df.ColumnName)
df.sort(df.ColumnName.desc())
df.sort(df.ColumnName.desc(), df.ColumnName2)
df.sort(col("ColumnName"))

orderBy

df.orderBy(df.ColumnName)
df.orderBy(df.ColumnName.desc())
df.orderBy(df.ColumnName1.desc(), df.ColumnName2)
df.orderBy(col("ColumnName"))

How to filter a DataFrame using PySpark

Multiple ways to filter dataframe data:

filter

df.filter(df.ColumnName ==VALUE)
df.filter(col("ColumnName") == VALUE)
df.filter((col("ColumnName1") == VALUE) | (col("ColumnName2") == VALUE))
df.filter((col("ColumnName1") == VALUE) & (col("ColumnName2") == VALUE))
df.filter(col("ColumnName") != VALUE)

How to ADD New Columns in DataFrame using PySpark

Below are different ways to add new columns to dataframe in PySpark:

withColumn and lit

df.withColumn("NewColumnName", lit("default value for new column"))

withColumn and col (Derived column)

df.withColumn("NewColumnName", col("Column1") * col("Column2"))

select

df.select(lit("default column value").alias("NewColumnName"), col("Column1"), col("Column2"))

Subscribe to: Posts (Atom)