Als u de werkelijke gegevensbron, d.w.z. tabellen in postgres, wilt wijzigen (records verwijderen), dan zou Spark geen geweldige manier zijn. U kunt de jdbc-client rechtstreeks gebruiken om hetzelfde te bereiken.
Als u dit toch wilt doen (op gedistribueerde manier op basis van enkele aanwijzingen dat u rekent als onderdeel van dataframes); u kunt dezelfde jdbc-clientcode laten schrijven in correspondentie met dataframe die logische/trigger-info heeft voor het verwijderen van records en die we parallel op meerdere werknemers kunnen uitvoeren.