SparkSQL PostgresQL Dataframe-partities

In wezen worden de onder- en bovengrens en het aantal partities gebruikt om de toename of splitsing voor elke parallelle taak te berekenen.

Laten we zeggen dat de tabel een partitiekolom "jaar" heeft en gegevens heeft van 2006 tot 2016.

Als u het aantal partities op 10 definieert, met een ondergrens van 2006 en een bovengrens van 2016, krijgt elke taak gegevens voor zijn eigen jaar - het ideale geval.

Ook als u de onder- en/of bovengrens verkeerd specificeert, b.v. stel lager =0 en hoger =2016 in, er zal een scheeftrekking zijn in de gegevensoverdracht, maar u zult geen gegevens "verliezen" of niet kunnen ophalen, omdat:

De eerste taak zal gegevens ophalen voor jaar <0.

De tweede taak zal gegevens ophalen voor het jaar tussen 0 en 2016/10.

De derde taak zal gegevens ophalen voor het jaar tussen 2016/10 en 2*2016/10.

...

En de laatste taak heeft een waar-voorwaarde met jaar->2016.