sql >> Database >  >> NoSQL >> MongoDB

Spark voert geen taken uit

Als iemand dit net als ik tegenkwam en aan een cluster werkt, maar met de noodzaak om enkele lokale scripts op een doelknooppunt uit te voeren .

OPLOSSING

De gemakkelijkste onfeilbare oplossing zou zijn om PYSPARK_PYTHON env aan het begin van het script in te stellen, omdat in mijn geval pyspark-shell het niet kon oppikken, zelfs niet als het correct was geconfigureerd in $SPARK_HOME/conf/spark-env.sh of zelfs in spark-defaults.conf en ~/.bashrc (beide minder wenselijk dan de eerste optie).

import os
os.environ['PYSPARK_PYTHON'] = '/path/to/python3' # Worker executable
os.environ['PYSPARK_DRIVER_PYTHON'] = '/path/to/python3' # Driver executable

WAARSCHIJNLIJKE OORZAAK

Ik weet het niet helemaal zeker, maar mijn gok is dat pyspark is geïnstalleerd vanuit pip in je venv is anders dan degene die daadwerkelijk door Spark zelf is geladen en het vindt niet de juiste env-variabele, en neemt zijn toevlucht tot de standaard uitvoerbare python 2.7-bestanden ondanks het configureren ervan overal.



  1. Voorwaardelijke projectie in mongodb met behulp van c# driver

  2. Hoe de vervaldatum in te stellen op meerdere sleutels in Redis

  3. MongoDB - Datum opslaan zonder tijdzone

  4. Weet u in mongodb de index van het array-element dat overeenkomt met de $in-operator?