sql >> Database >  >> NoSQL >> MongoDB

hoe een dataframe in mongodb op te slaan met pyspark?

Een efficiënte manier om vanuit pyspark naar mongodb te schrijven, is door MongoDB te gebruiken Vonkconnector . Connector converteert de gegevens naar BSON-indeling en slaat deze op in mongodb. Laten we zeggen dat u een Spark-dataframe met de naam df hebt dat u in mongodb wilt opslaan. Je kunt proberen:

from pyspark.sql import SparkSession, SQLContext
from pyspark import SparkConf, SparkContext
sc = SparkContext()
spark = SparkSession(sc)   


df.write.format("com.mongodb.spark.sql.DefaultSource").mode("append").option("spark.mongodb.output.uri","mongodb://username:[email protected]_details:27017/db_name.collection_name?authSource=admin").save()

Als je een notebook gebruikt, schrijf dit dan bovenaan-

%%configure
{"conf": {"spark.jars.packages": "org.mongodb.spark:mongo-spark-connector_2.11:2.3.2"}}

Als u het spark-submit-commando gebruikt:

spark-submit --conf spark.pyspark.python=/usr/bin/anaconda/envs/py35/bin/python3.5 --packages org.mongodb.spark:mongo-spark-connector_2.11:2.3.1 file_name.py


  1. Vind laatste document van de dag van de afgelopen 7 dagen

  2. Authenticatie met Spring Security en MongoDB

  3. SailsJS &MongoDB Aggregation framework-problemen met aangepaste query's

  4. Hoe serialiseer ik chrono::DateTime-velden als ISODate bij gebruik van het Rust Mongo-stuurprogrammaprototype?