Waarom retourneert de Mongo Spark-connector verschillende en onjuiste aantallen voor een query?

Ik heb mijn probleem opgelost. De reden van inconsistente tellingen was de MongoDefaultPartitioner die MongoSamplePartitioner . omhult waarbij gebruik wordt gemaakt van willekeurige steekproeven. Om eerlijk te zijn is dit nogal een rare standaard voor mij. Persoonlijk zou ik liever een langzame maar consistente partitioner hebben. De details voor partitioneringsopties zijn te vinden in de officiële configuratieopties documentatie.

code:

val df = spark.read
  .format("com.mongodb.spark.sql.DefaultSource")
  .option("uri", "mongodb://127.0.0.1/enron_mail.messages")
  .option("partitioner", "spark.mongodb.input.partitionerOptions.MongoPaginateBySizePartitioner ")
  .load()