Sorry jose om te horen dat je een probleem hebt met de connector.
Informatie over partitionering vindt u op de Spark-connectordocumentatiesite . Dien een ticket in in het Docs jira-project als je denkt dat er iets ontbreekt of onduidelijk is, kan het toekomstige gebruikers echt helpen!
De standaardpartitioner is een dunne wikkel rond de MongoSamplePartitioner
. Het splitst een verzameling op in partities van grootte op basis van statistische steekproeven van de verzameling.
De MongoShardedPartitioner
gebruikt de shardKey
om de partities te genereren. Standaard gebruikt het _id
als de sleutel. Mogelijk moet u die waarde configureren.
Opmerking: Gehashte shardkeys zijn niet ondersteund door de MongoShardedPartitioner
aangezien er momenteel geen manier is om een verzameling te ondervragen tegen de gehashte waarde - dus bij het ophalen van partities zal het geen resultaten opleveren. Ik heb DOCS-12345
toegevoegd om de documentatie bij te werken.
Het lijkt erop dat er een probleem is met uw installatie waarbij de MongoShardedPartitioner
kan de verzameling niet partitioneren zoals verwacht en retourneert 0 resultaten. Schema-inferentie werkt nog steeds vanwege de manier waarop de verzameling wordt doorzocht. Als het geen probleem is met de configuratie / gehashte shardkey, dien dan een bug in in het Spark jira-project en ik kan u helpen de oorzaak te achterhalen en een oplossing voor u vrijgeven.