Spark Mongo-connector, MongoShardedPartitioner werkt niet

Sorry jose om te horen dat je een probleem hebt met de connector.

Informatie over partitionering vindt u op de Spark-connectordocumentatiesite . Dien een ticket in in het Docs jira-project als je denkt dat er iets ontbreekt of onduidelijk is, kan het toekomstige gebruikers echt helpen!

De standaardpartitioner is een dunne wikkel rond de MongoSamplePartitioner . Het splitst een verzameling op in partities van grootte op basis van statistische steekproeven van de verzameling.

De MongoShardedPartitioner gebruikt de shardKey om de partities te genereren. Standaard gebruikt het _id als de sleutel. Mogelijk moet u die waarde configureren.

Opmerking: Gehashte shardkeys zijn niet ondersteund door de MongoShardedPartitioner aangezien er momenteel geen manier is om een verzameling te ondervragen tegen de gehashte waarde - dus bij het ophalen van partities zal het geen resultaten opleveren. Ik heb DOCS-12345 toegevoegd om de documentatie bij te werken.

Het lijkt erop dat er een probleem is met uw installatie waarbij de MongoShardedPartitioner kan de verzameling niet partitioneren zoals verwacht en retourneert 0 resultaten. Schema-inferentie werkt nog steeds vanwege de manier waarop de verzameling wordt doorzocht. Als het geen probleem is met de configuratie / gehashte shardkey, dien dan een bug in in het Spark jira-project en ik kan u helpen de oorzaak te achterhalen en een oplossing voor u vrijgeven.