sql >> Database >  >> NoSQL >> MongoDB

Uitzondering tijdens het verbinden met mongodb in spark

Ik denk dat ik het probleem heb gevonden:mongodb-hadoop heeft een "statische" modifier op zijn BSON-encoder/decoder-instanties in core/src/main/java/com/mongodb/hadoop/input/MongoInputSplit.java. Wanneer Spark in multithreaded-modus draait, proberen alle threads te deserialiseren met behulp van dezelfde encoder/decoder-instanties, die waarschijnlijk slechte resultaten opleveren.

Patch op mijn github hier (hebben upstream een ​​pull-verzoek ingediend)

Ik kan nu een 8 core multithreaded Spark->mongo collection count() uitvoeren vanuit Python!



  1. mongodb maakt 80+ bestanden van elk 2 GB terwijl de database leeg is

  2. Correcte manier om een ​​verzameling te sharden en hoe de resultaten te interpreteren

  3. Ondersteuning voor meerdere gebruikerstypen door Passport-local mongoose node.js

  4. hoe toegang te krijgen tot socketsessie in alle clusters