Spark JDBC API lijkt te vorken om alle gegevens van de MySQL-tabel naar het geheugen te laden zonder. Dus wanneer u een grote tabel probeert te laden, moet u eerst Spark API-kloongegevens naar HDFS gebruiken (JSON moet worden gebruikt om de schemastructuur te behouden), zoals deze:
spark.read.jdbc(jdbcUrl, tableName, prop)
.write()
.json("/fileName.json");
Dan kunt u in plaats daarvan normaal aan HDFS werken.
spark.read().json("/fileName.json")
.createOrReplaceTempView(tableName);