sql >> Database >  >> RDS >> PostgreSQL

Kan geen verbinding maken met postgres met jdbc in pyspark-shell

Misschien is het nuttig.

In mijn omgeving bevat SPARK_CLASSPATH pad naar postgresql-connector

from pyspark import SparkContext, SparkConf
from pyspark.sql import DataFrameReader, SQLContext
import os

sparkClassPath = os.getenv('SPARK_CLASSPATH', '/path/to/connector/postgresql-42.1.4.jar')

# Populate configuration
conf = SparkConf()
conf.setAppName('application')
conf.set('spark.jars', 'file:%s' % sparkClassPath)
conf.set('spark.executor.extraClassPath', sparkClassPath)
conf.set('spark.driver.extraClassPath', sparkClassPath)
# Uncomment line below and modify ip address if you need to use cluster on different IP address
#conf.set('spark.master', 'spark://127.0.0.1:7077')

sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)

url = 'postgresql://127.0.0.1:5432/postgresql'
properties = {'user':'username', 'password':'password'}

df = DataFrameReader(sqlContext).jdbc(url='jdbc:%s' % url, table='tablename', properties=properties)

df.printSchema()
df.show()

Met dit stukje code kun je pyspark gebruiken waar je maar wilt. Ik heb het bijvoorbeeld gebruikt in het Django-project.



  1. Een Oracle-database migreren van AWS EC2 naar AWS RDS

  2. Aantal(*) versus Aantal(1) - SQL Server

  3. Rijprestaties voor PostgreSQL met HAProxy

  4. Hoe synchroniseer ik met de lokale database en ontleden?