sql >> Database >  >> RDS >> Mysql

Spark JoinWithCassandraTable op TimeStamp-partitiesleutel STUCK

Door gebruik te maken van:

sc.parallelize(startDate to endDate)

Met de startData en endDate als Longs gegenereerd op basis van datums met de indeling:

("yyyy-MM-dd HH:mm:ss")

Ik maakte Spark om een ​​enorme array (100.000+ objecten) te bouwen om mee te doen met C* table en het bleef helemaal niet hangen. C* werkte hard om de join te laten plaatsvinden en de gegevens terug te sturen.

Ten slotte heb ik mijn bereik gewijzigd in:

case class TableKey(created_dh: String)
val data = Array("2015-10-29 12:00:00", "2015-10-29 13:00:00", "2015-10-29 14:00:00", "2015-10-29 15:00:00")
val snapshotsFiltered = sc.parallelize(data, 2).map(TableKey(_)).joinWithCassandraTable("listener","snapshots_tnew")

En nu is het goed.




  1. Overlappende controlebeperking voor datumbereik

  2. Beheerscripts in R12.2 Ebusiness Suite

  3. MySQL Full-Text zoeken naar hashtags (inclusief het #-symbool in de index)

  4. Inzicht in SQL Server LOCKS op SELECT-query's