Laad vonkgegevens in Mongo / Memcached voor gebruik door een webservice

U kunt op deze manier niet rechtstreeks een RDD opvragen. Zie je Spark-taak als een streamprocessor. Wat u kunt doen, is het bijgewerkte model naar een "winkel" sturen, zoals een database (met een aangepaste API of JDBC), een bestandssysteem of memcached. U kunt zelfs een webservice-oproep doen vanuit de Spark-code.

Wat u ook doet, zorg ervoor dat de tijd voor het verwerken van elke batch gegevens, inclusief I/O, ruim onder de intervaltijd ligt die u opgeeft. Anders riskeer je knelpunten die uiteindelijk kunnen crashen.

Een ander ding om op te letten, is het geval waarin u uw modelgegevens in meer dan één RDD-partitie hebt verspreid over het cluster (wat natuurlijk de standaard is). Als de volgorde van uw "records" er niet toe doet, is het prima om ze parallel uit te schrijven. Als u een specifieke totale bestelling achtereenvolgens wilt uitschrijven (en de gegevens zijn echt niet groot), bel dan collect om ze in één in-memory datastructuur binnen uw chauffeurscode te brengen (wat netwerkverkeer in een gedistribueerde taak betekent), en vervolgens vanaf daar te schrijven.