Hoe een enorme panda's-dataframe in een MySQL-tabel invoegen met een parallelle invoegverklaring?

Je kunt een paar dingen doen om dat te bereiken.

Een manier is om een extra argument te gebruiken tijdens het schrijven naar sql.

df.to_sql(method = 'multi')

Volgens deze documentatie , door 'multi' door te geven aan het methodeargument kunt u bulksgewijs invoegen.

Een andere oplossing is om een aangepaste invoegfunctie te construeren met behulp van multiprocessing.dummy.Hier is de link naar de documentatie:https://docs.python.org/2/library/multiprocessing.html#module-multiprocessing.dummy

import math
from multiprocessing.dummy import Pool as ThreadPool

...

def insert_df(df, *args, **kwargs):
    nworkers = 4 # number of workers that executes insert in parallel fashion

    chunk = math.floor(df.shape[0] / nworkers) # number of chunks
    chunks = [(chunk * i, (chunk * i) + chunk) for i in range(nworkers)]
    chunks.append((chunk * nworkers, df.shape[0]))
    pool = ThreadPool(nworkers)

    def worker(chunk):
        i, j = chunk
        df.iloc[i:j, :].to_sql(*args, **kwargs)

    pool.map(worker, chunks)
    pool.close()
    pool.join()

....

insert_df(df, "foo_bar", engine, if_exists='append')

De tweede methode werd voorgesteld op https://stackoverflow.com/a/42164138/5614132 .