並列キューイング - マルチプロセッシングプール、Python

私の目標は、ディレクトリを繰り返し処理し、その中のすべてのファイルのMD5を計算することです。私は同様の問題を解決するコードを使用しました

パラレルファイルマッチング、Python

import os
import re
import sys
import time
import md5

from stat import S_ISREG

import multiprocessing

global queue
size_limit = 500000

target = sys.argv[1]



############Analysis and Multiprocessing####################
############Analysis and Multiprocessing####################
############Analysis and Multiprocessing####################
############Analysis and Multiprocessing####################
############Analysis and Multiprocessing####################
############Analysis and Multiprocessing####################
############Analysis and Multiprocessing####################
############Analysis and Multiprocessing####################
############Analysis and Multiprocessing####################
############Analysis and Multiprocessing####################

def walk_files(topdir):
     """yield up full pathname for each file in tree under topdir"""
     for dirpath, dirnames, filenames in os.walk(topdir):
         for fname in filenames:
             pathname = os.path.join(dirpath, fname)
             yield pathname

 def files_to_search(topdir):
     """yield up full pathname for only files we want to search"""
     for fname in walk_files(topdir):
         try:
             # if it is a regular file and big enough, we want to search it
             sr = os.stat(fname)
             if S_ISREG(sr.st_mode) and sr.st_size <= size_limit:
                 yield fname
         except OSError:
             pass

def worker_search_fn(fname):
     fp = open(fname, 'rt')
     # read one line at a time from file
     contents = fp.read()
     hash = md5.md5(contents)
     global queue
     print "enqueue"
     queue.put(fname+'-'+hash.hexdigest())

################MAIN MAIN MAIN#######################
################MAIN MAIN MAIN#######################
################MAIN MAIN MAIN#######################
################MAIN MAIN MAIN#######################
################MAIN MAIN MAIN#######################

#kick of processes to md5 the files and wait till completeion

queue = multiprocessing.Queue()
pool = multiprocessing.Pool()
pool.map(worker_search_fn, files_to_search(target))
pool.close()
pool.join()

#Should be done, now lets send do our analysis
while not queue.empty():
    print queue.get()

私はデバッグの目的として "print enqueue"ステートメントを追加しました。大きなディレクトリツリーを再帰的に呼び出すときにコードが実際にロックされることに気付きました。私は、2つのプロセスが同時にキューにアクセスしようとしているかどうかわからないため、デッドロックが発生します。

おそらくこれを行うためのより良い方法がありますか?構造体はキューである必要はありませんが、マルチプロセッシングを最大限に活用するためにロックフリーでなければなりません。私は再帰とmd5に並行してディレクトリを作りたいと思っています。そして、それが完了すると、リスト全体で何かをします。デバッグのために、完成したキューを印刷しています。助言がありますか?

0
あなたがすでに持っているコードの何が間違っていますか、何とか失敗しますか?
追加された 著者 Pengman,

2 答え

プログラムがI/OまたはCPU境界であるかどうかは不明である。すなわち、ディスク・シークの数を最小限に抑えて、タスクがI/Oにバインドされている場合、1つのプロセスが複数のプロセスよりも優れた性能を発揮できる。異なる nprocesses 値(下記)を指定することでこれを確認し、あなたのケースでより良い結果が得られるかどうかを確認できます。

この場合、キューは必要ありません。

#!/usr/bin/env python
import os
import sys

from hashlib         import md5
from multiprocessing import Pool, freeze_support
from stat            import S_ISREG

def walk_files(topdir):
     """yield up full pathname for each file in tree under topdir"""
     for dirpath, dirnames, filenames in os.walk(topdir):
         for fname in filenames:
             pathname = os.path.join(dirpath, fname)
             yield pathname

def files_to_process(topdir, size_limit):
    """yield up full pathname for only files we want to process"""
    for fname in walk_files(topdir):
        try: sr = os.stat(fname)
        except OSError: pass
        else:
            # if it is a regular file and small enough, we want to process it
            if S_ISREG(sr.st_mode) and sr.st_size <= size_limit:
                yield fname

def md5sum(fname):
    with open(fname, 'rb') as fp:
        # read all file at once
        contents = fp.read()
        hash = md5(contents)
        return fname, hash.hexdigest()

def main(argv=None):
    if argv is None:
        argv = sys.argv
    topdir = argv[1]
    size_limit = 500000
    nprocesses = 1

    pool = Pool(processes=nprocesses)
    files = files_to_process(topdir, size_limit)
    for fname, hexdigest in pool.imap_unordered(md5sum, files):
        print("%s\t%s" % (fname, hexdigest))

if __name__=="__main__":
    freeze_support()
    main()

$ python md5sum.py .
./md5sum.py 9db44d3117673790f1061d4b8f00e8ce
3
追加された

大きなディレクトリは walk_files()を実行するのに長い時間を必要とするため、デッドロックではありません

そして...

remove pool.join()

multiprocessing.Pool().map() blocks till the result is ready, so you don't need pool.join()

1
追加された