2017年7月

打算将百度云中的照片下载下来整理下,结果发现备份很多重复重复照片
作为一个程序员,删除重复照片这种大量重复的体力劳动当然是不可能自己去做的
因此便有了下面这个脚本
根据照片的 大小MD5 进行双重比较,降低误删几率

import os
import hashlib
import time
def main():
    start = time.time()
    file_del,file_num,md5_all,size_all = 0,0,[],[]
    path = input('path:')
    if os.path.isdir(path):
        for root,dirs,files in os.walk(path):
            for name in files:
                file = os.path.join(root,name)
                file_num += 1
                size = os.path.getsize(file)
                if size in size_all:
                    with open(file,'rb') as f:
                        md5 = hashlib.md5(f.read()).hexdigest()
                        if md5 in md5_all:
                            os.remove(file)
                            file_del += 1
                        else:
                            md5_all.append(md5)
                else:
                    size_all.append(size)
    else:
        print('路径错误!')
    end = time.time()
    print('共扫描'+str(file_num)+'个文件')
    print('共删除'+str(file_del)+'个文件')
    print('共耗时'+str(end-start)+'秒')
if __name__ == '__main__':
main()

离别不代表永久的分隔,离别只是一种追求的起点。
在夕阳落下的地方,我们挥手说再会;在朝阳升起的地平线,我们会再次惊喜相聚!
再见,我的坑货同学们。
毕业照.jpg