1. 痛点 100 字
硬盘里散落着 IMG_2024(1).jpg、IMG_2024(1) (1).jpg、下载目录里同名但大小不同的视频…… 手动比对既耗时又容易误删。今天用 30 行 Python 脚本,基于「内容哈希」一键找出并删除重复文件,支持多目录递归、白名单、空目录清理。
2. 脚本 30 行
#!/usr/bin/env python3
# dedup.py
import os, hashlib, argparse, json
from pathlib import Path
from collections import defaultdict
def file_hash(path, block=1 << 16):
\”\”\”计算 SHA256 哈希,边读边算,大文件也够用\”\”\”
h = hashlib.sha256()
with open(path, \’rb\’) as f:
for chunk in iter(lambda: f.read(block), b\’\’):
h.update(chunk)
return h.hexdigest()
评论前必须登录!
注册