Python自动删重复章节教程：大文件兼容+防乱序指南

有没有试过下载的小说打开一看，连续三章都是“主角怒吼一声拔出宝剑”？手动删到手抽筋，用工具又怕顺序乱套或者内存爆炸… 小编当年被《斗罗大陆》重复章节逼疯后，终于搞定了保顺序+吞GB级文件的终极方案！

一、普通工具为啥会毁小说？

集合（set）去重：顺序全乱套
直接set(lines)删重复倒是快，但段落顺序全打乱——前一秒主角在打架，下一秒突然倒叙到童年回忆，读得人精神分裂。
大文件直接卡死机
普通readlines()一次性读1GB小说？内存直接飙到90%崩给你看！尤其《三体》这种超长文本，去重工具跑一半就闪退。

二、三阶代码：从入门到超大文件

▶ 基础版：字典锁顺序（50MB内适用）

python下载复制运行from collections import OrderedDict

def remove_duplicates(input_file, output_file):
    with open(input_file, 'r', encoding='utf-8') as f_in:
        # 用字典键唯一性去重，天然保插入顺序
        unique_lines = OrderedDict.fromkeys(f_in.readlines())
    
    with open(output_file, 'w', encoding='utf-8') as f_out:
        f_out.writelines(unique_lines.keys())

# 调用示例
remove_duplicates('novel.txt', 'cleaned.txt')
效果：删光重复行，章节顺序和原文100%一致，连空行缩进都不动。
▶ 进阶版：流式处理（500MB文件救星）
python下载复制运行def stream_dedupe(input_file, output_file):
    seen = set()
    with open(output_file, 'w', encoding='utf-8') as f_out:
        with open(input_file, 'r', encoding='utf-8') as f_in:
            for line in f_in:
                if line not in seen:  
                    seen.add(line)
                    f_out.write(line)  # 非重复行立刻写入硬盘
优势：内存只存已出现文本的哈希值，500MB文件内存占用不到80MB。
▶ 终极大招：分块屠龙术（1GB+通用）
python下载复制运行CHUNK_SIZE = 50000  # 5万行为一块

def chunked_dedupe(input_file, output_file):
    seen = set()
    with open(output_file, 'w', encoding='utf-8') as f_out:
        with open(input_file, 'r', encoding='utf-8') as f_in:
            chunk = []
            for i, line in enumerate(f_in):
                chunk.append(line)
                if (i + 1) % CHUNK_SIZE == 0:  # 攒够5万行处理一次
                    for text in chunk:
                        if text not in seen:
                            seen.add(text)
                            f_out.write(text)
                    chunk = []  # 清空当前块
原理：把大文件切成豆腐块分批处理，内存永不溢出，顺序还和原文严丝合缝。
方法 去重速度 文件上限 内存占用
字典锁顺序 较慢 ≤50MB 高
流式处理 中等 ≤500MB 极低
分块屠龙术 快 无上限 可控
三、避坑！小说党血泪经验
先备份！先备份！
小编曾用某工具去重，结果把“唐三”全替换成“主角”，原文件没备份直接裂开。
空行缩进别乱动
千万别用line.strip()——会把段落分隔符删光，文字挤成压缩饼干！用if line.isspace()单独判断空行。
伪重复可能是伏笔
《诡秘之主》里“愚者先生”重复200+次其实是尊称！建议去重前先用collections.Counter统计高频词，人工确认再删。
编码埋雷要排查
遇到GBK编码的旧小说，直接utf-8读取会报错。加个异常捕获更安全：
python下载复制运行try:
    with open(file, 'r', encoding='utf-8') as f: ...
except UnicodeDecodeError:
    with open(file, 'r', encoding='gbk') as f: ...  # 兼容中文老文件
小编暴论：代码是刀，人得握刀柄
工具再牛也分不清“作者故意重复”和“手误重复”——《三体》里“不要回答！”删一次剧情直接崩盘！
私藏操作流：
1️⃣ 超大型文件先用 分块屠龙术 粗处理；
2️⃣ 关键小说用 流式处理 扫一遍防误删；
3️⃣ 最后用 VSCode对比工具 检查原文件vs去重后，全局搜“突然”“莫非”确认是否伏笔。
省下的时间够重温三遍《活着》了——好故事值得一字不差啃完。（原理？害，谁管哈希算法咋跑的，结果对得上原文就行！）