熬夜下载的《雪中悍刀行》TXT,打开一看懵了——“第001章 白马出凉州” 居然连续刷屏5次!百万字小说硬生生被重复章节名注水成200万字,手机卡崩、车机乱序、听书软件读到精神分裂……别慌!小编被坑到摔键盘后,亲测出3招精准去重术,不删正经章节头、专清注水废稿,电脑小白和手机党都能5分钟搞定!
▍痛点暴击:为什么手动删重复行会误杀章节头?
小说里的重复分两种:
恶意注水:比如“第001章”连续出现5次(盗版商凑字数);
关键章节头:比如“第一卷 西北有雏凤”和“第001章 白马出凉州”(必须保留)!
⚠️ 血泪教训:用Word全删“第章”会误杀真目录!用Python去重脚本可能把唯一章节头当重复*删掉……
▍方法1:Word通配符替换法(电脑党必学)
适用场景:重复章节名有固定规律(比如带空格/无空格)
操作步骤:
用Word打开TXT小说 →
Ctrl+H
打开替换框;精准锁定注水行:
复制
查找内容:`(^13)[ ]{1,}第[一二三四五六七八九十百千万零]+章*^13` 替换为:留空❗
勾选 ☑️使用通配符 → 点“全部替换”
💡 小编私藏:
(^13)
表示段落标记(防误删正文);[ ]{1,}
匹配1个以上空格(专删带空格的注水行)!
▍方法2:EditPlus一键去重(小白急救)
适用场景:重复行毫无规律、且文件≤100MB
操作流程:
下载 EditPlus(绿色版就行)→ 打开小说TXT;
点击菜单栏:编辑 → 删除 → 删除重复行;
勾选 ☑️保留首次出现的行(保真章节头)!
⛔ 避坑指南:
超过100MB文件会卡死!大文件切分用按10万行切割再操作;
安卓手机党用 MT管理器,长按TXT → 文本编辑 → 去重(操作类似)!
▍方法3:Python脚本批量洗稿(技术党封神)
适用场景:百本小说库需要批量清理+保留章节顺序
代码实操:
python下载复制运行def clean_novel(input_file, output_file): seen = set() keep_lines = [] with open(input_file, 'r', encoding='utf-8') as f: for line in f: if "第" in line and "章" in line: # 识别章节头 keep_lines.append(line) elif line not in seen: seen.add(line) keep_lines.append(line) with open(output_file, 'w', encoding='utf-8') as f_out: f_out.writelines(keep_lines) # 调用:clean_novel("雪中悍刀行.txt", "清洁版.txt")
✅ 优势:
自动跳过含 “第X章” 的行(防误删);
百万字文件3秒洗完!
▍工具横评:哪种方法最省命?
方法 | 适合人群 | 速度 | 防误删章节头 |
---|---|---|---|
Word通配符 | 办公党 | ⭐⭐ | ✅ 需手动调规则 |
EditPlus去重 | 手机/小白 | ⭐⭐⭐ | ❌ 无差别删除 |
Python脚本 | 技术宅 | ⭐⭐⭐⭐⭐ | ✅ 自动识别 |
小编暴言:
安卓党直接用 MT管理器+按行分割,比电脑还快;
千万别用 360清理重复文件!它会把不同章节的TXT当重复删光……
▍最后的心得:备份比智商更重要
版权底线:微信读书导TXT最安全,盗版小说去重可能吃律师函;
操作前备份!我有次手滑把《诡秘之主》原稿清了,恢复软件都救不回;
章节顺序保命符:去重后文件名加
01_
、02_
前缀,防播放器乱序!工具是冰冷的,但故事是热的——清完废稿那刻,我在地铁听《三体》黑暗战役,终于不用被重复章节名打断沉浸感了😭
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...