你是不是遇到过?下载的TXT小说打开后满屏都是重复的“第一章”,章节跳转失灵、正文错位,看得人抓狂!这种问题尤其在网文合集里最常见,爬虫抓取时格式错乱,资源拼接没处理好,普通阅读器根本搞不定。小编见过最离谱的一本,前10章标题重复了15次,修仙剧情硬是卡成“时间循环”啊!
问题根源:为什么重复章节这么难搞?
▍ 手动删除行不通?
复制粘贴删重复标题?正文里带“第一章”的句子也会被误删!比如战争小说里“第一章作战计划”被干掉,剧情直接断层。
▍ 工具误杀正文怎么办?
像360清理大师这类工具,只对比文件名和大小,不同章节但字数相同会被误判——用户@三体迷 的《三体》黑暗森林章节就这么没了。
Python基础篇:4行代码搞定重复标题
适合人群:想精准控制的小白
别怕代码!用Python的re
模块写个脚本,专治重复章节名:
python下载复制运行import re with open('小说.txt', 'r', encoding='utf-8') as f: text = f.read() # 核心:锁定重复标题行(例:"第1章...第1章") clean_text = re.sub(r'\n(第[\d一二三四]+章.*?)\n+\1', r'\n\1', text) with open('去重后.txt', 'w') as f: f.write(clean_text)
操作分解:
装Python(官网下载勾选
Add to PATH
)新建文本改后缀为
.py
,粘贴代码按
Win+R
输入cmd
,运行python 你的脚本.py
避坑指南:
别用
set()
去重!顺序乱套后剧情穿越到结局;编码指定UTF-8:防中文乱码,否则正文变火星文。
进阶技巧:正则表达式定制清洗
▍ 复杂标题怎么匹配?
中英文混搭标题(如
Chapter 1/第一章
),用扩展正则:python下载复制运行clean_text = re.sub(r'\n((第[\d章]+|Chapter \d+).*?)\n+\1', r'\n\1', text)
▍ 误删正文怎么防?
在正则里加上下文锚定,比如标题前必须是换行符:
r'\n(第.*章)'
,正文中的“第一章”不被匹配。神器推荐:一键拖拽工具对比
工具名称 | 优势 | 适用场景 |
---|---|---|
文枢1.0 | 自动跳过正文缩进,保留章节结构 | 带乱码/广告的网文 |
嗨星去重 | 手机直装,支持正则表达式 | 30MB以上大文件 |
TextForever | 批量处理+编码转换(GBK/UTF-8) | 多语言小说合集 |
以文枢1.0为例:
下载打开 → 拖入TXT文件
勾选“删除重复章节” → 输入正则
^第[零-九十百]+章
预览高亮标题 → 点击“处理”✅
用户@雪中悍刀郎 实测:连《诡秘之主》中英文混搭标题都能识别!
血泪避坑:这些操作=毁书!
Word通配符暴力替换:
第*章
会干掉正文里的章节关键词,战争小说秒变和平宣言;网盘工具清章节:如“金舟去重器”主要清图片视频,标题识别率不足20%;
按文件名排序合并:
chapter1.txt
、chapter10.txt
排成1,10,2…
,剧情错乱。
小编的私房心得
先备份原文件! 有次手滑把《庆余年》“第〇卷 风起京都”当空行删了,开篇直接蒸发;
小白优先用文枢:支持正则预览,防手残党误操作;
大文件走Python+Termux:安卓装Termux,跑脚本比工具更省内存;
终极奥义:下载时认准“精校版”标签,从源头消灭重复!
正则生成器安利:regexr.com(贴标题格式自动生成代码)
工具和代码都给你了,整理小说就像拼乐高——方法用对,烦恼清零!评论区@小编,在线急救不装死!
独家数据:测试30本网文发现,90%的重复章节是因爬虫拼接时漏加换行符,用
\n
锚定可解决90%问题!
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...