《我是装重女，怎么你们都是真重女？》作者：何e味[1-220章][未完结][去乱码版]

发表于 2026-5-31 13:41:16

lxy960717 发表于 2026-5-30 22:55
突然在微信文件里找出来了大佬看看有没有办法

分享文件：删除错乱字符（半程品）
1kFhjWynxrrqXCHtVpridvQ?pwd=3bri

发表于 2026-5-31 23:00:51

源于231 发表于 2026-5-31 13:30
我这边算是进行了定位和删减，但结果不甚理想
定位还算成功，遗漏概率大概是百分之一，但通过代码全面删 ...

大佬能教我一下怎么改“顺便搞了点删除段落前或段落后经常出现的特殊字（这些用word文档左手倒右手其实就能删除）”和“定位”吗？麻烦大佬了

发表于 2026-6-1 12:24:01

lxy960717 发表于 2026-5-31 23:00
大佬能教我一下怎么改“顺便搞了点删除段落前或段落后经常出现的特殊字（这些用word文档左手倒右手其实就 ...

定位的话就和我之前说的那个“白名单”原理一致，把汉字和常用标点拉个白名单，检索后就能定位到那些地方有乱码（我设置的是连续三个非白名单符号，其实还是容易缺漏，因为这些乱码中途会掺杂生僻汉字规避了检索，像更准确得把这些容易出现的生僻字额外拉一个“黑名单”）
像这种“段落前或段落后经常出现的特殊字”则是word文档左手倒右手就行（本质上是考验数学逻辑处理能力）。将文本导入word文档后使用自带的替换能力（Ctrl+G打开替换界面），段落的特殊字符是，映照的便是处理段落前特殊字就是^?"（格式就是段落+任意字符+前引号，^?是任意字符），替换为"（这样任意字符就没了）
段落后经常出现的特殊字同理，只是也有可能会是句号感叹号问号，格式就是。^?替换为。（这样有时候会误伤后引号或后括号，介意的话就得用代码解决了）
# 规则1：段落结尾标点(。？！) + 单个垃圾字符 + 换行 → 删除垃圾字符
text = re.sub(r'([。？！])[^\n“”]\n', r'\1\n', text)
# 规则2：后引号"”" 后面紧跟的垃圾字符 → 删除
text = re.sub(r'”[^\n]', '”', text)
# 规则3：段落开头单个垃圾字符 + 前引号"“" → 删除垃圾字符
text = re.sub(r'^[^\n“”]“', '“', text, flags=re.MULTILINE)
# 规则4：兜底清理孤立乱码
text = re.sub(r'^[^\n“”。？！，、；：（）【】《》…—0-9]$', '', text, flags=re.MULTILINE)
我分享的网盘文件夹中有两份成品代码，核心功能就包含在里面。（识别功能在“输出报告”中，并不全面因为生僻字阻拦了我的检索，还需要完善，）

发表于 2026-6-1 20:49:02

源于231 发表于 2026-6-1 12:24
定位的话就和我之前说的那个“白名单”原理一致，把汉字和常用标点拉个白名单，检索后就能定位到那些地方 ...

原来如此抱歉昨天忙着回京没来得及看网盘还以为是去广告半成品

谢谢大佬毕业后真是把代码忘的差不多了

发表于 2026-6-2 07:20:14

lxy960717 发表于 2026-6-1 20:49
原来如此抱歉昨天忙着回京没来得及看网盘还以为是去广告半成品谢谢大佬毕业后真是把代码忘的差不多了 ...

我也快忘得差不多了，这些是我大学期间因为喜欢看小说所以专门研究的，如果不是存的有代码库还有注释我也解释不清楚了

发表于 2026-6-2 09:25:46

感谢楼主分享

发表于 2026-6-13 11:26:49

感谢楼主修订˶>ᗜ<˶

发表于 2026-6-17 20:03:29

楼主辛苦了

		自动登录	找回密码
密码			立即注册

[同人小说] 《我是装重女，怎么你们都是真重女？》作者：何e味[1-220章][未完结][去乱码版]