找回密码
 立即注册
搜索
热搜: 领主 重生 江湖

[同人小说] 《我是装重女,怎么你们都是真重女?》作者:何e味[1-220章][未完结][去乱码版]

[复制链接]
发表于 3 天前 | 显示全部楼层
lxy960717 发表于 2026-5-30 22:55
突然在微信文件里找出来了 大佬看看有没有办法

分享文件:删除错乱字符(半程品)
1kFhjWynxrrqXCHtVpridvQ?pwd=3bri
回复

使用道具 举报

 楼主| 发表于 3 天前 | 显示全部楼层
源于231 发表于 2026-5-31 13:30
我这边算是进行了定位和删减,但结果不甚理想
定位还算成功,遗漏概率大概是百分之一,但通过代码全面删 ...

大佬能教我一下怎么改“顺便搞了点删除段落前或段落后经常出现的特殊字(这些用word文档左手倒右手其实就能删除)”和“定位”吗?麻烦大佬了
回复

使用道具 举报

发表于 前天 12:24 | 显示全部楼层
lxy960717 发表于 2026-5-31 23:00
大佬能教我一下怎么改“顺便搞了点删除段落前或段落后经常出现的特殊字(这些用word文档左手倒右手其实就 ...

定位的话就和我之前说的那个“白名单”原理一致,把汉字和常用标点拉个白名单,检索后就能定位到那些地方有乱码(我设置的是连续三个非白名单符号,其实还是容易缺漏,因为这些乱码中途会掺杂生僻汉字规避了检索,像更准确得把这些容易出现的生僻字额外拉一个“黑名单”)
像这种“段落前或段落后经常出现的特殊字”则是word文档左手倒右手就行(本质上是考验数学逻辑处理能力)。将文本导入word文档后使用自带的替换能力(Ctrl+G打开替换界面),段落的特殊字符是<P>,映照的便是处理段落前特殊字就是<P>^?"(格式就是段落+任意字符+前引号,^?是任意字符),替换为<P>"(这样任意字符就没了)
段落后经常出现的特殊字同理,只是也有可能会是句号感叹号问号,格式就是。^?<P>替换为。<P>(这样有时候会误伤后引号或后括号,介意的话就得用代码解决了)
# 规则1:段落结尾 标点(。?!) + 单个垃圾字符 + 换行 → 删除垃圾字符
    text = re.sub(r'([。?!])[^\n“”]\n', r'\1\n', text)
    # 规则2:后引号"”" 后面紧跟的垃圾字符 → 删除
    text = re.sub(r'”[^\n]', '”', text)
    # 规则3:段落开头 单个垃圾字符 + 前引号"“" → 删除垃圾字符
    text = re.sub(r'^[^\n“”]“', '“', text, flags=re.MULTILINE)
    # 规则4:兜底清理孤立乱码
    text = re.sub(r'^[^\n“”。?!,、;:()【】《》…—0-9]$', '', text, flags=re.MULTILINE)
我分享的网盘文件夹中有两份成品代码,核心功能就包含在里面。(识别功能在“输出报告”中,并不全面因为生僻字阻拦了我的检索,还需要完善,)
回复

使用道具 举报

 楼主| 发表于 前天 20:49 | 显示全部楼层
源于231 发表于 2026-6-1 12:24
定位的话就和我之前说的那个“白名单”原理一致,把汉字和常用标点拉个白名单,检索后就能定位到那些地方 ...

原来如此 抱歉昨天忙着回京没来得及看网盘 还以为是去广告半成品谢谢大佬 毕业后真是把代码忘的差不多了
回复

使用道具 举报

发表于 昨天 07:20 | 显示全部楼层
lxy960717 发表于 2026-6-1 20:49
原来如此 抱歉昨天忙着回京没来得及看网盘 还以为是去广告半成品谢谢大佬 毕业后真是把代码忘的差不多了  ...

我也快忘得差不多了,这些是我大学期间因为喜欢看小说所以专门研究的,如果不是存的有代码库还有注释我也解释不清楚了
回复

使用道具 举报

发表于 昨天 09:25 | 显示全部楼层
感谢楼主分享
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|爱阅书吧 |网站地图

GMT+8, 2026-6-3 06:00 , Processed in 0.243846 second(s), 31 queries .

Powered by Discuz! X3.4

2022-2025

快速回复 返回顶部 返回列表