Python教程：快速解析文本获取所有书名号内容并去除重复

IT技术

更新时间：2026-03-1015

admin管理员组
文章数量:1516870

文本预处理

我需要做的是：读取txt文件，提取文本中所有带有书名号的内容，并存在一个txt文件里，做我的专有名词词典
1.读取txt文件
2.找出所有带有书名号的内容
3.提出所有重复的内容
4.存在新的txt文件中
更新了方法二，建议直接跳到方法二

方法一（建议看方法二）

1.读取文件+筛选出书名号内容

这个方法比较繁琐，可以看下一个代码块

TXTtemp = open("old_sentence.txt",encoding="utf-8")
txtbuffer = TXTtemp.read()oldlist=['']#list型newlist=['']#list型#oldlist存放txt文档中的内容oldlist=list(txtbuffer)forindexin range(len(txtbuffer)):
    if oldlist[index]=="《":#这里range中的数字是根据书名号中内容的长度改变的，写最大的即可#例如我的所有书名内容长度不超过50，我这里写的50forjin range(50):
            if oldlist[index+j]=="》":#我这里的“/nw"是因为我做NLP任务的需要#不需要的，删掉即可，更改为”》“
                newlist.append("》/nw")
                newlist.append("\n")j=0break
            newlist.append(oldlist[index+j])            
print(newlist)

2.存入新文档

strlist ="".join(newlist)#strlist是str类型
txtnew = open("newtxt.txt","w")
txtnew.write(strlist)
txtnew.close()
TXTtemp.close()
print(strlist)

3.剔除重复内容+存文件

#打开新的文件
TXTtemp = open("newtxt.txt")#readlines() 将读取的内容转成list型
txtbuffer = TXTtemp.readlines()#list类型#set()可以直接剔除重复内容，但是处理后的文档顺序可能有变化，因为我不在意顺序，所以没有关注后续处理
txtbuffer = list(set(txtbuffer))
print(txtbuffer)#重新存入原来的新文档
strlist ="".join(txtbuffer)
txtnew = open("newtxt.txt","w")
txtnew.write(strlist)
txtnew.close()
TXTtemp.close()#完成！

文档地址；
第1部分，range（）括号中的数，取决于你书名号内容的最大长度；（这部分还有“》”后边的内容）
有的可能还需要修改读取文件时解码的类型，encoding=“ ”

方法二用正则的方法可以一步到位

import re
#读取文件
TXTtemp = open("old_sentence.txt",encoding="utf-8")
txtbuffer = TXTtemp.read()#使用findall（），用正则找到所有的带书名号的内容
temp = re.findall("《.*?》",txtbuffer)#剔除重复的
result = set(temp)
print(result)#存入新文件
strlist ="".join(txtbuffer)
txtnew = open("newtxt.txt","w")
txtnew.write(strlist)
txtnew.close()
TXTtemp.close()

参考：

本文标签：系统内容编程

版权声明：本文标题：Python教程：快速解析文本获取所有书名号内容并去除重复内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.betaflare.com/web/1773099771a3276678.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

Office 2016简体中文官方正版镜像，一步到位的授权安装

IT技术

22天前

Office 2016 简体中文批量授权版镜像下载(含Visio、Project)此处整理了office2016 VOL大客户批量授权版下载资源，包含了office2016 32位+64位版本、project2016 32

Office 2016的正确安装姿势，避免常见坑点

编程

22天前

** 视频教程地址 ** 下载Microsoft Office 你可以去微软官网下载，这种下载会麻烦点，也会慢点。所以，我们有更好的地址去下载。这是一个搜集Microsof

免费Office 2016安装指南，让你工作学习更高效

编程

22天前

Office 2016 安装系统资源下载资源描述本仓库提供Office 2016正式版的安装资源下载。Office 2016是一款功能强大的办公软件套件，支持Windows 7、Windows 8和Windows

免费Mac Office 2016安装包，轻松上手教程

IT技术

22天前

Mac Office 2016 安装包下载教程本资源文件提供了适用于苹果系统的 Mac Office 2016 安装包下载教程，包括 Word、Excel 和 PowerPoint 的安装步骤。通过本教程，您可以轻松地在 M

Office 2016 简体中文批量授权版镜像，官方正版资源，轻松获取！

编程

22天前

Office 2016 简体中文批量授权版镜像下载(含Visio、Project)此处整理了office2016 VOL大客户批量授权版下载资源，包含了office2016 32位+64位版本、project2016 32

遇到灰色选项？IE默认设置指南，一键搞定！

编程

22天前

如何将IE浏览器设置为默认浏览器电脑上什么浏览器最好用如何将IE浏览器设置为默认浏览器现在的互联网各种多，那么我们如何将自己喜欢用的浏览器设置为默认的浏览器呢？所用到的工具：电脑IE浏览器第一步：打开IE浏览器

不懂代码也能学会，Win7中将IE设为默认浏览器的简易指南

IT技术

22天前

在win7系统中，自带有ie浏览器，但是有些用户可能会安装其他浏览器，这样原先默认IE浏览器就会被篡改，习惯了使用IE浏览器的用户们就不喜欢了，那么要如何设置IE为默认浏览器呢，具体步骤如下。 1、首先从开始菜单或者打开“计算

Adobe Flash Player迷思解答：锁定IE文档模式10，告别所有兼容性困扰！

编程

22天前

知识点 1.vue 只兼容ie8以上版本；2.IE 不兼容 axios的promise对象;3.IE 不兼容es6语法；问题描述工程使用的 vue2.X，而且

IE浏览器权限升级秘籍：轻松转为管理员模式

编程

22天前

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档前言提示：这里可以添加本文要记录的大概内容：现在仍然有少数老旧系统需要使用IE浏览器才能打开，有些甚至要右键以管理员身份运行才能启动

步骤解析：把Internet Explorer变成你的默认浏览工具

编程

22天前

IE本身就是系统默认浏览器，但有时可能会一不小心将其他浏览器设置成了默认浏览器，要恢复IE为默认浏览器可以采取如下的方法。(1)对于Mozilla这类不采用IE内核的浏览器:可以打开IE，选择“工具→Internet选项→程序”，在“检查

Win10环境下的IE默认设置指南，简单易懂

编程

22天前

Win10如何设置IE为默认浏览器?很多朋友可能还不知道，下面2345软件大全小编给你分享下解决办法。 Win10如何设置IE为默认浏览器第一步：首先打开Win10控制面板，然后再点击进入“程序”，如图所示。

为何IE的Flash中心快捷方式总是开启两个浏览器窗口？

编程

22天前

问题： ie设置为默认浏览器后，然后ie设置一个快捷方式到桌面，打开快捷方式，竟然弹出一个是ie浏览器，一个是360浏览器，记得明明设置ie为默认了，还能弹出2个浏览器。原因：虽然ie设

Windows 用户的心痛：默认浏览器设置为何一不小心就‘换回’IE?

编程

22天前

今天开始打开项目时，突然间发现我的浏览器被改成了IE打开。奇怪了，并没有设置过默认浏览器为IE！随后，当然是修改默认浏览器了，如下常规操作：控制面板》程序》默认程序》设置默认程序》web浏览器》点击并选着你要设置的

电脑网速大提速，告别卡顿，瞬间流畅！

编程

21天前

电脑解除网络限速，让网速飞起来在日常使用电脑的过程中，你是否经常发现自己的电脑网速明显比别人慢？尤其是在下载文件、观看视频或者进行网络游戏时，这种网速差异尤为明显。如果你也遇到了类似的问题，那么很有可能是系统默认限制了20%

从零开始：掌握在Windows系统中部署LOCAL SOLVER并实现首个优化案例

IT技术

21天前

文档系列【1】 Windows 操作系统安装Local Solver下面介绍了在计算机上安装和授权 LocalSolver 的主要步骤。 LocalSol

高性能物理世界：MuJoCo XLA在Unity中的应用揭秘

编程

21天前

突破实时物理瓶颈：MuJoCo XLA与Unity的高性能集成方案在游戏开发和机器人仿真领域，实时物理模拟的精度与效率一直是开发者面临的核心挑战。当你需要同时模拟成百上千个复杂物理场景时，传统引擎往往难以兼顾真实性与性能。本

_qpos在MuJoCo XLA中的秘籍：官方教程详解

IT技术

21天前

这篇博客是 mujoco 官方教程文档中的第 5 篇《The MJX tutorial provides usage examples of MuJoCo XLA, a branch of MuJoCo written

从SWF到TPU V4：科技演变中的十年磨一剑

IT技术

21天前

论文阅读----Ten Lessons From Three Generations Shaped Google’s TPU V4i 1, 论文常见缩写 1) Domain Specific Architecture

金融建模中Excel与VBA的超级组合拳

编程

21天前

简介：《EXCEL及VBA高级金融建模》深入探讨了如何利用Excel强大的数据处理功能与VBA编程能力，构建高效、灵活的金融模型。该主题涵盖财务函数计算、数据清洗、敏感性分析、蒙特卡洛模拟、投资组合优化及风险管理等核心内容，帮助金融从

Excel宏数量爆炸，开机慢如乌龟？轻松破解攻略！

IT技术

21天前

Excel 2003 今天下午,想琢磨以下Excel加载宏里的那些工具,把所有的宏都给选上了.这下可好,关掉Excel再打开,Excel就动静了,连续好几次都不行开始还不知道是加载了过多宏的问题,还以为自

发表评论

全部评论 0

暂无评论

编程频道|软件玩家 - 软件改变生活！

Python教程：快速解析文本获取所有书名号内容并去除重复

文本预处理

方法一（建议看方法二）

1.读取文件+筛选出书名号内容

2.存入新文档

3.剔除重复内容+存文件

方法二 用正则的方法可以一步到位

更多相关文章

Office 2016简体中文官方正版镜像，一步到位的授权安装

Office 2016的正确安装姿势，避免常见坑点

免费Office 2016安装指南，让你工作学习更高效

免费Mac Office 2016安装包，轻松上手教程

Office 2016 简体中文批量授权版镜像，官方正版资源，轻松获取！

遇到灰色选项？IE默认设置指南，一键搞定！

不懂代码也能学会，Win7中将IE设为默认浏览器的简易指南

Adobe Flash Player迷思解答：锁定IE文档模式10，告别所有兼容性困扰！

IE浏览器权限升级秘籍：轻松转为管理员模式

步骤解析：把Internet Explorer变成你的默认浏览工具

Win10环境下的IE默认设置指南，简单易懂

为何IE的Flash中心快捷方式总是开启两个浏览器窗口？

Windows 用户的心痛：默认浏览器设置为何一不小心就‘换回’IE?

电脑网速大提速，告别卡顿，瞬间流畅！

从零开始：掌握在Windows系统中部署LOCAL SOLVER并实现首个优化案例

高性能物理世界：MuJoCo XLA在Unity中的应用揭秘

_qpos在MuJoCo XLA中的秘籍：官方教程详解

从SWF到TPU V4：科技演变中的十年磨一剑

金融建模中Excel与VBA的超级组合拳

Excel宏数量爆炸，开机慢如乌龟？轻松破解攻略！

发表评论

推荐文章

XP碰上Win10打印机共享？解密'拒绝访问'，轻松打印

Nero刻录高手教程：打造专业级数据复制方案

Adobe Flash Player中的秘密：通过Google黑客语法挖掘的实用指南

远程桌面入门：本地设备与防火墙设置详解

一步到位：QQ第三方登录的简单教程

热门文章

电脑启动失败？破解键盘问题的指南

手把手教学：如何在Win10中重新激活'我的电脑'"

遇到'Remove disks or media'？快速修复教程！

搞定K2450！揭秘隐藏的无线网卡硬件开关位置

一文在手，鸿蒙虚拟机无忧：安装与操作全攻略

从零开始，进阶成为Flash中心高手：YimMenu进阶指南

三步搞定：360安全卫士的彻底移除

USB设备莫名消失？别急，Win10Win11解决指南在此！

ZIP压缩文件保护术：简单教程，为你的资料加把锁

0x000007b错误码大揭秘：从系统架构到文件损坏，一文带你彻底解决！

最新文章

金融建模中Excel与VBA的超级组合拳

现代计算的新篇章：把FEMCFD求解器封装为PyTorch或JAX函数

突破视觉强化学习训练的‘视觉’障碍，MJX带来高效方案

Excel高手必备：TL431可调电压基准源的求解秘技

高性能物理世界：MuJoCo XLA在Unity中的应用揭秘

Excel宏数量爆炸，开机慢如乌龟？轻松破解攻略！

Open-AutoGLM性能瓶颈大揭秘：破解编译三大障碍

MuJoCo高手之路：从入门到精通的进阶指南

深度学习加速新纪元：张量引擎TBE与深度学习编译器，加速你的训练与推理

MJX秘籍：5倍加速技巧，改写强化学习训练规则！

清华同方超锐L60P 龙芯 3A600032GB1TB集显麒麟统信永久版系统参数报价

清华同方超锐L60P 龙芯 3A600016GB512GB集显KOS麒麟系统试用版参数报价

清华同方超锐L60P 龙芯 3A600032GB1TB集显麒麟统信永久版系统+WPS参数报价

清华同方超锐L60P 龙芯 3A600016GB512GB集显麒麟统信永久版系统参数报价

联想开天X1f G1d 飞腾D3000M16GB1TB集显国防版麒麟统信系统参数报价

方法二用正则的方法可以一步到位