网站首页 > 基础教程 正文
这段代码的核心功能是将一个大型文本文件(例如 .txt 格式)分割成多个较小的文件,每个文件包含指定数量的字符。这对于处理大型文本文件非常有用,特别是当文件太大以至于难以一次性处理或打开时。
import os
def split_txt_file(file_path, max_chars, encoding='utf-8'):
# 检查文件是否存在
if not os.path.exists(file_path):
print("文件不存在,请检查路径")
return
try:
with open(file_path, 'r', encoding=encoding) as file:
content = file.read()
except UnicodeDecodeError:
return split_txt_file(file_path, max_chars, encoding='gbk') # 尝试使用GBK编码
# 获取文件的目录、文件名和扩展名
file_dir, file_name = os.path.split(file_path)
file_base, file_ext = os.path.splitext(file_name)
# 创建与原文件同名的新文件夹
new_folder_path = os.path.join(file_dir, file_base)
if not os.path.exists(new_folder_path):
os.makedirs(new_folder_path)
parts = []
while content:
part, content = content[:max_chars], content[max_chars:]
parts.append(part)
# 将分割后的内容保存到新文件夹中
for i, part in enumerate(parts):
new_file_path = os.path.join(new_folder_path, f"{file_base}_{i+1}{file_ext}")
with open(new_file_path, 'w', encoding=encoding) as file:
file.write(part)
# 使用示例
split_txt_file(r"D:\wenjian\临时\斗破苍穹.txt", 190000) # 这里90000是每个分割文件的字数
代码解析
- 函数定义: split_txt_file(file_path, max_chars, encoding='utf-8'): 这个函数用于分割文本文件。它接受三个参数:文件的路径(file_path),每个分割文件中的最大字符数(max_chars),以及文件的编码(默认为UTF-8)。
- 检查文件存在与否: 使用os.path.exists()判断指定路径的文件是否存在。
- 尝试读取文件内容: 使用open()函数打开文件,并尝试以指定的编码读取内容。如果读取时出现UnicodeDecodeError错误,则尝试用GBK编码重新读取。
- 获取文件信息并创建新文件夹: 提取文件的目录、基本名称和扩展名。 在文件所在目录创建一个新的文件夹,用于存放分割后的文件。
- 分割文本内容: 将文本内容分割成多个部分,每部分包含不超过max_chars指定的字符数。
- 保存分割后的文件: 遍历分割后的文本部分,将每部分保存为新文件。文件名包含原文件名和一个顺序编号。
代码的实际应用
这个脚本在多种场景下都非常有用,尤其是在需要处理大型文本文件的时候。例如:
- 数据处理和分析:当处理大型日志文件或数据集时,可以将其分割成更小的部分,以便于分析和处理。
- 电子书处理:将长篇电子书分割成章节或卷,以便于电子阅读器逐个加载和显示。
- 文档管理:将大型文档分割成小部分,方便阅读、编辑或分享。
应用场景
- 分割长文本文件:将长篇幅的文本文档、日志文件或书籍分割成更易于管理的小部分。
- 创建文档集:将大型文本文件分割成多个部分,用于创建系列文档或章节。
猜你喜欢
- 2024-11-15 站长在线Python精讲:使用正则表达式的sub()方法替换字符串详解
- 2024-11-15 Python使用K-means实现文本聚类(基于kmeans的文本聚类算法)
- 2024-11-15 不会吧!还有人不知道python专属骚技巧15例
- 2024-11-15 python实现pdf转word(python如何把pdf转成excel)
- 2024-11-15 Python协程 & 异步编程(asyncio) 入门介绍
- 2024-11-15 一篇文章带你深度解析Python线程和进程
- 2024-11-15 Python 字符串方法(删除,拆分,拼接)用途:查阅
- 2024-11-15 音频剪裁大师:使用 Python 和 ffmpeg 分割音频的完整指南
- 2024-11-15 python的re.spilt使用案例(python re. split)
- 2024-11-15 如何用Python高效地分割PDF文件:一个简洁的PyPDF2脚本解析
- 06-18单例模式谁都会,破坏单例模式听说过吗?
- 06-18Objective-c单例模式的正确写法「藏」
- 06-18单例模式介绍(单例模式都有哪些)
- 06-18前端设计-单例模式在实战中的应用技巧
- 06-18PHP之单例模式(php单例模式连接数据库)
- 06-18设计模式:单例模式及C及C++实现示例
- 06-18python的单例模式(单例 python)
- 06-18你认为最简单的单例模式,东西还挺多
- 最近发表
- 标签列表
-
- jsp (69)
- gitpush (78)
- gitreset (66)
- python字典 (67)
- dockercp (63)
- gitclone命令 (63)
- dockersave (62)
- linux命令大全 (65)
- pythonif (86)
- location.href (69)
- dockerexec (65)
- tail-f (79)
- queryselectorall (63)
- location.search (79)
- bootstrap教程 (74)
- 单例 (62)
- linuxgzip (68)
- 字符串连接 (73)
- html标签 (69)
- c++初始化列表 (64)
- mysqlinnodbmyisam区别 (63)
- arraylistadd (66)
- mysqldatesub函数 (63)
- window10java环境变量设置 (66)
- c++虚函数和纯虚函数的区别 (66)