Python 实战 | 表格中多信息字段的拆分方法（一行变多行）|电子爱好者

admin管理员组
文章数量:1664986

更多详情请点击查看原文：Python 实战 | 表格中多信息字段的拆分方法（一行变多行）

Python教学专栏，旨在为初学者提供系统、全面的Python编程学习体验。通过逐步讲解Python基础语言和编程逻辑，结合实操案例，让小白也能轻松搞懂Python！
>>>点击此处查看往期Python教学内容

本文目录

一、引言

二、使用 Excel 可以快捷实现吗？

三、Python 的实现方法和代码

四、总结

五、相关推荐

本文共 2743 个字，阅读大约需要 7 分钟，欢迎指正！

Part1引言

如果有一份数据，这份数据中存在一个字段，该字段存储着若干项信息或主体（使用特殊符号分隔）。现在由于需要，我们必须将这份数据从原来的一行数据中某字段包含多条信息拆分为多行，拆分后的每一行中该字段的值都只包含一项信息或主体，就像下面这样。

本期文章我们和大家分享的就是如何使用 Python 实现上述需求。

Part2 使用 Excel 可以快捷实现吗？

不可以（不使用 VBA 语言，不依赖人工的情况下）。

Excel / WPS 工具支持“分列”，即根据单元格中的特殊标点符号，将一列拆分为多列，但是却不能直接将一行拆分为多行。

Part3 Python 的实现方法和代码

Pandas 库作为 Python 中最有竞争力的数据分析/数据处理工具库，面对这种场景当然没有任何问题。在 Pandas 中，df.explode() 是实现这个需求的核心函数，它的功能正是将一行数据拆分展开为多行，流程如下：

df.explode(['专利申请人'])   # 表格 df 根据字段“专利申请人”进行拆分展开

需要注意的是，拆分前的数据中，表格 df 中的“专利申请人”字段内的值已经被处理为可迭代的列表对象，同时这也是函数df.explode()起作用的前置条件。通过阅读说明文档发现，该函数仅两个参数，如下表所示：

参数名称	参数取值	参数说明
column	一个字段名，或者一个包含多个字段名的列表	当只根据一个字段进行拆分展开时，直接传入该字段的名称；如果同时需要根据多个字段进行拆分展开，那么可以传入包含这些字段名称的列表。同时，无论传入多少字段名称，都需要保证这些字段中的值必须是字符串类型或者是类似于列表的类型。
ignore_index	True、False	展开后的数据是否重置行索引，默认值为 False，即不重置行索引。

通过了解这个函数，我们发现解决问题的关键就是如何将字段中包含多项信息的字符串拆分为列表。在本文演示用的专利申请人数据中，我们可以发现用来分隔不同申请人的符号并不唯一，可能会有多种标点符号，如（，,；;、）等，因此我们可以借助正则函数re.split()进行一次性拆分，非常方便，代码如下：

# 使用函数将字段“专利申请人”中的值拆分并转换为列表
# re.split() 函数的返回值恰好是列表
df['专利申请人'] = df['专利申请人'].apply(lambda x: re.split('[,;，；、]', x))

# 拆分为列表后再进行展开，并重置展开后数据的行索引
# 注意 df.explode() 会返回一个展开后的结果，而不是修改原始数据
df_ok = df.explode(['专利申请人'], ignore_index=True)

不过，当笔者实际处理专利数据整库（4000w+条数据）时发现，存在一小部分数据不能使用上述方法进行拆分，下图是其中的一种情况。

上图专利申请人字段中虽然包含顿号，但是这些符号都在括号中作为解释说明，显然不应该被拆分为多条。对于这些数据，我们可以先使用特殊的正则表达式将它们识别出来进行单独处理，然后再使用常规的拆分方法处理其他正常的数据即可。以上图为例，如何识别括号中包含标点符号的数据呢？我们可以使用下面的正则表达式来筛选。

# 先读取全部数据，此处为 1000 条样例数据
df = pd.read_excel('专利申请人1000条样例数据.xlsx')
# 筛选出需要特殊处理的数据（分隔符出现在括号中的数据）
df_special = df[df['专利申请人'].str.contains\
              ('(?:\(|（)[^\(\)（）]*?[,;，；、][^\(\)（）]*?(?:\)|）)')]

正则表达式'(?:\(|（)[^\(\)（）]*?[,;，；、][^\(\)（）]*?(?:\)|）)'看起来比较复杂，但拆分看的话并不难理解，下面我们来做一个解析。上述正则表达式可以按顺序拆分为五个部分，每个部分的含义如下表所示。

正则表达式	含义（匹配的内容）
`(?:\(\|（)`	匹配一个左半边括号‘（’ 或 ‘(’
`[^\(\)（）]*?`	匹配若干个任意字符，这些字符不可以是括号符
`[,;，；、]`	匹配一个出现在中括号中的标点符号
`[^\(\)（）]*?`	匹配若干个任意字符，这些字符不可以是括号符
`(?:\)\|）)`	匹配一个右半边括号‘）’ 或 ‘)’

那么拼合起来的含义就是，匹配一对括号符以及其中包含的所有字符，并要求括号中出现了指定的标点符号，且标点符号的两边还可以出现若干个字符，也就是说，即使括号中出现了不止一个指定的标点符号，那么也可以成功匹配到。如果你想回顾正则表达式的用法，可点击以下文章查看：

Python 教学 | “小白”友好型正则表达式教学（一）

Python 教学 | “小白”友好型正则表达式教学（二）

Python 教学 | “小白”友好型正则表达式教学（三）

筛选完成后就可以单独处理筛选出来的数据 df_special 了，这里不再详细说明如何处理。那么后续再将单独处理的 df_special 从全量数据 df 中删除，最后再使用常规办法处理最后剩余的数据就可以了，下面是处理样例数据的全部代码。

import re,os
import pandas as pd

# 读取样例数据
df = pd.read_excel('./外发样例数据1000/专利申请人1000条样例数据.xlsx').fillna('')

# 筛选出需要单独处理的数据
df_special = df[df['专利申请人'].str.contains\
          ('(?:\(|（)[^\(\)（）]*?[,;，；、][^\(\)（）]*?(?:\)|）)')]

# 保存单独处理后的数据，处理过程省略
df_special.to_csv('展开后的数据.csv',        # 写入的文件路径
                  index=False,              # 不写入数据行索引 
                  quoting=1,                # 添加封闭符
                  encoding='utf-8',         # 设置写入文件的编码
                  mode='a',                 # 设置为追加写入模式
                  header=not os.path.exists('展开后的数据.csv') # 仅首次写入时才会写入表头
                  )

# 从全量数据中删除特殊处理的数据
df = df.drop(df_special.index)

# 最后处理剩余的数据
# 1. 字段值根据指定的标点符号拆分为列表
df['专利申请人'] = df['专利申请人'].apply(lambda x: re.split('[,;，；]', x))
# 2. 展开拆分后的数据
df_explode = df.explode(['专利申请人'], ignore_index=True)

# 写入处理后的剩余数据
df_explode.to_csv('展开后的数据.csv',        # 写入的文件路径
                  index=False,              # 不写入数据行索引 
                  quoting=1,                # 添加封闭符
                  encoding='utf-8',         # 设置写入文件的编码
                  mode='a',                 # 设置为追加写入模式
                  header=not os.path.exists('展开后的数据.csv') # 仅首次写入时才会写入表头
                  )

Part4 总结

本期文章介绍了一种使用 Python 将表格数据进行纵向拆分展开的方法，本文演示用的样例数据为专利数据中的专利申请号、专利申请人。如果您也需要经常接触数据，那么希望本期的数据处理实战经验能为您提供帮助，或者带来灵感。

👉如需获取本文演示代码以及演示所用数据请查看原文：Python 实战 | 表格中多信息字段的拆分方法（一行变多行）。

Part5 相关推荐

Python 教学

• Python 教学 | 学习 Python 第一步——环境安装与配置

• Python 教学 | Python 基本数据类型

• Python 教学 | Python 字符串操作（上）

• Python 教学 | Python 字符串操作（下）

• Python 教学 | Python 变量与基本运算

• Python 教学 | 组合数据类型-列表

• Python 教学 | 组合数据类型-集合（内含实例）

• Python 教学 | 组合数据类型 - 字典&元组

• Python 教学 | Python 中的分支结构（判断语句）

• Python 教学 | Python 中的循环结构（上）

• Python 教学 | Python 中的循环结构（下）

• Python 教学 | Python 函数的定义与调用

• Python 教学 | Python 内置函数

• Python 教学 | 最常用的标准库之一 —— os

• Python 教学 | 盘点 Python 数据处理常用标准库

• Python 教学 | “小白”友好型正则表达式教学（一）

• Python 教学 | “小白”友好型正则表达式教学（二）

• Python 教学 | “小白”友好型正则表达式教学（三）

• Python 教学 | 数据处理必备工具之 Pandas（基础篇）

• Python 教学 | 数据处理必备工具之 Pandas（数据的读取与导出）

• Python 教学 | Pandas 数据索引与数据选取

• Python 教学 | Pandas 妙不可言的条件数据筛选

• Python 教学 | Pandas 缺失值与重复值的处理方法

• Python 教学 | Pandas 表格数据行列变换

• Python 教学 | Pandas 表格字段类型精讲（含类型转换）

• Python 教学 | Pandas 数据合并（含目录文件合并案例）

• Python 教学 | Pandas 数据匹配（含实操案例）

• Python 教学 | Pandas 函数应用（apply/map）【上】

• Python 教学 | Pandas 函数应用（apply/map）【下】

• Python 教学 | Pandas 分组聚合与数据排序

• Python 教学 | Pandas 时间数据处理方法

• Python 教学 | 列表推导式 & 字典推导式

• Python 教学 | 一文搞懂面向对象中的“类和实例”

• Python 教学 | Python 学习路线+经验分享，新手必看！

• Python 教学 | 解密 Windows 中的 Path 环境变量

• Python 教学 | Jupyter Notebook 中那些十分有用的魔术命令

Python实战

• Python实战 | 如何使用 Python 调用 API

• Python 实战 | 使用正则表达式从文本中提取指标

• 大数据分析 | 用 Python 做文本词频分析

• 数据治理 | 从“今天中午吃什么”中学习Python文本相似度计算

• 数据治理 | 省下一个亿！一文读懂如何用python读取并处理PDF中的表格（赠送本文所用的PDF文件）

• 数据治理 | 还在人工识别表格呢？Python 调用百度 OCR API 又快又准

• 数据治理 | 如何用 Python 批量压缩/解压缩文件

• 案例分享：使用 Python 批量处理统计年鉴数据（上）

• 案例分享：使用 Python 批量处理统计年鉴数据（下）

• Python 实战 | ChatGPT + Python 实现全自动数据处理/可视化

• ChatGPT在指尖跳舞: open-interpreter实现本地数据采集、处理一条龙

• Python 实战 | 文本分析之文本关键词提取

• Python 实战 | 文本分析工具之HanLP入门

• Python 实战 | 进阶中文分词之 HanLP 词典分词（上）

• Python 实战 | 进阶中文分词之 HanLP 词典分词（下）

• Python实战 | 文本文件编码问题的 Python 解决方案

• Python 实战 | 从 PDF 中提取（框线不全的）表格

• Python 实战 | 利用 Python 做长宽面板转换（附数据&代码）

• Python 实战 | 拆分、合并、转换……请查收这份 PDF 操作手册

• 答疑解惑 | 云桌面用户如何使用 Python 连接数据库读写、处理数据

• Python 实战 | 使用 Python 清洗文本字段中的 HTML 代码

• 答疑解惑 | csv 数据字段错位？导入 Stata 中途报错？到底怎么解决……

数据可视化

• 数据可视化 | 讲究！用 Python 制作词云图学问多着呢

• 数据可视化 | 地址数据可视化—教你如何绘制地理散点图和热力图

• 数据可视化 | 太酷了！用 Python 绘制3D地理分布图

• 数据可视化 | 用 Python 制作动感十足的动态柱状图

• 数据可视化 | Python绘制多维柱状图：一图展示西部各省人口变

迁【附本文数据和代码】

• 数据可视化 | 3D 柱状图一览各省农民合作社存量近十年变化

本文标签：字段实战表格方法信息

版权声明：本文标题：Python 实战 | 表格中多信息字段的拆分方法（一行变多行）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1730021746a1219542.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

Python 实战 | 表格中多信息字段的拆分方法（一行变多行）

Part1引言

Part2 使用 Excel 可以快捷实现吗？

Part3 Python 的实现方法和代码

Part4 总结

Part5 相关推荐

Python 教学

Python实战

数据可视化

更多相关文章

计算机表格怎么往下排序,如何在Excel中随机排序表格中的顺序

怎么用表格做出html网页,用表格制作网页

解决报错信息is intended for a different architecture

《机器学习实战》基于信息论的三种决策树算法(ID3,C4.5,CART)

2022企业邮件登录入口，企业邮件登录方法大全

命令查看spf_什么是SPF、邮箱域名SPF记录查询方法

Shodan搜索引擎在信息搜集中的应用

信息收集搜索引擎收集、目录扫描、Git信息收集

Nature Machine Intelligence 期刊信息

实操续：爬虫基础知识，浏览器最基本的配置方法

国际计算机和信息科学协会,第18届IEEEACIS国际计算机与信息科学大会 2019 IEEEACIS 18th International Conference on Computer an...

wps表格宏被禁用如何解禁_wps的excel中宏被禁用怎么办 - 卡饭网

python做表格教程_(0基础如何快速入门Python)python表格入门教程

Python 实战 | 利用 Python 做长宽面板转换（附数据&amp;代码）

答疑解惑 | csv 数据字段错位？导入 Stata 中途报错？到底怎么解决……

ym——android源代码大放送（实战开发必备）

oc引导win方法_适配自己的OC引导一键生成Opencore Generation X使用指南

批处理根据MAC修改计算机名等系统信息，XPwin7win8下测试通过

解决win7无法运行bat批处理文件的方法

【召回第一篇】召回方法综述

发表评论

推荐文章

下载安装VMware和win11系统

计算机怎样将多行文字转换成表格,怎么把表格里的字变成两行

SSH 弱密钥交换算法已启用

Engineering Applications of Artificial Intelligence（EAAI）投稿过程

winrar解压的文件在哪里？

热门文章

利用NTFS权限设置让U盘不再中毒

瞎弄电脑BIOS设置，再次开机进入BitLocker恢复，恰巧微软账户啥密钥ID都有，就是和自己这个密钥对不上，然后如何将自己密钥保存到微软账户

魅族手机打开usb调试后链接不上电脑，解决方法如下

win7搜索其他计算机打印机驱动程序,win7系统中怎样找到另一台电脑上共享的打印机...

Visio2016安装

数据挖掘（Data Mining）扫盲笔记

电脑开机时出现reboot and select proper boot device怎么办

电商数据分析7——电商平台搜索引擎优化（SEO）的数据分析方法

第四届生物医学与生物信息工程国际学术会议（ICBBE 2024） The 4th International Conference on Biomedicine and Bioinformatics

计算机科学与工程国际会议,2019年第19届自动控制和计算机工程科学与技术国际会议 2019 19th International Conference on Sciences and Techniq...

最新文章

巨好的文章(收藏)

转载：理解 GNULinux----UNIX 是简单的，你不需要成为天才也能理解这种简单

完全用Linux工作，摈弃Windows - by 王垠

完全用Linux工作，摈弃Windows【转】

&gt;2005.09.22来自：CSDN王垠

完全在GNULinux下工作

完全用Linux(转)

完全用Linux工作，摈弃Windows(转载)

影响很大，不可一言谓之

完全使用linux工作

完全用 Linux 工作

[转贴]写给理工科大学生尤其是学计算机的大学生

完全用GNULinux工作，摈弃Windows低效率的工作方式(转自飞扬)

转贴:完全用Linux工作，摈弃Windows

[转]完全用Linux工作，摈弃Windows

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

Python 实战 | 利用 Python 做长宽面板转换（附数据&代码）

>2005.09.22来自：CSDN王垠

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载