怎么用python_docx提取docx的一级标题，二级标题？

2025-04-19 19:31:51 PYTHON 2667

使用 python-docx 库可以方便地读取和操作 .docx 文件中的文本内容，包括一级标题和二级标题。以下是详细的步骤和示例代码来提取文档中的一级标题和二级标题：

实现步骤：

1. 安装 python-docx 库

如果尚未安装，可以使用 pip 安装 python-docx 库：

bash
pip install python-docx

2. 编写 Python 代码

下面的示例代码演示了如何使用 python-docx 提取一级标题（Heading 1）和二级标题（Heading 2）：

python
from docx import Document

def extract_headings(doc_path):
    doc = Document(doc_path)
    headings = []

    for paragraph in doc.paragraphs:
        # 一级标题
        if paragraph.style.name.startswith('Heading 1'):
            headings.append(('Heading 1', paragraph.text))
        # 二级标题
        elif paragraph.style.name.startswith('Heading 2'):
            headings.append(('Heading 2', paragraph.text))

    return headings

if __name__ == "__main__":
    doc_path = 'your_document.docx'  # 替换成你的 .docx 文件路径
    headings = extract_headings(doc_path)

    # 输出提取的标题
    for heading in headings:
        print(f"{heading[0]}: {heading[1]}")

解释：

导入库和定义函数：首先导入 Document 类从 docx 模块中，并定义了 extract_headings 函数来提取标题。
打开文档：使用 Document 类打开指定路径的 .docx 文件。
遍历段落：使用 doc.paragraphs 遍历文档中的每个段落。
识别标题：
- 一级标题（Heading 1）：通过检查段落的样式名称是否以 'Heading 1' 开头来识别一级标题。
- 二级标题（Heading 2）：类似地，通过检查样式名称是否以 'Heading 2' 开头来识别二级标题。
存储标题：将识别到的标题和其文本内容存储在 headings 列表中。
输出结果：最后，遍历 headings 列表并打印每个标题及其类型。

注意事项：

确保 .docx 文件中的标题使用了正确的样式（例如，Heading 1 和 Heading 2），以便能够通过样式名称进行识别。
根据实际情况可以根据需求扩展代码，例如处理更多级别的标题或其他样式。
若要进一步处理文档中的内容，可以考虑使用 python-docx 提供的其他功能，例如读取段落文本、表格内容等。

通过以上步骤，你可以使用 Python 和 python-docx 库轻松地提取 .docx 文件中的一级标题和二级标题。