Python编程:读取pdf、pptx、docx、xlsx文件的页数

版权声明:本文为博主原创文章,欢迎转载,请注明出处pdf安装工具pipinstallpdfplumber代码示例importpdfplumberfrompdfminer.pdfparserimportPDFSyntaxErrordefget_pdf_page(pdf_path):try:f=pdfplumber.open(pdf_path)page=len(f.pages)exceptPDFSyn...

Python编程:读取pdf、pptx、docx、xlsx文件的页数
版权声明:本文为博主原创文章,欢迎转载,请注明出处
pdf

安装工具

pip install pdfplumber
代码示例
import pdfplumberfrom pdfminer.pdfparser import PDFSyntaxErrordef get_pdf_page(pdf_path): try:  f = pdfplumber.open(pdf_path)  page = len(f.pages) except PDFSyntaxError:  page = 0 return page
pptx

安装工具

 pip install python-pptx
代码示例
from pptx import Presentationdef get_pptx_page(pptx_path): try:  p = Presentation(pptx_path)  page = len(p.slides) except KeyError:  page = 0 return page
docx、xlsx

Word是流动分页的,文件内容本身并不存储分页结果。具体分页时断在哪里、最后分出多少页,都需要现场渲染所有的图文内容之后才能确定。

Word文件中仅包含了一行一行的文本,与页面设置中指定的页面尺寸。

Word每次打开文件时都会一行一行“摆放”文本数据,发现一页装不下了自动新开一页

所以,读取页数是不对的

参考

  • 如何在 Linux 上使用 Python 读取 word 文件信息(如页数)?
  • Python编程:pypdf2和pdfplumber获取pdf文件的页数
  • 源文地址:https://www.guoxiongfei.cn/csdn/2722.html