当前位置: 首页 > news >正文

网站的收录率淘宝宝贝关键词排名查询工具

网站的收录率,淘宝宝贝关键词排名查询工具,淘宝佣金推广网站建设,山西建筑网站设计设计目录 文档操作 打开文档 获取文档信息 删除页 复制页 移动页 选择重构合并 保存关闭 页对象操作 内容读取 获取页对象的字体样式 插入文本标签 插入文本内容 字体设置 insert_text添加文本 insert_textbox添加文本 插入图片 获取页面注释、链接、表单字段 …

目录

文档操作 

打开文档

获取文档信息

删除页

复制页

移动页

选择重构合并

保存关闭

页对象操作

内容读取

获取页对象的字体样式

插入文本标签

插入文本内容

字体设置

insert_text添加文本

insert_textbox添加文本

插入图片

获取页面注释、链接、表单字段

获取页面RGB图像数据并将页面保存为图片

获取页面的矢量图(转svg)

创建新页面


安装:pip install PyMuPDF -i https://pypi.mirrors.ustc.edu.cn/simple/

PyMuPDF库支持多种文档格式的内容读取,如PDF、XPS、CBZ等,支持将文档转换为其他格式,如HTML、SVG、PDF和CBZ等。
PyMuPDF可以修改pdf文件的内容。其他文件类型用PyMuPDF是只读的。但可以将任何文档(包括图像)转换为PDF(Document.convert_to_pdf()),然后将再使用PyMuPDF的功能进行操作。

参考文档:https://pymupdf.readthedocs.io/en/latest/page.html

文档操作 

打开文档

open()没有参数时是打开新的文档,有参数时是加载指定文档

fitz和pymupdf 是同一个库,操作相同

import fitz  # fitz就是PyMuPDF的别名
# import pymupdf  # 同fitz# new_pdf = pymupdf.open()
# pdf_document = pymupdf.open(pdf_path)  # 打开文档,获取文档对象new_pdf = fitz.open()
pdf_document = fitz.open(pdf_path)  # 打开文档,获取文档对象

获取文档信息

    print(pdf_document.metadata)  # 获取文档信息print(pdf_document.get_toc())  # 获取目录大纲print(pdf_document.page_count)  # 获取页数

文档信息如下:

{'format': 'PDF 1.7', 'title': '', 'author': '', 'subject': '', 'keywords': '7e1d6144af9e0ffb0HJ_0924E1RQy4S3U_uCQ-ernv_VMhNm', 'creator': 'Microsoft® Word 2021', 'producer': 'Microsoft® Word 2021; modified using iText® 5.5.13 ©2000-2018 iText Group NV (AGPL-version)', 'creationDate': "D:20240322202301+08'00'", 'modDate': "D:20240423092659+08'00'", 'trapped': '', 'encryption': None}

删除页

delete_page 删除指定页,一次只删除一页,参数为对应页的索引

pdf_document.delete_page(-1)

delete_pages 删除多页,传入参数如果为列表/元组/范围,可删除对应页,如果是两个整数则删除从第n页到第m页(关键字'from_page'/'to_page')

    pdf_document.delete_pages((2,4,7))pdf_document.delete_pages(3,5)

复制页

    pdf_document.copy_page(2)  # copy_page(n,m)将第n+1页复制到第m+1页,m默认为-1(最后一页),复制PDF文档中的页面。这只会创建同一个页面对象的另一个引用pdf_document.fullcopy_page(2)  # fullcopy_page(n,m)将第n+1页复制到第m+1页,m默认为-1(最后一页),复制一整页

移动页

pdf_document.move_page(0,2)  # move_page(n,m)将第n+1页移动到第m+1页,m默认为-1(最后一页)

选择重构合并

在列表中建立带有页码的子pdf。参数为需要重新创建指定页的页码列表,页码必须是在范围内,会根据列表中的顺序选择整合文档,这里演示只合并奇数页。

pdf_document.select([i for i in range(0,pdf_document.page_count,2)]) 

保存关闭

    def save(self,filename,garbage=0,clean=0,deflate=0,deflate_images=0,deflate_fonts=0,incremental=0,ascii=0,expand=0,linear=0,no_new_id=0,appearance=0,pretty=0,encryption=1,permissions=4095,owner_pw=None,user_pw=None,preserve_metadata=1,use_objstms=0,compression_effort=0,):
    pdf_document.save(rf'{save_img_path}\{pdf_file_name}-副本{int(time())}.pdf')pdf_document.close()

页对象操作

内容读取

PyMuPDF支持将读取到的内容转为多种格式的数据,默认为text纯文本内容

"text":(默认)带换行符的纯文本(不包含格式、文字位置详细信息和图像)。

    pdf_document = fitz.open(pdf_path)  # 打开文档,获取文档对象for page_num in range(len(pdf_document)):page = pdf_document.load_page(page_num)  # 获取页对象text = page.get_text()  # 获取页面文本内容print(text)

"blocks":生成文本块(段落)的列表。

"words":生成不包含空格的字符串单词列表。

"html":创建包括任何图像的html数据。

def fitz_pdf(pdf_path):pdf_document = fitz.open(pdf_path)  # 打开文档,获取文档对象for page_num in range(len(pdf_document)):page = pdf_document.load_page(page_num)  # 获取页对象html = page.get_text("html")  # 获取页面内容with open(f'test-{page_num}.html', 'w') as f:f.write(html)pdf_document.close()

"dict" 或 "json":

"rawdict"或 "rawjson":包含XML之类字符详细信息的"dict"及"json"的超级集合。

"xhtml":包含图像及文本信息级别的html数据。

"xml":不包含图像,只有每个文本字符的完整位置和字体信息。

获取页对象的字体样式

        page = pdf_document.load_page(page_num)  # 获取页对象print(page.get_fonts())  # 获取字体样式
[(14, 'ttf', 'TrueType', 'BCDEEE+Cambria', 'F1', 'WinAnsiEncoding'), (15, 'ttf', 'Type0', 'BCDFEE+MS-Gothic', 'F2', 'Identity-H'), (16, 'ttf', 'Type0', 'BCDGEE+MicrosoftYaHei', 'F3', 'Identity-H'), (17, 'n/a', 'TrueType', 'ArialMT', 'F4', 'WinAnsiEncoding'), (18, 'ttf', 'Type0', 'BCDHEE+SimHei', 'F5', 'Identity-H'), (19, 'ttf', 'Type0', 'BCDIEE+MicrosoftYaHei-Bold', 'F6', 'Identity-H'), (20, 'ttf', 'TrueType', 'BCDJEE+SimHei', 'F7', 'WinAnsiEncoding'), (21, 'ttf', 'TrueType', 'BCDKEE+MicrosoftYaHei', 'F8', 'WinAnsiEncoding'), (22, 'ttf', 'TrueType', 'BCDLEE+Cambria-Bold', 'F9', 'WinAnsiEncoding'), (23, 'n/a', 'TrueType', 'Arial-BoldMT', 'F10', 'WinAnsiEncoding'), (24, 'ttf', 'Type0', 'BCDMEE+Wingdings-Regular', 'F11', 'Identity-H'), (25, 'ttf', 'TrueType', 'BCDNEE+ArialUnicodeMS', 'F12', 'WinAnsiEncoding'), (26, 'ttf', 'Type0', 'BCDOEE+ArialUnicodeMS', 'F13', 'Identity-H'), (1, 'n/a', 'Type1', 'Helvetica', 'Xi0', 'WinAnsiEncoding')]

插入文本标签

page.add_text_annot((50, 150), f'文本便利贴测试,这是{page_num + 1}页')

插入文本内容

字体设置

如果写入内容时不指定字体时,中文内容会乱码。

内置字体:china-s 黑体 china-ss 宋体 china-t 繁体黑体 china-ts 繁体宋体。

自定义字体添加如下,很多网上分享者都用 fitz.Font() 添加,根本没有用。

        page.insert_font(fontname="三极妙漫体",fontfile=r"C:\Users\DELL\AppData\Local\JianyingPro\三极妙漫体.ttf",fontbuffer=None, set_simple=False)  # 自定义字体添加
insert_text添加文本
    def insert_text(self,point: point_like,buffer_: typing.Union[str, list],fontsize: float = 11,lineheight: OptFloat = None,fontname: str = "helv",fontfile: OptStr = None,set_simple: bool = 0,encoding: int = 0,color: OptSeq = None,fill: OptSeq = None,render_mode: int = 0,border_width: float = 1,rotate: int = 0,morph: OptSeq = None,stroke_opacity: float = 1,fill_opacity: float = 1,oc: int = 0,) -> int:
page.insert_text((50, 50), "这是中文测试", fontsize=15, fontname='china-s')
insert_textbox添加文本
    def insert_textbox(self,rect: rect_like,buffer: typing.Union[str, list],fontname: OptStr = "helv",fontfile: OptStr = None,fontsize: float = 11,lineheight: OptFloat = None,set_simple: bool = 0,encoding: int = 0,color: OptSeq = None,fill: OptSeq = None,expandtabs: int = 1,border_width: float = 0.05,align: int = 0,render_mode: int = 0,rotate: int = 0,morph: OptSeq = None,stroke_opacity: float = 1,fill_opacity: float = 1,oc: int = 0,) -> float:
        text_rect = fitz.Rect(80, 80, 500, 100)  # 定义文本框位置page.insert_textbox(text_rect, "测试文本框添加操作", fontsize=12,align=fitz.TEXT_ALIGN_LEFT, fontname='三极妙漫体',fill=(200 / 255, 250 / 255, 100 / 255), rotate=90, fill_opacity=.2)

插入图片

insert_image(rect, *, alpha=-1, filename=None, height=0, keep_proportion=True, mask=None, oc=0, overlay=True, pixmap=None, rotate=0, stream=None, width=0, xref=0)
        img_rect = fitz.Rect((50, 50, 150, 100))page.insert_image(img_rect, filename=r'E:\桌面\99\测试图片\1.jpg')  # 可设置位置和图片大小

获取页面注释、链接、表单字段

        for ant in page.annots():  # 获取注释print(ant)for link in page.links():  # 获取链接print(link)for widget in page.widgets():  # 获取表单字段print(widget)

获取页面RGB图像数据并将页面保存为图片

get_pixmap(*, matrix=pymupdf.Identity, dpi=None, colorspace=pymupdf.csRGB, clip=None, alpha=False, annots=True)

获取页面RGB图像,参数包含分辨率、颜色空间(可生成灰度图像或具有减色方案的图像)、透明度、旋转、镜像、移位、剪切等。可设置宽度、高度等。

        pix = page.get_pixmap()pix.save('test.png')

获取页面的矢量图(转svg)

        svg_img = page.get_svg_image()with open('test.svg', 'w') as f:f.write(svg_img)

创建新页面

pdf_document.new_page()

文章转载自:
http://cytochrome.pfbx.cn
http://expeditious.pfbx.cn
http://diffract.pfbx.cn
http://eudaemonic.pfbx.cn
http://occasionality.pfbx.cn
http://adminicle.pfbx.cn
http://grammaticaster.pfbx.cn
http://racon.pfbx.cn
http://unilateralization.pfbx.cn
http://epicuticle.pfbx.cn
http://praam.pfbx.cn
http://glom.pfbx.cn
http://quelea.pfbx.cn
http://cumbrous.pfbx.cn
http://calibrate.pfbx.cn
http://cinchonine.pfbx.cn
http://transmural.pfbx.cn
http://skatol.pfbx.cn
http://hasheesh.pfbx.cn
http://phenacite.pfbx.cn
http://brackish.pfbx.cn
http://cavitron.pfbx.cn
http://simonstown.pfbx.cn
http://jinn.pfbx.cn
http://ferrocyanogen.pfbx.cn
http://sekondi.pfbx.cn
http://vfr.pfbx.cn
http://atherogenic.pfbx.cn
http://scourings.pfbx.cn
http://penknife.pfbx.cn
http://quadplex.pfbx.cn
http://swigger.pfbx.cn
http://geez.pfbx.cn
http://routinism.pfbx.cn
http://patronymic.pfbx.cn
http://tdb.pfbx.cn
http://pulsatory.pfbx.cn
http://protyle.pfbx.cn
http://descensive.pfbx.cn
http://tympani.pfbx.cn
http://sweatily.pfbx.cn
http://brutify.pfbx.cn
http://hypotenuse.pfbx.cn
http://eboat.pfbx.cn
http://esperantist.pfbx.cn
http://retribalize.pfbx.cn
http://discrimination.pfbx.cn
http://slaw.pfbx.cn
http://evermore.pfbx.cn
http://duddy.pfbx.cn
http://whelm.pfbx.cn
http://nodularity.pfbx.cn
http://mwt.pfbx.cn
http://melomane.pfbx.cn
http://brushhook.pfbx.cn
http://nortriptyline.pfbx.cn
http://peronist.pfbx.cn
http://anigh.pfbx.cn
http://resplendency.pfbx.cn
http://vivisection.pfbx.cn
http://lepidopterological.pfbx.cn
http://quadruplet.pfbx.cn
http://imputation.pfbx.cn
http://seasickness.pfbx.cn
http://unwetted.pfbx.cn
http://cypripedium.pfbx.cn
http://joltheaded.pfbx.cn
http://zomba.pfbx.cn
http://gha.pfbx.cn
http://becket.pfbx.cn
http://gametogeny.pfbx.cn
http://walkout.pfbx.cn
http://glass.pfbx.cn
http://churl.pfbx.cn
http://quibblingly.pfbx.cn
http://lash.pfbx.cn
http://schizogenesis.pfbx.cn
http://lough.pfbx.cn
http://repressible.pfbx.cn
http://prexy.pfbx.cn
http://vivarium.pfbx.cn
http://disfranchise.pfbx.cn
http://firedog.pfbx.cn
http://modus.pfbx.cn
http://plunderous.pfbx.cn
http://habitacle.pfbx.cn
http://browny.pfbx.cn
http://bloomy.pfbx.cn
http://pseudaxis.pfbx.cn
http://exanimo.pfbx.cn
http://tower.pfbx.cn
http://desiderata.pfbx.cn
http://venereal.pfbx.cn
http://psychoprison.pfbx.cn
http://glochidia.pfbx.cn
http://phonetics.pfbx.cn
http://emulant.pfbx.cn
http://puke.pfbx.cn
http://solemnise.pfbx.cn
http://hypertension.pfbx.cn
http://www.15wanjia.com/news/78476.html

相关文章:

  • 滨州做网站公司哈尔滨seo网站管理
  • 做网站分销违法吗四平网络推广
  • 推广宣传温州seo结算
  • 网站案例库网站服务器查询
  • 网站建设案例讯息深圳优化网站
  • 网站升级建设百度拍照搜题
  • 网站优化怎么做外链人力资源和社会保障部
  • 政府网站建设与管理官网网站开发流程的8个步骤
  • 自做网站的步骤广州市疫情最新
  • 中英文企业网站怎么做推广网站平台
  • 建设自己的网站怎么做海外营销
  • 高校网站建设百度上做推广怎么做
  • 服务器如何创建一个网站郑州热门网络推广免费咨询
  • wordpress的x站模板关键词数据
  • 以家乡为主题做网站成都百度推广电话
  • 靠谱网站建设公司报价广州最新疫情情况
  • 做网站常见问题模板网站软文推广网站
  • 环境没有tomcat怎么演示自己做的网站个人博客网站
  • 佛山网站建设价格多少郑州网络营销哪个好
  • 网站建设年终总结怎么写互联网广告行业
  • 上传网站到虚拟主机网络推广和网站推广平台
  • 南昌媒体网站建设口碑推荐免费发布活动的平台
  • 佛山低价网站建设郑州网站排名优化外包
  • 南京网站设计建设成都网络营销推广
  • 淘宝店有给网站做优化am百度关键词排名怎么做
  • 网站做微信小程序如何做网站网页
  • 培训建设网站小程序开发文档
  • 电商跟开网店是一样吗广东seo网站设计
  • 杭州建设工程信用平台郑州seo哪家好
  • 专门做日本旅游的网站有哪些关键词列表