当前位置: 首页 > news >正文

孙俪做的网站广告百度如何推广网站

孙俪做的网站广告,百度如何推广网站,如何备份wordpress数据库结构,宁波seo服务推广平台1.介绍 PyMuPDF 和Fitz 是用于Python中处理PDF文件的相关模块。Fitz是P有MuPDF的字模块。提供一个简化和封装版本的P有MuPDF功能。 关系: PyMuPDF: 提供广泛的功能,用于操作PDF文档, 包括方便的高级函数与底层操作Fitz &#x…

1.介绍

PyMuPDF 和Fitz 是用于Python中处理PDF文件的相关模块。Fitz是P有MuPDF的字模块。提供一个简化和封装版本的P有MuPDF功能。

关系:
  • PyMuPDF: 提供广泛的功能,用于操作PDF文档, 包括方便的高级函数与底层操作
  • Fitz :简化和封装了PyMuPDF的功能,使在python中处理PDF文件更加简单

2. 基本操作

获取PDF的文档基本信息

# -*- coding: utf-8 -*-
# PyMuPDF==1.23.26
import fitzpdf_path = 'rag_datas/text.pdf'
doc = fitz.open(pdf_path) # 文件加载# basic PDF info
title = doc.metadata['title']
author= doc.metadata['author']# 文档作者
create_data= doc.metadata['creationDate']   # 文档创建时间
num_pages = doc.page_count # 文档页数
page = doc.load_page(0) # 第一页
page_height = page.bound().height 
page_width = page.bound().width

获取pdf文档中的文本

# -*- coding: utf-8 -*-
# PyMuPDF==1.23.26
import fitzpdf_path = 'rag_datas/text.pdf'
doc = fitz.open(pdf_path) # 文件加载
num_pages = doc.page_count # 文档页数# Text info of pdf
for page_index in range(num_pages ):page = doc.load_page(page_index)# 获取页面内容text = page.get_text()# 获取页面文本print(f"第{page_index + 1} 页的文本内容为:\n{text }\n")

获取pdf文档中的图片

# -*- coding: utf-8 -*-
# PyMuPDF==1.23.26
import fitzpdf_path = 'rag_datas/text.pdf'
doc = fitz.open(pdf_path) # 文件加载
num_pages = doc.page_count # 文档页数# Image info of pdf
for page_index in range(num_pages ):page = doc.load_page(page_index)# 获取页面内容image_list = page.get_images()# 获取页面图片print(image_list) # 图片基本信息for img in image_list:xref = img[0]pix = fitz.Pixmap(doc, xref)print(pix.colorspace, '-->', fitz.csRGB)img_path f'../output/image{page_index + 1}_{xref}.png'pix.save(img_path )

获取pdf文档中的表格

# -*- coding: utf-8 -*-
# PyMuPDF==1.23.26
import fitzpdf_path = 'rag_datas/text.pdf'
doc = fitz.open(pdf_path) # 文件加载
num_pages = doc.page_count # 文档页数# tables info of pdf
for page_index in range(num_pages ):page = doc.load_page(page_index)# 获取页面内容tables = page.find_tables()# 获取页面表格print(f"tables: "{tables})# 提取的表格数据将会保存为csv格式文件for i, table in enumerate(tables):df = tables[0].to_pandas()print(df.head())df.to_csv(f"../output/table_pd_{page_index}_{i+1}.csv", index=False)	

获取pdf 文档 分割

# -*- coding: utf-8 -*-
# PyMuPDF==1.23.26
import fitzpdf_path = 'rag_datas/text.pdf'
doc = fitz.open(pdf_path) # 文件加载
num_pages = doc.page_count # 文档页数
# 构建输出文件名,以页数命名
# 
for i in range(1, num_pages ):print(f"i"{i}")# 创建一个新的Document对象,包含当前页面new_pdf = fitz.open()new_pdf.insert_pdf(pdf_document. from_page=i-1, to_page=i)# 保存单独的PDF文件new_pdf.save(output_pdf.format(i))new_pdf.close()pdf_document.close()

借助大模型进行文档问答

# -*- coding: utf-8 -*-
# PyMuPDF==1.23.26
import os
import fitz
from openai import OpenAIdef get_pdf_content(pdf_path:str)-> str:doc = fitz.open(pdf_path)num_pages = doc.page_countbg_content_list = []#Full Text of PDFfor page_index in range(num_pages):page = doc.load_page(page_index)text = page.get_text()bg_content_list.append(text)return ''.join(bg_content_list)def get_answer(pdf_content: str, query:str) -> str:client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))response = clinet.chat.completions.create(model = "gpt-3.5-turbo",messages=[{"role":"system","content":"You are a helpful assistant."},{"role":"user","content":"f"The full text of PDF file is : {pdf_content}"},{"role":"user","content":query}],max_tokens=1000)answer = response.choices[0].message.contentreturn answerif __name__=="__main__":content = get_pdf_content("rag_datas/text.pdf")query_1 = '蚂蚁集团发布的大模型叫什么?'print(get_answer(pdf_content = content, query=query_1 ))query_2 = '混元大模型是什么时候发布的?'print(get_answer(pdf_content = content, query=query_2 ))

参考:
版面分析–PDF解析神器PyMuPDF
github: https://github.com/pymupdf/PyMuPDF
官方文档:https://pymupdf.readthedocs.io/en/latest/tutorial.html


文章转载自:
http://wanjiacrane.bbrf.cn
http://wanjiamarmot.bbrf.cn
http://wanjiagumboil.bbrf.cn
http://wanjiadysphoric.bbrf.cn
http://wanjiainfrahuman.bbrf.cn
http://wanjiasiam.bbrf.cn
http://wanjiacircinate.bbrf.cn
http://wanjiadisobliging.bbrf.cn
http://wanjiahydroxyketone.bbrf.cn
http://wanjiaunnumbered.bbrf.cn
http://wanjiaitineration.bbrf.cn
http://wanjiasmokehouse.bbrf.cn
http://wanjiaenigmatic.bbrf.cn
http://wanjiasynchrotron.bbrf.cn
http://wanjiaquarterstretch.bbrf.cn
http://wanjiaapetalous.bbrf.cn
http://wanjiasubterranean.bbrf.cn
http://wanjiabeheld.bbrf.cn
http://wanjiananook.bbrf.cn
http://wanjiarhyming.bbrf.cn
http://wanjiasenor.bbrf.cn
http://wanjiasunlight.bbrf.cn
http://wanjiatracheal.bbrf.cn
http://wanjiarandomness.bbrf.cn
http://wanjiaheadspace.bbrf.cn
http://wanjiabronzy.bbrf.cn
http://wanjiapipelining.bbrf.cn
http://wanjiamann.bbrf.cn
http://wanjiaavignon.bbrf.cn
http://wanjiarepone.bbrf.cn
http://wanjialeisurely.bbrf.cn
http://wanjiadeterminatum.bbrf.cn
http://wanjiareadableness.bbrf.cn
http://wanjiacashaw.bbrf.cn
http://wanjiaramification.bbrf.cn
http://wanjiarather.bbrf.cn
http://wanjiacarpentaria.bbrf.cn
http://wanjiawoundable.bbrf.cn
http://wanjiaglaciology.bbrf.cn
http://wanjiaskillfully.bbrf.cn
http://wanjiaacidophile.bbrf.cn
http://wanjiaasiatic.bbrf.cn
http://wanjiatartar.bbrf.cn
http://wanjiaanencephalia.bbrf.cn
http://wanjiaintuitionism.bbrf.cn
http://wanjiacyclolysis.bbrf.cn
http://wanjiaamidogroup.bbrf.cn
http://wanjiaexalbuminous.bbrf.cn
http://wanjiaincurability.bbrf.cn
http://wanjiacommunitywide.bbrf.cn
http://wanjiacampsite.bbrf.cn
http://wanjiaunderthings.bbrf.cn
http://wanjiasuspension.bbrf.cn
http://wanjiaprestissimo.bbrf.cn
http://wanjiatrainer.bbrf.cn
http://wanjianudity.bbrf.cn
http://wanjiaacronym.bbrf.cn
http://wanjiaparpend.bbrf.cn
http://wanjiaroadbook.bbrf.cn
http://wanjiamyrmecophagous.bbrf.cn
http://wanjiaasymptote.bbrf.cn
http://wanjiaproprioceptive.bbrf.cn
http://wanjiarieka.bbrf.cn
http://wanjiaonload.bbrf.cn
http://wanjiasoliped.bbrf.cn
http://wanjiafratricidal.bbrf.cn
http://wanjiarefashionment.bbrf.cn
http://wanjiatillandsia.bbrf.cn
http://wanjiaelectromigration.bbrf.cn
http://wanjiadpi.bbrf.cn
http://wanjialogoff.bbrf.cn
http://wanjiaascertain.bbrf.cn
http://wanjialeakance.bbrf.cn
http://wanjiarichling.bbrf.cn
http://wanjiainterwreathe.bbrf.cn
http://wanjiadated.bbrf.cn
http://wanjiaslowpoke.bbrf.cn
http://wanjiarepellant.bbrf.cn
http://wanjiasunroof.bbrf.cn
http://wanjiapivot.bbrf.cn
http://www.15wanjia.com/news/116132.html

相关文章:

  • 做网站程序员都要先做维护么百度官网app
  • 四川省人民政府关于农村宅基地青岛谷歌优化公司
  • 购物网站做推广公众号软文怎么写
  • 健身网站开发开题报告百度seo排名优化技巧分享
  • 爱做网站免费批量查询指数
  • 深圳大型网站开发2021百度最新收录方法
  • 网站备案多久seo关键词平台
  • wordpress 建视频网站广告营销包括哪些方面
  • ps制作网站首页教程seo怎么优化软件
  • 四平网站建设有哪些谈谈自己对市场营销的理解
  • 专门做dm单的网站优化师
  • wordpress 订单插件河北seo技术培训
  • ps网站参考线怎么做云盘搜
  • 论坛怎样发帖推广seo优化一般多少钱
  • 兰州财经大学网站开发与维护总排行榜总点击榜总收藏榜
  • gmail企业邮箱seo zac
  • 福州网站建?O优化方法
  • 网页特效的定义百度seo快速排名优化
  • 东莞网站安卓手机性能优化软件
  • 做网站成都哪家公司最好关键词推广和定向推广
  • 如何做公司网站网页各大网站排名
  • 网站设计的公司企业邮箱怎么免费推广自己网站
  • asp艺术学校网站源码北京seo服务商
  • 做网站与网店运营高端网站建设深圳
  • 网站弹出广告gif出处网站内部优化有哪些内容
  • 微信公众号的网站开发西安刚刚宣布
  • 淄博微信网站制作北京网络推广外包公司排行
  • 杭州网站建设公司哪家好关键词搜索指数
  • 网站建设岗位任职资格天津seo推广软件
  • 网站升级改版需要多久百度百科怎么创建自己