当前位置: 首页 > news >正文

wordpress域名展示站内优化网站怎么做

wordpress域名展示,站内优化网站怎么做,哈尔滨网站建设兼职,网站开发php未来发展为了进一步完善代码,增强其文字抓取能力和文件读取能力,我们做以下改进: 增强 DOCX 文档的文本提取:不仅提取段落和文本框内容,还提取表格中的文本。 增强 PDF 文档的文本提取:不仅提取页面文本和注释,还提取表格中的文本。 优化文本清理:确保文本清理更加彻底,避免不…

为了进一步完善代码,增强其文字抓取能力和文件读取能力,我们做以下改进:

增强 DOCX 文档的文本提取:不仅提取段落和文本框内容,还提取表格中的文本。
增强 PDF 文档的文本提取:不仅提取页面文本和注释,还提取表格中的文本。
优化文本清理:确保文本清理更加彻底,避免不必要的空白和标点符号。
增加日志记录:记录更多的处理细节,便于调试和问题排查。
以下是改进后的代码:

python

import os
import json
import fitz  # PyMuPDF
import docx
import re
import tkinter as tk
from tkinter import filedialog, messagebox, simpledialog
import logging# 设置日志记录
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')def clean_text(text):""" 清理文本,去除多余的空白字符和标点符号 """text = re.sub(r'\s+', ' ', text)  # 合并多个空白字符text = re.sub(r'[^\w\s]', '', text)  # 去除标点符号return text.strip()def extract_qa_pairs_from_txt(file_path):with open(file_path, 'r', encoding='utf-8') as f:content = f.read()content = clean_text(content)qa_pairs = extract_qa_pairs_from_content(content)return qa_pairsdef extract_qa_pairs_from_docx(file_path):doc = docx.Document(file_path)content = []for para in doc.paragraphs:content.append(para.text)for table in doc.tables:for row in table.rows:for cell in row.cells:content.append(cell.text)for rel in doc.part.rels.values():if "textBox" in rel.target_ref:text_box = rel.target_partfor element in text_box.element.body:if element.tag.endswith('p')
http://www.15wanjia.com/news/189971.html

相关文章:

  • 网站点击率原因辽宁朝阳网站建设
  • 怎样只做自己的网站天津网站设计公司价格
  • 2015年做哪些网站致富网站优化要用什么软件
  • 两学一做11月答题网站做网站优化推广
  • 模板做的网站如何下载地址云星穹铁道网页版入口
  • 网站建设主要考虑哪些因素网站制造
  • 网页和站点的区别wordpress论坛程序
  • 博物馆网站建设目的注册公司的流程及费用
  • 网站后台管理水印怎么做商城网站备案能通过吗
  • 南通市区有哪几家做网站的免费制作网站用什么做
  • 北京网站制作闪快网站建设企业排名推广
  • 韩国网页设计公司网站新余服装网站建设
  • 重庆网站编辑职业学校品牌宣传策略
  • 南通做网站厉害的企业网站的网址有哪些
  • 房地产类的网站建设广州代理注册公司
  • 做网站前产品经理要了解什么印刷厂网站源码
  • 中国铁路建设投资公司网站页面设计的突出主体原则
  • 网站建设与管理专业好吗server wordpress
  • 爱站网关键词挖掘查询工具安徽网站设计方案
  • 优秀响应式网站苏州在线网站制作
  • 做网站app价格多少钱哪些网站上可以做租车
  • 增城建设局网站新乡网站建设策划
  • 合肥网站开发公司电话嘉兴自助建站软件
  • 扬中市建设局网站有没有哪个网站免费做简历的
  • 建设网站的一般过程园林景观设计公司利润
  • 做机械设备哪个网站好长沙品牌网站设计
  • 网上做分销代销哪个网站好安溪县住房和城乡建设网站
  • 门户网站快速制作做标签网站是什么样的
  • 汉川网站建设wordpress 类似的
  • 织梦同时运行多个网站噼哩噼哩pilipili污染版