当前位置: 首页 > news >正文

建筑网站大全免费无货源网店进货app

建筑网站大全免费,无货源网店进货app,做网站需要学那几个软件,昆明企业网站设计0x00 背景 文档中敏感信息识别。不限于word, pdf 等文件格式中的敏感信息及其中的图片敏感信息识别。 0x01 识别原理 以word文档为例 .docx文件有很多种结构,这些结构在python-docx中用3种不同的类型来表示:最高一层是Document对象表示文档&#xff0…

0x00 背景

文档中敏感信息识别。不限于word, pdf 等文件格式中的敏感信息及其中的图片敏感信息识别。

0x01 识别原理

以word文档为例

.docx文件有很多种结构,这些结构在python-docx中用3种不同的类型来表示:最高一层是Document对象表示文档,每个Document对象包含一个Paragraph 对象也就是段落组成的列表,而每个Paragraph对象则包含一个Run对象的列表

一个Run对象是具有相同格式的文本,当发生变化的时候就需要一个新的Run对象

个人觉得读取全部文档信息,然后用正则匹配效率比较高。

word 或 pdf 里面有图片的情况,涉及到数字图像处理技术。(图片里的敏感信息)

0x02 实现

用到一个库 python-docx

#!pip install python-docx - -userimport docx
import osprint(os.getcwd())
file = docx.Document("test.docx")
''' # test.docx  #经测试,还得是个docx文档,doc不行
Test数据匹配数据TestTest 敏感信息
'''
print("打印文件行数:" + str(len(file.paragraphs)))
print("打印第1行: " + file.paragraphs[0].text)
print("打印第1行长度: " + str(len(file.paragraphs[0].runs)))
print("打印第3行长度: " + str(len(file.paragraphs[2].runs)))
print("打印第5行长度: " + str(len(file.paragraphs[4].runs)))
print("打印第7行长度: " + str(len(file.paragraphs[6].runs)))  # 空格注意for i in range(2):print(file.paragraphs[0].runs[i].text)  # 只有len 2print("----------")for i in range(3):print(file.paragraphs[6].runs[i].text)  # 只有len 3/4print("----------")# 看样子是根据大小写等样式来区分段落的def getText(fileName):doc = docx.Document(fileName)TextList = []for paragraph in doc.paragraphs:TextList.append(paragraph.text)return '\n'.join(TextList)fileName = r'test.docx'
print(getText(fileName))

test.docx 内容如下:

Test数据匹配数据TestTest 敏感信息

我在不同的电脑打印每一行长度有些不同,不清楚是否跟word版本以及word

版本内置的字体有关。而且只支持docx,暂不支持doc。

打印结果如下:

打印文件行数:7
打印第1行: Test 数据
打印第1行长度: 2
打印第3行长度: 1
打印第5行长度: 1
打印第7行长度: 3
Test 
数据
----------
T
est 
敏感信息
----------
Test数据匹配数据TestTest 敏感信息

而在专业版word上执行结果是 :

打印第1行长度: 2
打印第3行长度: 1
打印第5行长度: 2
打印第7行长度: 4

细节问题暂没时间深究,猜测和系统默认字体有关,理由是在pycharm打开docx文档默认字体不同,一个是英文字体,一个是等线字体。

0x03 reference

【数据安全】一文读懂数据内容识别核心技术 – 绿盟科技技术博客

了解基于确切数据匹配的敏感信息类型 | Microsoft Learn   -- 微软EDM敏感信息识别

python使用docx模块读写docx文件的方法与docx模块常用方法_docx.document_癫疯时刻的博客-CSDN博客

用Python读写Word文档入门-腾讯云开发者社区-腾讯云

python解析并读取PDF文件:函数总结_pypdf读取章节内容_满腹的小不甘的博客-CSDN博客

0x04 后记

python 识别pdf 中敏感信息见 reference 里的链接。python 识别pdf 推荐 pdfminer3k 或 pdfplumber 两个库。

由于时间关系本文写的略简洁,,敏感图片识别也没有介绍到,后续如果有时间会继续修改完善本文。

http://www.15wanjia.com/news/168427.html

相关文章:

  • 全国建设造价信息网站鲜花网站建设结构布局
  • 做两个阿里网站适合在家做的电商
  • 如何开发一个视频网站网页打不开什么原因
  • 加强网站内容建设创新pop布局的网站
  • 摄影作品网站风景南康建设局官方网站
  • 美观网站建设哪家好wordpress 树形分类
  • 了解c2c电商网站的特点网页设计师需要学什么课程
  • 网站建设代码走查潍坊百度网站快速排名
  • 做目录右内容网站广东省建设网站
  • 电子商务网站应该如何建设江苏城乡住房建设部网站
  • 广西新农村建设工作专题网站网络工程师 招聘
  • 网站建设及维护徐州网站建设 徐州网站推广
  • 管理网站建设哪家公司好黄冈商城网站建设哪家好
  • 文字网站建设淘宝无货源一键铺货软件
  • 小程序代码做网站Wordpress税表
  • 企业网站建设成本费用中山网站建设方案托管
  • 常用的网站打不开深圳市造价信息网
  • 深圳微信商城网站设计公司湖南还没有建网站的企业
  • 深圳都信建设监理有限公司网站长沙企业网站制作服务报价
  • 网站开发需要哪些人才新媒体营销课程个人总结
  • 河南省示范校建设专题网站北京工商网站
  • 做原创视频网站广告营销策略有哪些
  • 网站建设制作网络营销公司徐州网站建设xzqjwl
  • 汽车网站页面设计手游传奇代理一个版本多少钱
  • 网站的页脚天津网站推广优化
  • 公司建设网站怎么做账dw免费网站模板
  • 如何制作网站免费建站如何做网站卖商品的网站
  • 电子商务网站是什么做网站的开题报告
  • 孝感市建设局网站哪个网站是专门做招商的平台
  • 大兴区网站建设公司嘉华伊美网站建设