当前位置: 首页 > news >正文

亚马逊商城官方网站百度客服人工服务电话

亚马逊商城官方网站,百度客服人工服务电话,wordpress如何建站,聊城做wap网站服务大多数科学知识通常以可移植文档格式(PDF)的形式存储,这也是互联网上第二突出的数据格式。然而,从这种格式中提取信息或将其转换为机器可读的文本具有挑战性,尤其是在涉及数学表达式时。 为了解决这个问题&#xff0c…

大多数科学知识通常以可移植文档格式(PDF)的形式存储,这也是互联网上第二突出的数据格式。然而,从这种格式中提取信息或将其转换为机器可读的文本具有挑战性,尤其是在涉及数学表达式时。

为了解决这个问题,以前的研究提出了光学字符识别(OCR),这是一种检测和分类图像中单个字符和单词的有效技术,通过将科学文献视为图像来处理科学文献,但它们无法捕捉句子之间的关系逐行处理句子。

在一篇新论文《Nougat:学术文献的神经光学理解》中,Meta AI研究团队提出了学术文献的神经光学理解(Nougat),这是一种视觉转换器模型,可以有效地将PDF格式存储的科学文献转换为轻量级标记语言,甚至涉及密集的数学方程式。

2023-09-02T03:24:28.png

该团队将他们的主要贡献总结如下:

1、发布能够将PDF转换为轻量级标记语言的预训练模型。我们在 GitHub 上发布代码和模型。

2、我们引入了一个管道来创建数据集,用于将 PDF 与源代码配对。

3、我们的方法仅依赖于页面的图像,允许访问扫描的纸张和书籍。

2023-09-02T03:25:03.png

拟建的Nougat以Donut建筑为基础。Swin-Transformer编码器将文档图像作为输入,并输出一系列潜在嵌入。接下来,通过具有自回归方式的交叉关注的变换器解码器架构,将编码图像解码为令牌序列。最后,输出被投影到词汇表的大小。

值得注意的是,研究人员利用视觉文档理解的最新进展来完成新的OCR任务,但与以前的方法相反,Nougat不需要依赖OCR或嵌入式文本表示,只需要光栅化的文档页面。

2023-09-02T03:25:20.png

在他们的实证研究中,该团队将Nougat与基线模型GROBID进行了比较,Nougat在所有指标中都达到了最高性能,包括编辑距离,BLEU,METEOR和F-measure。

总体而言,这项工作表明,Nougat不仅具有从数字出生的PDF中提取文本的巨大潜力,而且可以处理扫描的纸张和教科书。该团队希望他们的工作可以作为未来相关领域更多研究的起点。

该代码可在项目的GitHub上找到。

论文Nougat:arXiv学术文献的神经光学理解。

http://www.15wanjia.com/news/33305.html

相关文章:

  • 城建设委官方网站杭州seo外包服务
  • 住房城乡建设网站官网入口seo任务平台
  • 兰州市住房保障和城乡建设局网站淘宝推广公司
  • wap网站怎么打开自己怎么开网站
  • 个人网站建设费用百度推广电话是多少
  • 适合个人网站的名称惠州百度seo哪家好
  • 做网站白云区详细描述如何进行搜索引擎的优化
  • 晓风彩票网站建设软件淮北网络推广
  • 网站开发公司哪里济南兴田德润实惠吗真正永久免费的建站系统有哪些
  • 烟台专业网站建设公司长沙专业seo优化公司
  • 电脑在哪里制作网站360建网站
  • wordpress外贸网站建设无人在线观看高清视频单曲直播
  • 宝鸡网站建设优化怎样在百度上打广告
  • 做卡盟开端网站要多少钱百度免费安装下载
  • 商城型网站开发网站建设安徽网络优化公司
  • 网站建设找伟杨科技宁波seo整站优化
  • wordpress安装说明上海还能推seo吗
  • 给私人企业做网站推广seo网络排名优化
  • 高端定制品牌无锡网站制作优化
  • 十堰网站制作网站建设优化400报价
  • 软件开发的五个基本步骤惠州seo关键词排名
  • 常用的网页开发工具有哪些夫唯seo培训
  • 共青城网站建设公司软文推广
  • 永川网站建设免费做网站网站的软件
  • 溧水建设局网站广告推销
  • 做财经比较好的网站有哪些广州竞价托管代运营
  • 政府门户网站建设规划书武汉seo网站优化排名
  • 企业网站开发流程漯河seo公司
  • 沈阳建网站 哪家好网站建设营销型
  • 深圳做营销网站建设下载百度2023最新版安装