A前瞻官网
前瞻网
a 当前位置: 前瞻网 » 资讯 » 产经

旧报纸不用再封尘了!新算法可从历史文件中搜索并提取信息

分享到:
 Emma Chou • 2021-10-19 19:36:29 来源:前瞻网 E12782G0
100大行业全景图谱

1

旧报纸给我们提供了一个了解过去的窗口,纽约州立大学布法罗分校的研究员开发了一种新算法,试图将这些历史文件变成有用的、可搜索的数据。

这种算法可以从光学字符识别(OCR)产生的结果中找到人名并按重要性排序,光学字符识别是将扫描文件转化为文本的计算机化方法,通常比较杂乱。相关算法研究发表在《决策支持系统》上。

当运行光学字符识别软件时,很多时候文本会出现乱码。对于旧报纸、书籍和杂志,问题可能来自于油墨质量差、皱褶或撕裂的纸张,甚至是软件没有想到的不寻常页面布局。

为了开发该算法,研究人员与纽约公共图书馆(NYPL)合作,分析了《纽约太阳报》在1894年11月和12月期间发表的14000多篇文章。纽约公共图书馆已经扫描了20多万页报纸。

研究人员的算法根据一些属性对人名的重要性进行排名,这些属性包括名字的上下文、名字前面的标题、文章的长度以及名字在文章中被提及的频率。该算法仅从文本中学习这些属性——它并不依赖维基百科或其他知识库等外部信息来源。

但由于光学字符识别文本是乱码,它无法确定这些属性对人名的排名有效性多高。因此,研究人员使用统计措施对许多数据属性进行建模,这有助于提供所需的姓名排名。

研究人员使用两组历史文章来测试他们的算法。一套是由光学字符识别软件产生的原始文本,另一套是由纽约市的学童手动清理过的,他们用这些文章来写当时当地著名人物的传记。

结果发现,当与清理过的故事版本相比,即使从嘈杂的光学字符识别文本中,排名算法也能对人名进行高度精确的排序。

研究人员认为,这项研究对发现整个历史上的重要人物有广泛的影响。研究人员还表示,最近在南北战争时期的非裔美国人文献上使用了这种技术,以了解更多关于奴隶制时代的重要人物。今后将扩大这项技术,以检查人与人之间的关系,并建立起过去的社会网络。

题为PNRank: Unsupervised ranking of person name entities from noisy OCR text的相关研究论文发表在《决策支持系统》上。

前瞻经济学人APP资讯组

论文原文:

https://www.sciencedirect.com/science/article/abs/pii/S016792362100172X?via%3Dihub

本文来源前瞻网,转载请注明来源。本文内容仅代表作者个人观点,本站只提供参考并不构成任何投资及应用建议。(若存在内容、版权或其它问题,请联系:service@qianzhan.com) 品牌合作与广告投放请联系:0755-33069875 或 hezuo@qianzhan.com

p42 q0 我要投稿

分享:

品牌、内容合作请点这里:寻求合作 ››

前瞻经济学人微信二维码

前瞻经济学人

专注于中国各行业市场分析、未来发展趋势等。扫一扫立即关注。

前瞻产业研究院微信二维码

前瞻产业研究院

如何抓准行业的下一个风口?未来5年10年行业趋势如何把握?扫一扫立即关注。

前瞻经济学人 让您成为更懂趋势的人

想看更多前瞻的文章?扫描右侧二维码,还可以获得以下福利:

  • 10000+ 行业干货 免费领取
  • 500+ 行业研究员 解答你的问题
  • 1000000+ 行业数据 任君使用
  • 365+ 每日全球财经大事 一手掌握
  • 下载APP

  • 关注微信号

前瞻数据库
企查猫
前瞻经济学人App二维码

扫一扫下载APP

与资深行业研究员/经济学家互动交流让您成为更懂趋势的人

下载APP
前瞻经济学人APP

下载前瞻经济学人APP

关注我们
前瞻经济秀人微信号

扫一扫关注我们

我要投稿

×
J