a 当前位置：前瞻网 » 资讯 » 产经

旧报纸不用再封尘了！新算法可从历史文件中搜索并提取信息

分享到：

Emma Chou • 2021-10-19 19:36:29　来源：前瞻网　E17230G0

旧报纸给我们提供了一个了解过去的窗口，纽约州立大学布法罗分校的研究员开发了一种新算法，试图将这些历史文件变成有用的、可搜索的数据。

这种算法可以从光学字符识别（OCR）产生的结果中找到人名并按重要性排序，光学字符识别是将扫描文件转化为文本的计算机化方法，通常比较杂乱。相关算法研究发表在《决策支持系统》上。

当运行光学字符识别软件时，很多时候文本会出现乱码。对于旧报纸、书籍和杂志，问题可能来自于油墨质量差、皱褶或撕裂的纸张，甚至是软件没有想到的不寻常页面布局。

为了开发该算法，研究人员与纽约公共图书馆（NYPL）合作，分析了《纽约太阳报》在1894年11月和12月期间发表的14000多篇文章。纽约公共图书馆已经扫描了20多万页报纸。

研究人员的算法根据一些属性对人名的重要性进行排名，这些属性包括名字的上下文、名字前面的标题、文章的长度以及名字在文章中被提及的频率。该算法仅从文本中学习这些属性——它并不依赖维基百科或其他知识库等外部信息来源。

但由于光学字符识别文本是乱码，它无法确定这些属性对人名的排名有效性多高。因此，研究人员使用统计措施对许多数据属性进行建模，这有助于提供所需的姓名排名。

研究人员使用两组历史文章来测试他们的算法。一套是由光学字符识别软件产生的原始文本，另一套是由纽约市的学童手动清理过的，他们用这些文章来写当时当地著名人物的传记。

结果发现，当与清理过的故事版本相比，即使从嘈杂的光学字符识别文本中，排名算法也能对人名进行高度精确的排序。

研究人员认为，这项研究对发现整个历史上的重要人物有广泛的影响。研究人员还表示，最近在南北战争时期的非裔美国人文献上使用了这种技术，以了解更多关于奴隶制时代的重要人物。今后将扩大这项技术，以检查人与人之间的关系，并建立起过去的社会网络。

题为PNRank: Unsupervised ranking of person name entities from noisy OCR text的相关研究论文发表在《决策支持系统》上。

前瞻经济学人APP资讯组

论文原文：

https://www.sciencedirect.com/science/article/abs/pii/S016792362100172X?via%3Dihub

本文来源前瞻网，转载请注明来源。本文内容仅代表作者个人观点，本站只提供参考并不构成任何投资及应用建议。（若存在内容、版权或其它问题，请联系：service@qianzhan.com）　品牌合作与广告投放请联系：0755-33069875 或 hezuo@qianzhan.com

p42 q0 我要投稿

标签：新算法历史文件

品牌、内容合作请点这里：寻求合作 ››

前瞻经济学人微信二维码

前瞻经济学人

专注于中国各行业市场分析、未来发展趋势等。扫一扫立即关注。

前瞻产业研究院微信二维码

前瞻产业研究院

如何抓准行业的下一个风口？未来5年10年行业趋势如何把握？扫一扫立即关注。

让您成为更懂趋势的人

想看更多前瞻的文章？扫描右侧二维码，还可以获得以下福利：

10000+ 行业干货免费领取
500+ 行业研究员解答你的问题
1000000+ 行业数据任君使用
365+ 每日全球财经大事一手掌握

下载APP
关注微信号

前瞻产业研究院

咨询专线：400-068-7188

扫一扫下载APP

与资深行业研究员/经济学家互动交流让您成为更懂趋势的人

24小时排行周排行

旧报纸不用再封尘了！新算法可从历史文件中搜索并提取信息

前瞻经济学人

前瞻产业研究院

相关阅读RELEVANT

前瞻产业研究院

问答榜单 ＋更多

w上市数据 ＋更多

旧报纸不用再封尘了！新算法可从历史文件中搜索并提取信息

前瞻经济学人

前瞻产业研究院

相关阅读RELEVANT

前瞻产业研究院

问答榜单 ＋更多

w上市数据 ＋更多

问答榜单＋更多

w上市数据＋更多