A前瞻官网
前瞻网
a 当前位置: 前瞻网 » 资讯 » 产经

纽约时报借助谷歌云数字化500万+老照片 留住悠悠旧时光

分享到:
 olivia chan • 2018-11-13 10:10:14 来源:前瞻网 E1874G1
100大行业全景图谱

前瞻经济学人

(photo:Geogle Cloud)

谷歌云已经与《纽约时报》合作,帮助《纽约时报》数字化他们庞大的照片收藏。它利用了谷歌云平台内的众多工具,这个平台允许它们安全地存储图像,为它们提供更好的查找照片界面,甚至可以从锁定在图像背景的数据中发现新的见解。

100多年来,《纽约时报》已经在数百个文件柜中存档了大约500万到700万张旧照片,这些文件柜位于时报广场办公室附近的地下三层,被称为“太平间”。很多照片都保存在文件夹里,很多年没动过。尽管卡片目录提供了存档内容的概述,但是索引形式并不能讲述照片中的许多细节。

前瞻经济学人

保存视觉的历史

资料室里的照片最早可以追溯到19世纪晚期,其中很多内容都具有巨大的历史价值——有些是世界上独一无二的。2015年,一根断裂的水管淹没了档案库,使整个馆藏面临风险。幸运的是,只造成了轻微的损害,但这一事件提出了一个问题:该公司最宝贵的一些实物资产如何能安全存储?

《纽约时报》首席技术官Nick Rockwell表示:“资料室是一个收藏了一批易腐烂文件的宝库,它们不仅是时报历史的无价编年史,也是塑造我们现代世界的近一个多世纪全球事件的无价编年史。”

不仅仅是照片的图像包含了有价值的信息。在许多情况下,照片的背面包括拍摄时间和地点也存在巨大的价值。洛克威尔补充道:“多年来,摄影部门和商业部门的工作人员一直在探索将太平间照片数字化的可能途径。但就在去年,数字化档案的想法似乎还遥不可及。

为了保存这段无价的历史,也为了赋予《纽约时报》以更直观的叙事方式和历史背景来增强报道能力,《纽约时报》将其档案数字化,使用云存储来存储资料室里所有照片的高分辨率扫描。

云存储是我们用于存储对象的持久耐用的系统,它为像《纽约时报》一样的客户提供自动化生命周期管理,存储在地理位置不同的地区,以及易于使用的管理界面和应用程序界面(API)。

创建资产管理系统

仅仅存储高分辨率图像还不足以创建一个照片编辑器可以轻松使用的系统。工作资产管理系统必须允许用户能够轻松地浏览和搜索照片。《纽约时报》建立了一个用于处理存储和处理照片的通道,并将使用云技术处理和识别图像中的文本、笔迹和其他细节。

下面是它的工作原理。一旦图像被提取到云存储中,《纽约时报》就会使用Cloud Pub/Sub启动处理通道,以完成多项任务。 通过在Google Kubernetes Engine(GKE)上运行的服务调整图像大小,图像的元数据存储在运行在Cloud SQL(谷歌的全托管数据库产品)上的PostgreSQL数据库中。

Cloud Pub/Sub帮助《纽约时报》创建了自己的处理通道,而无需构建复杂的API或业务处理系统。这是一个完全托管的解决方案,因此无需花费时间维护底层基础设施。

为了调整图像大小和修改图像元数据,《纽约时报》使用了开源命令行程序“ImageMagick”和“ExifTool”。他们在Docker映像中添加了ImageMagick、exiftool及Go服务,以便在GKE上以横向可扩展的方式运行,从而可以最小化管理工作量。添加更多的容量来处理更多的映像非常简单,而且当不需要服务时,《纽约时报》可以停止或启动它的Kubernetes集群。这些图像还存储在云存储多区域存储桶中,以便在多个区域可供使用。

该档案的最后一部分是在图像及其元数据通过《纽约时报》系统时进行跟踪。Cloud SQL 是一个很好的选择。对于他们的开发人员来说,Cloud SQL 提供了一个标准的PostgreSQL实例——作为一个完全托管的服务,无需安装新版本、应用安全补丁或设置复杂的复制配置。Cloud SQL 为工程师使用标准SQL解决方案提供了一种简单易行的方法。

机器学习获得更多的见解

存储图像只是这项工作的一部分。为了使像《纽约时报》这样的资料室更易于访问和使用,利用额外的GCP特性是有益的。就《纽约时报》而言,扫描其照片档案的一个更大挑战是添加有关图片内容的数据。云视觉API(Cloud Vision API)可以帮助填补这一空白。

让我们来看看这张来自《纽约时报》的宾夕法尼亚火车站的照片。在这里,我们向你展示了照片的正面和背面:

前瞻经济学人

这是一张美丽的黑白照片,但没有额外的背景,从照片的正面看不清楚它包含的详细信息。但照片的背面包含了大量有用的信息,而云视觉 API可以帮助我们处理、存储和读取它。当我们将图像的背面提交给API而不进行额外处理时,我们可以看到云视觉API检测到以下文本:

   1985年11月27日

  1992年7月28日

  1942年,时钟悬挂在宾夕法尼亚车站主厅入口上方,右边是车站的外部景象,1963年车站被拆毁。

  发表在纽约

  《纽约时报》——1942年宾夕法尼亚车站拥挤不堪,那个时代“只有勇敢的人才会乘飞机”——前往华盛顿、迈阿密和各种各样的车站。

  宾夕法尼亚车站过去的美好时光| 一位牛子的怀旧之旅

  ( OCT 3194

  RAPR 20072

  照片由《纽约时报》拍摄,1942年在纽约大学校园里,观众涌入宾夕法尼亚火车站。

这是我们的云视觉 API的实际输出,不需要额外的图像预处理。当然,数字文本的转录并不完美,但它比处理数百万张图像的替代品更快、更经济。

 将过去照进未来

对于拥有实体档案的公司来说,这只是一个开始。他们可以使用视觉 API来识别对象、地点和图像。例如,如果我们通过云视觉API检测上面的黑白照片,我们可以看到宾夕法尼亚州站被识别。此外,还可以使用AutoML来更好地识别集合中的图像,这些图像使用的是一组已标注的图像。

云自然语言API可用于向已识别的文本添加额外的语义信息。例如,如果我们把文本“《纽约时报》——1942年宾夕法尼亚车站拥挤不堪,那个时代“只有勇敢的人才会乘飞机”——前往华盛顿、迈阿密和各种各样的车站。”通过云自然语言API,它正确地将“宾夕法尼亚车站”、“华盛顿”和“迈阿密”定义为地点,并将整个句子分类为“旅行”和“巴士 & 火车”。

帮助《纽约时报》数字化其照片档案,完全符合谷歌组织世界信息、使其普遍可用和有用的使命。我们希望通过分享我们所做的事情,可以激励更多的组织(不仅仅是出版商)关注云,以及像云视觉API、云存储、Cloud Pub/Sub和Cloud SQL这样的工具,来保存和分享它们丰富的历史。

本文来源前瞻网,转载请注明来源。本文内容仅代表作者个人观点,本站只提供参考并不构成任何投资及应用建议。(若存在内容、版权或其它问题,请联系:service@qianzhan.com) 品牌合作与广告投放请联系:0755-33069875 或 hezuo@qianzhan.com

p50 q1 我要投稿

分享:

品牌、内容合作请点这里:寻求合作 ››

前瞻经济学人微信二维码

前瞻经济学人

专注于中国各行业市场分析、未来发展趋势等。扫一扫立即关注。

前瞻产业研究院微信二维码

前瞻产业研究院

如何抓准行业的下一个风口?未来5年10年行业趋势如何把握?扫一扫立即关注。

前瞻经济学人 让您成为更懂趋势的人

想看更多前瞻的文章?扫描右侧二维码,还可以获得以下福利:

  • 10000+ 行业干货 免费领取
  • 500+ 行业研究员 解答你的问题
  • 1000000+ 行业数据 任君使用
  • 365+ 每日全球财经大事 一手掌握
  • 下载APP

  • 关注微信号

前瞻数据库
企查猫
前瞻经济学人App二维码

扫一扫下载APP

与资深行业研究员/经济学家互动交流让您成为更懂趋势的人

下载APP
前瞻经济学人APP

下载前瞻经济学人APP

关注我们
前瞻经济秀人微信号

扫一扫关注我们

我要投稿

×
J