A前瞻官网
前瞻网
a 当前位置: 前瞻网 » 资讯 » 产经

食谱、维基百科、自动生成西英混合语……AI研究人员为获得数据也是拼了

分享到:
 Emma Chou • 2018-11-12 15:45:45 来源:前瞻网 E1759G0
100大行业全景图谱

前瞻经济学人

数据是推动人工智能发展的燃料,它为我们提供了许多我们认为理所当然的进步:YouTube字幕,Spotify音乐推荐,以及在互联网上跟踪你的令人毛骨悚然的广告。

但是,在收集有用数据时,AI专家通常必须具有创造性。采用自然语言处理(NLP),这是人工智能的一个子领域,专注于教授计算机如何解析人类语言。在NLP实证方法年会上,专家们提出了一系列广泛的研究,这些研究以一些巧妙的方式收集了信息。我们总结了以下四个最有趣的方式。

西英混合语

在今年关于多语言NLP的论文中,微软提出了一个专注于处理“代码混合语言”的文本或语音,它们在两种语言之间流畅地切换。考虑到世界上一半以上的人口都是多语言的,这个未充分研究的领域很重要。

研究人员从西英混合语(Spanglish,混有西班牙语的英语)开始,但他们缺乏足够的西英混合语文本来训练机器。与多语言对话中的代码混合一样常见,它很少在文本中找到。为了克服这一挑战,研究人员编写了一个程序,将英语放入微软必应翻译器中,并将一些翻自西班牙语的短语重新编入原始文本。该程序确保转换的单词和短语具有相同的含义。就这样,他们能够根据需要创建尽可能多的西英混合语。

由此产生的NLP模型优于之前仅使用西班牙语和英语进行训练的模型。研究人员希望他们的工作最终能够帮助开发以混合代码语言自然发声的多语言聊天机器人。

食谱

食谱不止是适合制作食物,到了研究人员的手里,它们也可以为机器提供营养。它们都遵循类似的逐步模式,通常包括与文本相对应的图片 - 这是教学机器同时理解文本和图像的结构化数据的极好来源。这就是为什么土耳其哈斯特帕大学的研究人员编制了一个大约20,000个插图烹饪食谱的巨大数据集。他们希望它将成为一种新的资源,用于对联合图像文本理解的性能进行基准测试。

他们所谓的“RecipeQA”将建立在之前的研究基础上,该研究分别侧重于机器阅读理解和视觉理解。在前者中,机器必须理解问题和相关段落才能找到答案;在后者中,它会在相关照片中搜索答案。并排显示文本和照片会增加任务的复杂性,因为照片和文本可能共享互补或冗余的信息。

短句

谷歌希望AI能够为你的散文润色。为此,其研究人员创建了有史以来最大的数据集,用于将长句子分解为具有相同含义的较小句子。那么,你会在哪里找到大量的编辑数据?当然非维基百科莫属。

根据维基百科丰富的编辑历史,研究团队提取了人们分割长句的实例。结果:与此前任务的基准数据集中找到的词汇分割示例相比,语句分割示例多60倍,词汇量多90倍。该数据集还涵盖多种语言。

当他们在新数据上训练机器学习模型时,它的准确率达到了91%。 (这里,百分比反映了在重写后保留其含义和语法正确性的句子的比例。)相比之下,对先前数据训练的模型仅达到32%的准确度。当他们将两个数据集合并训练另一个模型时,它达到了95%的准确度。研究人员得出结论,未来的改进可以通过寻找更多的数据来源来实现。

社交媒体偏见

研究表明,我们生成的语言可以很好地预测我们的种族、性别和年龄,即使这些信息从未明确说过。考虑到这一点,以色列巴伊兰大学和艾伦人工智能研究所的研究人员尝试通过删除那些嵌入式指标来使用AI来消除文本偏差。

为了获得可以代表不同人口统计数据的语言模式的足够数据,他们转向Twitter。他们从用户那里收集了大量推文,这些推文均匀分布在非西班牙裔白人和非西班牙裔黑人之间;男女之间;以及18-34岁及35岁以上年龄段的人群之间。

然后,他们使用对抗方法,将两个神经网络相互对抗,看看他们是否可以自动删除推文中固有的人口统计指标。一个神经网络试图预测人口统计数据,而另一个试图将文本调整为完全中立,目标是将第一个模型的预测准确度降低到50%(或几率)。该方法最终显著减轻了种族、性别和年龄指标,但并非完全缓解。

本文来源前瞻网,转载请注明来源。本文内容仅代表作者个人观点,本站只提供参考并不构成任何投资及应用建议。(若存在内容、版权或其它问题,请联系:service@qianzhan.com) 品牌合作与广告投放请联系:0755-33069875 或 hezuo@qianzhan.com

p44 q0 我要投稿

分享:
标签: AI 数据

品牌、内容合作请点这里:寻求合作 ››

前瞻经济学人微信二维码

前瞻经济学人

专注于中国各行业市场分析、未来发展趋势等。扫一扫立即关注。

前瞻产业研究院微信二维码

前瞻产业研究院

如何抓准行业的下一个风口?未来5年10年行业趋势如何把握?扫一扫立即关注。

前瞻经济学人 让您成为更懂趋势的人

想看更多前瞻的文章?扫描右侧二维码,还可以获得以下福利:

  • 10000+ 行业干货 免费领取
  • 500+ 行业研究员 解答你的问题
  • 1000000+ 行业数据 任君使用
  • 365+ 每日全球财经大事 一手掌握
  • 下载APP

  • 关注微信号

前瞻数据库
企查猫
前瞻经济学人App二维码

扫一扫下载APP

与资深行业研究员/经济学家互动交流让您成为更懂趋势的人

下载APP
前瞻经济学人APP

下载前瞻经济学人APP

关注我们
前瞻经济秀人微信号

扫一扫关注我们

我要投稿

×
J