首页 » 步在于它如何处理所分析的内容量

步在于它如何处理所分析的内容量

然而,RankBrain 最大的进以创建向量。这似乎比我们在讨论链接图如何工作时始终考虑的经典“链接锚文本和周围文本”更大。

谷歌提交了一项专利,其中引用了一位被称为作者的人工智能专家 Greg Corrado – Thomas Strohmann。

Bill Slavsky 在Gofishdigital.com 的这篇文章中很好地(重新)解释了这项专利,它描述了 Google 可以为难以理解的查询找到可能的含义的过程。

 

在该专利中上下文和“概念”非常重要

RankBrain 使用向量(再次强调,“大量书面语言嵌入数学实体中”)。这可能是因为 土耳其电话号码数据 需要这些向量来理解上下文并检测已知的概念,因此更有可能与它在查询中试图理解的未知概念进行正匹配。

关于 RankBrain 的猜测
正如章节标题所说,我现在进入这篇文章最具推测性的部分。

我之前所写的内容,尽管可以被视为推测,但显然很可能是正确的。现在我要写的内容可能是真的,也可能不是真的,所以请谨慎对待。

DeepMind 和 Google 搜索

2014年,谷歌收购了一家专门从事学习系统的公司,名为DeepMind 。我不禁想到,它的一些技术及其技术的演变被谷歌用来改进其搜索算法——因此有了 RankBrain 的机器学习过程。

去年 6 月在 technologyreview.com 上发表的这篇文章详细说明了缺乏正确 您是否仍需要为并行的移动网站建立链接? 格式的数据库是精确的机器和深度学习过程的最大障碍。没有它,神经计算(机器和深度学习背后的基础)就无法工作。

那么,就语言而言,如果没有上下文,仅仅有“大量的书面语言”是不够的,尤其是如果搜索不使用n-gram以便机器能够理解它。

然而,卡尔·莫里茨·赫尔曼和他的一些 DeepMind 同事在本文中描述了他们如何在经典的“新闻亮点”中寻找独立于主要新闻的那种解释。

请允许我引用《科技评论》的文章来描述他们的经历:

Hermann 和同事通过用通用描述

替换句子中的演员来匿名化数据集。以下是《每日邮报》部分原文示例:“据称遭到杰里米 阿拉伯语数据 ·克拉克森殴打的 BBC 制片人不会对《Top Gear》主持人提出指控,他的律师周五表示。克拉克森主持了全球收视率最高的电视节目之一。周三,英国广播公司对《Top Gear》节目中无端的身体和言语攻击展开内部调查后,克拉克森被 BBC 解雇。”

匿名文本内容如下: ent381 的

制作人不会对“ ent153 ”主持人提出指控,据称是 ent212 所为,他的律师表示,并补充说,主持过全球收视率最高的电视节目之一的 ent212在 ent381 的内部调查后被解雇。他对制作人ent193进行了“无端的身体和言语攻击”。

因此可以将以下用于识别

的完形填空查询“制片人 X 不会对 Jeremy Clarkson 提出指控,他的律师说”转换为“制片人 X 不会对 ent212 提出指控”。

并且所需答案从“Oisin Tymon”更改为“ent212”。

因此,只有通过对故事中实体之间的语法联系和因果关系有一定的理解,才能识别匿名演员。
利用《每日邮报》,赫尔曼能够向 DeepMind 深度学习机器提供大量有用的数据集,从而对其进行训练。经过训练,计算机能够正确回答高达 60% 的问题。

我们或许会想这个比例并不是很大

此外,并非所有网络上的文件都包含《每日邮报》或 CNN 网站的精彩内容。

不过,请让我推测一下:如果没有一个大型的、带注释的数据库,那么搜索索引和知识图谱又是什么呢?谷歌是否可以使用与每日邮报数据库相同的 DeepMind 技术来训练其神经机器学习计算系统?

滚动至顶部