步在于它如何处理所分析的内容量

然而，RankBrain 最大的进以创建向量。这似乎比我们在讨论链接图如何工作时始终考虑的经典“链接锚文本和周围文本”更大。

谷歌提交了一项专利，其中引用了一位被称为作者的人工智能专家 Greg Corrado – Thomas Strohmann。

Bill Slavsky 在Gofishdigital.com 的这篇文章中很好地（重新）解释了这项专利，它描述了 Google 可以为难以理解的查询找到可能的含义的过程。

在该专利中上下文和“概念”非常重要

RankBrain 使用向量（再次强调，“大量书面语言嵌入数学实体中”）。这可能是因为土耳其电话号码数据需要这些向量来理解上下文并检测已知的概念，因此更有可能与它在查询中试图理解的未知概念进行正匹配。

关于 RankBrain 的猜测
正如章节标题所说，我现在进入这篇文章最具推测性的部分。

我之前所写的内容，尽管可以被视为推测，但显然很可能是正确的。现在我要写的内容可能是真的，也可能不是真的，所以请谨慎对待。

DeepMind 和 Google 搜索

2014年，谷歌收购了一家专门从事学习系统的公司，名为DeepMind 。我不禁想到，它的一些技术及其技术的演变被谷歌用来改进其搜索算法——因此有了 RankBrain 的机器学习过程。

去年 6 月在 technologyreview.com 上发表的这篇文章详细说明了缺乏正确您是否仍需要为并行的移动网站建立链接？格式的数据库是精确的机器和深度学习过程的最大障碍。没有它，神经计算（机器和深度学习背后的基础）就无法工作。

那么，就语言而言，如果没有上下文，仅仅有“大量的书面语言”是不够的，尤其是如果搜索不使用n-gram以便机器能够理解它。

然而，卡尔·莫里茨·赫尔曼和他的一些 DeepMind 同事在本文中描述了他们如何在经典的“新闻亮点”中寻找独立于主要新闻的那种解释。

请允许我引用《科技评论》的文章来描述他们的经历：

Hermann 和同事通过用通用描述

替换句子中的演员来匿名化数据集。以下是《每日邮报》部分原文示例：“据称遭到杰里米阿拉伯语数据 ·克拉克森殴打的 BBC 制片人不会对《Top Gear》主持人提出指控，他的律师周五表示。克拉克森主持了全球收视率最高的电视节目之一。周三，英国广播公司对《Top Gear》节目中无端的身体和言语攻击展开内部调查后，克拉克森被 BBC 解雇。”

匿名文本内容如下： ent381 的

制作人不会对“ ent153 ”主持人提出指控，据称是 ent212 所为，他的律师表示，并补充说，主持过全球收视率最高的电视节目之一的 ent212在 ent381 的内部调查后被解雇。他对制作人ent193进行了“无端的身体和言语攻击”。

因此可以将以下用于识别

的完形填空查询“制片人 X 不会对 Jeremy Clarkson 提出指控，他的律师说”转换为“制片人 X 不会对 ent212 提出指控”。

并且所需答案从“Oisin Tymon”更改为“ent212”。

因此，只有通过对故事中实体之间的语法联系和因果关系有一定的理解，才能识别匿名演员。
利用《每日邮报》，赫尔曼能够向 DeepMind 深度学习机器提供大量有用的数据集，从而对其进行训练。经过训练，计算机能够正确回答高达 60% 的问题。

我们或许会想这个比例并不是很大

此外，并非所有网络上的文件都包含《每日邮报》或 CNN 网站的精彩内容。

不过，请让我推测一下：如果没有一个大型的、带注释的数据库，那么搜索索引和知识图谱又是什么呢？谷歌是否可以使用与每日邮报数据库相同的 DeepMind 技术来训练其神经机器学习计算系统？

在该专利中上下文和“概念”非常重要

DeepMind 和 Google 搜索

Hermann 和同事通过用通用描述

因此可以将以下用于识别

我们或许会想这个比例并不是很大

Related Posts