谷歌将其称为知识增强语言模型
为了将维基数据知识图谱转换为合成自然句子,我们开发了一个名为“来自知识图谱生成器的文本”(TEKGEN)的语言化管道,它由以下组件组成:启发式对齐的维基百科文本和维基数据知识图谱三元组的大型训练语料库,一个文本到文本生成器(T5),用于将 KG 三元组转换为文本,一个实体子图创建器,用于生成要一起语言表达的三元组组,最后是一个后处理过滤器,用于删除低质量输出。 结果是一个包含整个维基数据知识库作为自然文本的语料库,谷歌将其称为知识增强语言模型(KELM)语料库。它由约 1800 万个句子组成,涵盖约 4500 万个三元组和约 1500 个关系。 KELM 如何减少 电报数据 偏差并提高事实准确性 KG Verbalization 是一种将 KG 与自然语言模型相结合的有效方法。 为了评估搜索结果准确性的影响,Google 研究人员尝试使用 KELM 语料库(语言三元组)来扩充包含维基百科文本的 REALM 语料库。 他们在两个流行的开放域问答数据集上测量每种数据增强技术的准确性:自然问题和网络问题。 仅通过连接三元组来增强 REALM 就可以提高准确性。然而,使用语言三元组也可以实现 KG 数据的顺利整合,这已被准确性的提高所证实。
https://zh-cn.baleads.com/wp-content/uploads/2024/04/电报数据.png
KELM 在减少偏差和提高搜索准确性方面的影响 谷歌进行了广泛的研究,其中一些似乎是探索性的,但其他方面似乎毫无成果。很可能不会被纳入谷歌算法的研究结论通常表明,有必要进行额外的研究,因为相关技术在任何特定方面都没有达到预期。 然而,KELM 和 TEKGEN 研究的情况并非如此。事实上,这篇文章对这一发现的实际应用潜力持乐观态度。这似乎增加了 KELM 最终以某种身份出现在搜索中的可能性。
頁:
[1]