河洛网首页 新闻 关注 房产 汽车 教育 健康 婚庆 家居 旅游

| 人工智能

娱乐 体育 财经 科技 人工智能

文本2图像:一种新的自然语言处理思维

来源:河洛网    发布时间:2019-12-03     发布人:洛阳新闻网

与计算机视觉相比,自然语言处理一直被认为是一个难以解决的问题。本文找到了一种新的自然语言处理方法,探索了自然语言处理和计算机视觉处理的结合,将文本画成图片。虽然目前的精度尚未优化,但看起来很有希望。

问题点

长期以来,至少与计算机视觉相比,自然语言处理一直被认为是一个难以解决的问题。NLP模型需要更长的运行时间,通常更难实现,并且需要更多的计算资源。另一方面,图像识别模型的实现变得更简单,并且对GPU的负担更小。这提醒了我,我们能把文本语料库转换成图像吗?我们能把文本翻译成图像吗?事实证明答案是肯定的,并带来了令人惊讶的结果!我们用这种方法来区分虚假新闻和真实新闻。

文本2图像:一种新的自然语言处理思维

在本文中,我们将详细讨论这种方法、结果、结论和以下改进。

简 介

想法的来源

将文本转换成图像的想法最初是受格雷布·埃斯曼(Gleb Esman)关于欺诈检测的文章的启发。在这种方法中,他们将各种数据点,例如鼠标移动的速度、方向和加速度,转换成彩色图像。然后在这些图像上运行一个图像识别模型,这可以产生非常精确的结果。

数据

所有实验中使用的数据都是乔治·麦金太尔虚假新闻数据集的子集。它包含大约1000篇假的和真的新闻文章:https://github.com/cabhijith/fax-news/blob/master/fax新闻或真的新闻

文本2图像的基本原理

让我们首先从更高的层面讨论文本2图像。基本想法是将文本转换成我们可以绘制的热图。热图识别每个单词的TF-IDF值。词频-逆文档频率(TF-IDF)是一种统计方法,用于确定一个单词相对于文档中其他单词的重要性。在对TF-IDF值进行基本预处理和计算之后,我们使用一些平滑高斯滤波器将它们绘制成对数尺度的热图。一旦绘制了热图,我们使用fast.ai实现了有线电视新闻网,并试图区分真实热图和虚假热图。我们最终达到了71%左右的稳定准确率,这是这种新方法的良好开端。下面是我们方法的一个小流程图:

还不确定?继续往下看。

Text2Image 详述

预处理

数据为小写,所有特殊字符被删除,文本和标题被连接。文档中超过85%的文本也被删除。此外,应该明确避免使用停止词。使用了一个标准的停顿词列表,大部分是没有信息的重复词。特别是,有必要修改假新闻的句子。这是一个值得未来探索的领域,尤其是它能给假新闻带来独特的写作风格。

计算过渡联邦国防军

为了评分和提取关键词,文本2图像由tf-idf的scikit-learn实现。IDF分别计算虚假新闻语料库和真实新闻语料库。与整个语料库的单个IDF分数相比,计算单个IDF分数将导致准确性的显著提高。然后迭代计算每个文档的tf-idf分数。这里,标题和文本不是分开评分,而是一起评分。

计算术语频率

计算以色列国防军

乘以它们得到tf-idf。我们分别迭代每个文档。

处理TF-IDF值

对于每个文档,将提取121个具有最高TF-IDF值的单词。这些字然后被用来创建一个11x11阵列。这里,选择的字数就像一个超级参数。对于更短和更简单的文本,可以使用更少的单词,可以使用更多的单词来表示更长和更复杂的文本。根据经验,11x11是该数据集的理想大小。TF-IDF值按大小降序排列,而不是按它们在文本中的位置进行映射。TF-IDF值以这种方式映射,因为它看起来更能代表文本,并且为模型提供了更丰富的训练特性。因为一个单词可以在一篇文章中出现多次,所以考虑一下第一次出现的单词。

TF-IDF值没有按原样绘制,但所有值都以对数刻度绘制。这样做是为了减少上下值之间的巨大差异。

由于这种差异,大多数热图在绘制时不会显示任何颜色变化。因此,它们以对数标度绘制,以更好地找出差异。

图1(左)显示了按原样绘制的TF-IDF值。图2(右)显示了在对数标度上绘制的相同值

缺点之一是训练模型时过度拟合。这可以归因于缺乏任何数据扩展。目前,这个用例似乎没有可用的数据扩展方法。因此,高斯滤波用于平滑整个数据集上的这些映射。虽然它确实降低了一点准确性,但过度拟合的情况却显著减少了,尤其是在训练的初始阶段。

最终热图

最终的热图尺寸是11x11,用海牛绘制。因为在训练期间,X轴、Y轴和颜色条没有传达任何信息,所以我们删除了它们。使用的热图类型为& ldquo等离子体。因为它显示了理想的颜色变化。尝试不同的颜色组合可能是未来的一个探索领域。下面是最终情节的一个例子。

热图的最终形式

训练我们的模型

该模型使用fast.ai在resnet34上进行训练。鉴定出489篇假新闻文章和511篇真新闻文章。在不增加数据的情况下,训练集和测试集采用标准的80:20分割。所有使用的代码都可以在这里找到:https://git hub . com/cabhijith/text 2 image/blob/master/code . html。

结果

总 结

经过9轮迭代,模型的准确率达到70%以上。虽然这个数据集远非先进,但这种新方法似乎有很大的前景。以下是在培训过程中观察到的一些情况:

这种模式要糟糕得多。增加数据对过度拟合没有影响,这与我们的预期相反。进一步培训或改变学习率没有任何效果。

增大绘图尺寸有助于提高精度,直到尺寸达到11x11,然后增大绘图尺寸会导致精度降低。

在地图上使用一定数量的高斯滤波器有助于提高精度。

下一步计划

目前,我们正在研究词性标注和手套词嵌入的可视化。我们也在考虑修改停止字和改变绘图的大小和颜色模式。我们将继续改进!

[编辑建议]

免责声明:非本网注明“禁止转载”的信息,皆为程序自动获取互联网,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责;如此页面有侵犯到您的权益,请给站长发送邮件,并提供相关证明,站长将在收到邮件24小时内删除。

热门标签

洛阳新闻网 | 新闻 | 关注 | 房产 | 汽车 | 教育 | 健康 | 婚庆 | 家居 | 旅游