河洛网首页 新闻 关注 房产 汽车 教育 健康 婚庆 家居 旅游

| 人工智能

娱乐 体育 财经 科技 人工智能

跳出“题海战术”,让模型学会像人一样思考

来源:河洛网    发布时间:2021-05-03     发布人:洛阳新闻网

近日,阿里安全天筭实验室安全专家参考斯诺与复旦大学自然语言处理小组( Fudan NLP )魏忠钰教授合作的学术论文《基于样本学习的个性化Hashtag推荐》在中国计算机学会推荐b类期刊《中文信息学报》上发表。

跳出“题海战术”,让模型学会像人一样思考

《中文信息学报》创刊于1986年,作为国内计算机、计算技术类83种中文期刊评价的15种核心期刊之一,及时反映了我国中文信息处理的先进水平。 数据显示,《中文信息学报》每年在各相关子方向上招聘文章平均10篇左右,代表了我国最新中文信息处理的进展和学术动向。

一、快速学习( “ 题海战术” 到“ 触类旁通” 当你在社交媒体上发布内容时,在发布#时,社交媒体会向你推荐合适的Hashtag (话题词),将内容划分到合适的话题下,从而便于对社交媒体的内容进行分类和管理。

为什么要在Hashtag推荐算法中引入小样本学习算法? 复旦大学自然语言处理小组的曾兰君向我们介绍如下。 举个例子,现有的Hashtag推荐算法一般使用分类框架制作。 使用属于100个类别的社交媒体文本来训练模型,之后进行推荐时,模型也只能将推荐的文本分为这100个类别。 如果没有重新训练,模型将无法处理看不见训练的散列标签。

但是,Hashtag会随着时事热点迅速更新。 课题组在社交媒体写#的时候,会根据社交媒体文本的历史特点和目前输入的文本内容,推测所需的Hashtag,推荐合适的Hashtag。

为了解决这个问题,论文提出了将Hashtag推荐任务建模为小样本学习任务。 同时,降低建议的复杂性,以适合用户使用Hashtag的喜好。 通过互联网公共许可的API获取的数据集上的实验表明,该模型与目前的优化方法相比,不仅能获得更好的推荐结果,而且更具鲁棒性(即稳定性高)。

典型的模型在识别某个类别时,需要非常多的数据来正确识别类别。 这种依赖数据学习的认识就像通过题海战术提高试题效率的高考机械,但缺乏有效的推理逻辑。 对人类来说,即使是孩子,只要告诉他看到的照片是什么,他马上就会知道这个类别。

样本学习就是希望机器有这样的能力,在看到只有少量样本的类别后,通过数据学习列举1比3,就有了识别该类别的能力。 这可以根据用户的历史特征、以前学习的经验和现在少量的样本,快速识别这个新类别,从而提高识别的效率。

将来,样本学习将会应用于更多的领域。 在防范诈骗风险的措施中,诈骗方法的识别对于诈骗风险的形势感知和诈骗规制至关重要。 另一方面,新的诈骗方法层出不穷,新方法的样本积累往往不足以训练的识别模型,在积累了少数样本的情况下,如何正确识别新方法也是个问题。 对这个小样本学习进行研究的工作计划进入欺诈手法识别的场景。

二、知识驱动( “ 填鸭式接受” 到“ 主动推理” 除了样本学习领域外,魏忠钰教授和阿里天筭安全实验室还在欺诈因素识别领域进行了合作。 魏忠钰教授表示,该项目希望针对众多用户的诈骗投诉文本,通过举报文本来判定诈骗要素是否得到满足,从而判定诈骗事实是否成立。

项目的创新之处在于,以前的模型识别是由数据驱动的。现在,模型可以在识别文本要素后主动推理,通过数据学习和知识推理的双驱动,可以更有效地防范风险。

该项目与业务场景有很高的关联性,但由于团队中没有法律专家,在前期诈骗文本的书写和识别方面存在困难,只能通过信息检索系统和相关文献的调查,设计初步的文本书写框架。

阿里在合作中引入司法团队,提供比较专业的欺诈识别框架设计,使标签体系的建立更符合业务场景,在此框架上,校方团队还将进行数据标注、模型自动化识别等算法设计完成模型。 阿里早期提供的框架基础相当于在业务上实际指导了研究小组,最终取得了超出双方预期的效果。

目前,团队对诈骗因素的识别准确率超过85%,主要识别举报者是否诈骗汇款、受益人是否有非法侵占目的等诈骗司法审判的重要证据。 研究小组目前诈骗投诉样本的要素标注达到4万件,通过诈骗要素识别模型的判断引导用户自主弥补漏洞,加强用户在举报过程中的体验感和主观能动性。 在这个过程中用户举报完成率相对提高了10%,被举报的信息质量提高了8%。 诈骗定性准确率稳定增加,防范诈骗的防控效率也有所提高。

课题组的研究成果表明,在识别用户举证文本欺诈证据要素的基础上,进一步通过数据+知识推理实现智能答辩审理,模型根据用户举证和大数据信息输出可向用户解释的更强有力的审理逻辑链和结果。

与传统的依赖数据学习的欺诈识别算法相比,此次与蚂蚁的合作创新性地将人类的知识、经验、规则输入到了欺诈识别算法体系中,模型提出了基于推理的智能判断。 相信课题组的这项技术创新对更好地保障用户的资金安全,提高整个行业的风控水平也起到了重要的作用。

魏忠钰教授表示,这种新的校企合作模式,不仅带来了团队研究所需的应用落地场景,还相互补充了阿里的实际业务经验和团队在算法上的创新,成为今后科研项目运营的好榜样。 在期待与阿里今后更长期的合作的同时,该研究也将在许多场合得到应用,以期向用户推荐更准确的信息内容。

【编辑推荐】

人工智能祝福,风筝增加智能代码完成功能:操作减半,实时完成 人工智能祝福,风筝增加智能代码完成功能:操作减半,实时完成 代码完成工具凯特最近更新了最新版本,增加了一个名为“智能片段”的新功能。这个函数可以帮助开发人员更加智能和高效地完

超级写作人工智能甚至学会了象棋和写作。语言模型的跨界操作引起了激烈的讨论和网络战争 本文经人工智能新媒体qubit(公开号:QbitAI)授权转载。请联系来源以便重印。 超级写作人工智能甚至学会了象棋和写作。语言模型的跨界操作引起了激烈的讨论和网络战争 文本生成模型还能做什么?

违规企业可处以销售额6%的罚款。 欧盟打算加强对人工智能技术的监管据外国媒体报道,欧洲委员会近日宣布,如果有企业违反欧盟规则使用被禁止的人工智能应用程序,将可能面临相当于全球销售额最大6%的罚款,这个数字将超过此前建议的4%。 违规企业可处以销

Deepfake这次没有改变容貌,直接改变了城市本文经AI新媒体量子位(公众号ID:QbitAI )授权转载。 转载请联系出处。 Deepfake这次没有改变容貌,直接改变了城市 两张rdquo; 北京市的卫星地图,其实只有一张是真的。 能分辨出来吗? 其中一张是

微软的人工智能语音技术支持“多情感程度”的调节,细腻地演绎“人声”ITHome(IT之家) 4月12日的新闻近日,微软发布了最新的语音技术,支持rdquo; 可以轻松调节,更精细地控制智能语音的情感表现力。 微软的人工智能语音技术支持“多情感程度”的调节,细腻地演绎

免责声明:非本网注明“禁止转载”的信息,皆为程序自动获取互联网,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责;如此页面有侵犯到您的权益,请给站长发送邮件,并提供相关证明,站长将在收到邮件24小时内删除。

热门标签

洛阳新闻网 | 新闻 | 关注 | 房产 | 汽车 | 教育 | 健康 | 婚庆 | 家居 | 旅游