为什么聊天机器人仍然让我们感到寒冷
结果是,聊天机器人仍然非常不满意。
Facebook和微软以及一些合作机构的研究人员上周公布了一项名为“第二次会话智能挑战”的正式文章,这是12月在蒙特利尔举行的NeurIPS人工智能会议期间举行的聊天机器人之间的竞赛。
虽然比赛发现一些更好的和一些更糟糕的聊天机器人程序,但总的来说,这些计算机的对话质量与你在网上聊天机器人的任何互动一样缺乏。
来自获胜的实例 - 让我们强调他们是获胜者 - 神经网络方法包括如此恼人的蠢事作为陈述序列中的不一致。例如,竞争中的顶级团队Lost in Conversation在一个关于他们都喜欢什么的随意谈话中聘请了一个人与机器人。机器说出了“我喜欢画画”这句话。当人类回应“太棒了!你喜欢画什么?” 机器不会对绘画有所反应,而是“我喜欢画出我喜欢的汽车的肖像”。(让我们称之为双重错误:不仅绘画不是绘画,人们通常不绘制或绘制无生命物体的“肖像”。)
其他烦恼包括在同一话语中无意识地重复短语,例如“你有没有宠物吗?你有宠物吗?” 来自第二名的球队Hugging Face。热闹的例子包括自相矛盾。计算机上写着“刚读完一本书”,一个人问道:“哪本书?” 计算机回答“我读的不多,我更喜欢阅读。”
研究人员写道,也许表明了令人厌恶的聊天机器人,通过在Facebook的Messenger应用程序上进行交谈而自愿测试这些东西的人,大多数人最终调出机器人或进行“毫无意义”甚至“冒犯”的对话。那些“在野外”的免费评估是如此混乱,他们不得不从机器人的评估中完全消除。
另一组人员获得了在亚马逊机械土耳其众包平台上测试机器的报酬。他们通常更加勤勉地坚持这项任务,毫不奇怪,因为他们得到了报酬。
作者看着土耳其志愿者给予机器的评级,他们指出,即使是像Lost in Translation and Hugging Face这样表现最好的神经网络也“遭受了重复,一致性或有时'无聊'的错误。” 另一个缺陷是机器“问了太多问题。”
“当模型提出太多问题时,”作者写道,“它可以使谈话变得脱节,特别是如果问题与之前的谈话无关。”
他们指出,顶级竞争对手的神经网络“经常在几次对话中无法自我控制”。“即使他们偶尔发生这些问题,这些问题对于一个人类说话的伙伴来说也会特别刺耳。” 人工智能还“提出已经回答的问题。一个模特问'你做什么工作?' 即使人类早先说“我在电脑上工作”导致人们回答“我只是告诉你傻”。
论文“第二次会话智力挑战(ConvAI2)”由Facebook AI Research的Emily Dinan,Alexander Miller,Kurt Shuster,Jack Urbanek,Douwe Kiela,Arthur Szlam,Ryan Lowe,Joelle Pineau和Jason Weston撰写,同时来自莫斯科物理科学与技术学院的Varvara Logacheva,Valentin Malykh和Mikhail Burtsev; 蒙特利尔大学的尤利安塞尔班; Shrimai Prabhumoye,Alan W Black和Carnegie Mellon的Alexander Rudnicky; 和微软的杰森威廉姆斯。该论文发布在arXiv预打印服务器上。
聊天机器人的缺陷来自于尽管事实上研究人员在2017年相对于之前的竞争对手在团队竞争的培训和测试框架方面做了很多改进。
这一次,作者提供了一套基准的会话数据,一年前由Dinan,Urbanek,Szlam,Kiela和Weston以及蒙特利尔Mila机器学习研究所的Saizheng Zhang发布。这个名为“Persona-Chat”的数据集包含16,064个人类发言人的话语实例,要求他们在Mechanical Turk上互相聊天。另外一组1000多个人类话语作为神经网络的测试集保密。该数据集已提供给所有竞争研究人员,但并非所有人都使用过它。
帮助众包Persona-Chat的每个人都被赋予了“他们应该是谁”的形象 - 喜欢滑雪的人,或者最近有猫的人 - 以便人类对话者发挥作用。两个发言者中的每一个都试图在他们进行对话时保持他们的话语与该角色一致。同样,可以在训练期间将配置文件提供给神经网络,因此坚持个性是竞争的嵌入式挑战之一。
正如作者描述的挑战,“任务旨在模拟两个对话者第一次见面时的正常对话,并相互了解。
“这项任务在技术上具有挑战性,因为它涉及提问和回答问题,以及保持一致的角色。”
不同的团队使用了各种方法,但特别受欢迎的是“变形金刚”,这是对典型的“长期短期记忆”的修改,或由Google的Ashish Vaswani及其同事在2017年开发的 LSTM神经网络。
那么为什么所有糟糕的结果呢?
回顾这些缺点,很明显一些问题是机器在测试时试图提高分数的机械方式。对于表示轮廓或角色的神经网络,机器似乎试图通过重复句子来产生最佳分数,而不是创建真正引人入胜的句子。“我们经常观察模型几乎逐字逐句地重复人物句,”他们写道,“这可能会导致高人格检测分数但是低接合度分数。
“训练模型使用角色创建引人入胜的反应而不是简单地复制它仍然是一个悬而未决的问题。”
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
试驾极狐阿尔法S(ARCFOX αS)是一次令人印象深刻的体验。从咨询开始,品牌的专业客服迅速回应了我的疑问,...浏览全文>>
-
如果您想预约哈弗猛龙的试驾体验,可以按照以下步骤快速在4S店完成预约:首先,您可以通过哈弗汽车的官方网站...浏览全文>>
-
如果您想体验零跑汽车的试驾服务,可以通过以下步骤在4S店快速预约:首先,访问零跑汽车的官方网站或通过其官...浏览全文>>
-
试驾奔驰迈巴赫S级的预约流程简单清晰,以下是具体步骤:首先,访问奔驰官方网站或联系当地授权经销商。在网站...浏览全文>>
-
纳米01试驾流程通常包括以下几个步骤:第一步:预约试驾用户可以通过品牌官网、4S店或电话预约试驾。提前预约...浏览全文>>
-
奔腾B70是一款集时尚设计与卓越性能于一身的中型轿车,近期有幸对其进行了一次深度试驾。这款车型不仅外观大气...浏览全文>>
-
想要快速预约福特蒙迪欧的试驾体验驾驶乐趣?以下是一些简单步骤帮助您轻松完成:首先,访问福特官网或通过福...浏览全文>>
-
大众试驾,轻松搞定试驾想要深入了解一款车的性能与驾驶感受?试驾是最佳选择!无论是追求操控感的运动型轿车...浏览全文>>
-
试驾现代胜达时,您需要满足一些基本条件以确保安全和顺利的体验。首先,您必须持有有效的驾驶证,并且驾龄通...浏览全文>>
-
小鹏G7是一款备受关注的智能电动车,对于新手来说,试驾前需要了解一些关键步骤和注意事项,确保安全且充分体...浏览全文>>
- 哈弗猛龙预约试驾,如何在4S店快速预约?
- 零跑汽车试驾,如何在4S店快速预约?
- 江淮iEV7试驾预约预约流程
- 试驾MG4 EV全攻略
- 奥迪SQ5 Sportback预约试驾,线上+线下操作指南
- 全顺试驾预约,一键搞定,开启豪华驾驶之旅
- 魏牌预约试驾全攻略
- 试驾零跑汽车零跑C01,畅享豪华驾乘,体验卓越性能
- 试驾哈弗H6操作指南
- 零跑T03试驾,畅享豪华驾乘,体验卓越性能
- 菱势汽车预约试驾,轻松搞定试驾流程
- MINI试驾,线上+线下操作指南
- 试驾沃尔沃XC60,从预约到试驾的完美旅程
- 试驾QQ多米,畅享豪华驾乘,体验卓越性能
- 试驾丰田汉兰达,一键搞定,开启豪华驾驶之旅
- 力帆预约试驾,一键搞定,开启豪华驾驶之旅
- 阿维塔12预约试驾,4S店体验全攻略
- 试驾江铃E路顺V6,简单几步,开启完美试驾之旅
- 灵悉L试驾预约,如何享受4S店的专业服务?
- 极氪7X试驾,如何享受4S店的专业服务?