搜索引擎如何规避不恰当联想词？

发布日期：2019-09-11 作者：点击：

搜索引擎，可以通过联想词使得人们在使用时更加的便利，但是与此同时，也带来了一些麻烦。人类有固有的思维盲区，让他们在设计算法和流程的时候，实在是难以预料用户会出现什么样的不当使用行为，导致什么奇葩的结果。

株洲网站建设

有媒体报道，通过搜索引擎，可以找到一些“相约自杀”的QQ群、微信群等，成为有些年轻人自杀的诱因。搜索引擎方面自然对这种联想词功能的问题责无旁贷，然而媒体和公众花样翻新的测试，总是让产品设计者防不胜防。

为了让我们更方便的使用搜索，联想词是必然要加入的一项功能。而对人们的意图进行联想和预测，也是未来人工智能语音助手变得更好用的基础前提。但是，人类固有的思维盲区，让他们在设计算法和流程的时候，实在是难以预料用户会出现什么样的不当使用行为，导致什么奇葩的结果。

往往只有在媒体曝光，公众关注以后，他们才能知道运算的结果如何，然而此时，错误已经铸成。

一、为您推荐

年轻人在网上相约自杀的行为，中外都有。在中国，主要的网络平台载体就是QQ群、微信群等地。几天前《法制晚报》报道，又有三名青年通过QQ群“相约自杀”成功。

看到孩子遗体的父亲在悲恸欲绝之余，还质问网络平台说：

“聊了那么久，网站看不到吗？网络平台没有审核么？不承担任何一丁点的责任么？”

不管事实上看不看得到，从公司主观层面，腾讯当然都要说看不到用户的聊天记录。这一点可能不会遭遇什么异议，你当然也不希望自己在群里刚说了一句话，五分钟后就有警车呼啸而至什么的吧。

不过，在《法制晚报》的报道中，记者在百度上搜索“自杀群”关键字，就能非常容易地找到很多QQ群的号码。公开展示的信息，和私密的群聊是两码事。

报道称：结果页面不仅有聊天记录截屏。相关新闻报道，而且每次点击结果后，都会通过联想词自动“为您推荐”一些关键字，包括“约死微信群2018、 2018 相约死亡群、 2018 想死扣扣群”等。

笔者小时候曾经帮不太懂电脑的同学和家长找过资料，时常被询问“为什么我这么半天搜不出来，你一搜就有了”，这实在三言两语很难讲清楚。

但是，很显然百度的这些关键词联想功能，给了一些可能不太熟悉搜索引擎语法的用户机会，让他们可以获得更精准的结果。

二、防不胜防

记者向百度反映之后，百度已经修正了相关检索结果。现在你再搜索“自杀群”时，就不再显示带有具体群号码的讨论，基本上看到的都是相关事件的新闻，持续十几二十几页都是这样。

而且，让航通社感受颇深的是，跟“相约自杀”有关的搜索结果清理工作，在今天（ 6 月 26 日）持续一整天都在不断进行。

今天上午，航通社测试在百度贴吧搜索框当中打“相约自杀”，并选择“全吧搜索”，还会发现带着QQ群号码的一些帖子；“相约烧炭”“烧碳”等一些变种也有帖子存在。但到了下午 4 点左右再测试，这些页面刷新之后基本都被清理了。

然而，媒体曝光的问题修改起来总是容易的。进一步操作的话就会发现，还有一些“高危”的短句搜索结果未作处理。

在贴吧搜索“相约烧炭”，旁边的“大家都在搜”提示了“烧炭多久可致人死亡”、“车里烧碳”、“烧碳如何确保必死”、“ 2017 有烧碳死的吗”这些短语。

株洲网站建设

笔者相信它们的形成机制，和报纸记者测试出现的“约死微信群2018”等是一样的，机器不太可能无中生有地造出这些排列组合。每一个关键字的后面，很大程度上都可能有不止一个真人亲自打出过这些词。

只要简单想想，就令人后背发麻。

三、是不是有专门的员工盯着

在知乎，有关于百度的三个“经典问题”：

“百度作了哪些恶？”
“为什么有人说百度以一己之力全面降低了中国互联网体验？”
“为什么老师说‘百度搜索不是什么正经的东西’？”

在这些问题下的数千个回答中，有些提到的现象现在再看，已经无法重现。而有时在某个回答成为热门之后很短时间，其中提到的不妥当的搜索结果就会被清理。

笔者一度怀疑，有专门的百度员工盯着这些“招黑”的帖子和媒体报道。不过有自称的百度员工回帖说，一般他们都是路过看到，顺手贴进内网论坛，也通过这一渠道报了很多Case。

实际上，面对一部分搜索结果的Bug（特别是和盈利不明显挂钩的问题），百度并不是毫无作为，同时也乐于将一些搜索结果的改善大举宣传，作为企业履行社会责任的一部分表现。

具体到“自杀”问题，百度和国内其他搜索引擎，均已和国内相关的心理干预机构建立了合作关系。在一些比较容易想到的词语，比如说：“自杀”，“我想自杀”这类关键词结果页，都会出现求助热线电话号码，以及求助方式，基础知识等等。

株洲网站建设

至少有一部分人选择自杀时，并不是经过深思熟虑的，只是一时间想不开。与此同时，他又没有接触过关于自杀的一些基础知识，包括死亡的代价，寻死的疼痛，无法挽回和来不及后悔的具体含义。

也许，如果他们有机会了解到相关的知识，那么他可能就会被吓到，或者被劝阻，从而重新认真的思考自己这一决策是否合理。

但是，这个关键字提醒功能，并未涵盖“自杀群”、“相约自杀”等词，也没有覆盖所有的“死法”，比如：“上吊”、“跳楼”有，但“烧炭”、“安眠药”没有。

这很显然与百度的分词策略有很大关系，“自杀”关键字的相关页面无疑是人工干预的结果，而产品经理头脑风暴以后想不到的一些词，就只会由系统自动展开联想。

具体到“自杀群”这个词，因为在近一两天产生了大量新闻和转载，全国转载媒体达到几十家，所以这可以组成一个自动的新闻专题。我相信记者写稿时看到的结果页肯定不是这个样子，但是已经没有办法去查证了。

株洲网站建设

当“自杀群”关键词被系统认为是新闻热点的时候，在页面右侧的推荐结果当中，就会提示“相关人物”——最近有什么名人自杀了，以及其中包含的“知名演员”。

虽然看不到具体的QQ群号，但是显示的是有多少名人和自己一样，也选择了自我了断，这可能对有自杀念头的人来说，并不是一个非常正面的激励。

此外，也有网友指出，百度虽然对“自杀”实施了干预，但对造成后果同样很严重的“自残”却没有干预。现在（ 6 月 26 日下午 4 点）搜索“自残”，第二条结果是有人问“为什么自残会觉得很舒服”。

株洲网站建设

四、盲区如何形成

如此看来，搜索引擎联想词惹出的麻烦，恐怕不能靠产品设计上事先根治，多数情况下是发现一个整改一个，跟打地鼠一样。是什么导致了这样的结果呢？

首先，与“自杀”相关的这一系列词语，可以说在整个搜索处理流程中，并没有达到一个极端重要的优先级，换句话说就是还没有成为“敏感词”。

因为如果将“自杀”也设置为不可触碰的最高等级词语，你会发现自己连发消息，甚至发谐音字火星文代替都很困难。如果很多人自杀念头只是一闪念，看这么麻烦，也许就偃旗息鼓了。然而，这样做会很大程度上影响我们的日常交流，给人们带来的不便，已经超出了封禁可能带来的好处。

但更重要的是：我们寻求结果的过程，从事后来看可以说是非常简单，但是事前想要从零开始去想，那就非常困难。

这就像我们去阅读一篇构思精巧的侦探小说一样。没有经验的读者，不知道这种小说会有什么样的套路，面对谜题的时候会是一头雾水的。但是当最后真相终于揭晓的那一刻，我们再把它还原回去，就会感觉一切线索原来都预先设置好了，草蛇灰线的埋伏都是在情理之中的。

那么，为什么我们这么笨，就没有想到呢？

其实不是我们笨，而是一些我们日常可能思维形成的惯性或者定势，对我们造成了误导。

小时候，老师用一个“棉花糖实验”，教给我们做事要忍耐，要有毅力，抵御诱惑的道理。好像在有些地方，也被误传为“棒棒糖实验”什么的。实验内容是给一些孩子们每人一块棉花糖，如果他们忍住 15 分钟不吃掉糖，就能再吃一块。当然，马上就吃也没关系，但是不会有奖励。

大多数小孩都忍不住吃掉了，或者搞小动作吃了一点点，自以为没被发现，最后能坚持 15 分钟没吃糖的孩子只有一小部分。然后呢，这一小部分孩子长大后果然坚毅勇敢有耐心，走上人生巅峰。

然而，《大西洋月刊》杂志最新刊登的一篇文章介绍了纽约大学和加州大学一项共同研究的结果，让人大跌眼镜——这项原本进行于 1990 年的“棉花糖实验”的结论可能有误。

确实有少数孩子比其他孩子更能坚持 15 分钟，以拿到双份的棉花糖，但这并不是因为他们更有毅力——而是因为他们家境较好，小时候就能经常吃到好东西，所以并不认为棉花糖是一个稀罕物。

我读到之后既震惊又奇怪，为什么之前我只是被动的接受了老师指定的结论，或者是“标准答案”？为什么我都没想到从另外的角度去看，或者怀疑它？

我想，对于百度的工程师和产品经理们来说，他们显然也不是全知全能的。说到给关键字添加温馨提示，他们只能是想到“自杀”，以及“我要自杀”、“我想自杀”，沿着这样的路径去联想。

他们不可能想到，“自杀”后面还可以跟着“QQ群”，或者是“相约”，或者是细致入微地采用自然语言询问怎么自杀最快且不痛苦。

五、人人都是义务测试员

历史上，搜索引擎因联想功能而受到的抨击，简直是举不胜举。

2009 年 6 月，国家有关部门批评谷歌中国存在“大量淫秽色情和低俗信息”，使“大量境外互联网上的淫秽色情信息通过该网站传播到我国境内”。

在《焦点访谈》节目中，有关部门演示了谷歌网站联想词搜索存在提示黄色信息的问题。例如：在谷歌中国中输入“儿子”，下面却出现了例如“儿子母亲不正当关系”等十几个选项。

事件成为谷歌宣布退出中国业务运营的直接导火索，此后有网友指出，在报道播出前几天，相关词汇的搜索量异常骤增，导致该词汇成为热门关键字，因此可以进入联想词列表的前列。

直到现在，谷歌、Facebook、Twitter等网络平台所遭遇的跟关键词、自动联想推荐功能有关的无妄之灾，也依然是层出不穷。
2016 年 12 月，在谷歌搜索框输入“犹太人是”时，会显示“犹太人是邪恶的”联想词。
2017 年 11 月，在YouTube搜索“how to have”时，会显示“how to have s*x with your kids”（如何与你的孩子发生*关系，原文就有*号）。