Google人工智能背后的人工
编者按:下围棋、玩德州扑克,大家看到的往往是AI风光的一面。殊不知训练AI往往却要靠人工提供独特的数据给它学习。由于最近YouTube爆发了在宣扬暴力的视频旁边放置广告的风波,使得《连线》把目光瞄准了训练AI的一个幕后的临时工群体。而这个群体的处境有可能会对AI的品质造成不好的影响。
每天,在美国各地,那些替Google工作的人都会登录进自己的计算机开始观看YouTube,为的是找出视频里面的暴力。他们从视频标题里找出带有仇恨的语言。他们决定某个视频剪辑应该分类为“攻击性”的还是“敏感性”的。他们是Google所谓的“广告质量评估师”,是由外部代理商雇佣的临时工,作为判断机器还没有办法自行做出判断的弥补措施。现在Google显然迫切需要这些人的帮忙。
YouTube,这个Google旗下的视频巨头,每天都要在网站播放的数百万视频当中穿插广告。自动系统确定这些广告在什么地方出现,广告主往往并不知道自己的广告会出现在哪一个视频的旁边。最近这种不确定性已经给Google惹来了大麻烦。在多份报告披露Google允许在宣传仇恨和恐怖主义的视频边上放置广告之后,该公司已经在接受审查。诸如沃尔玛、百事可乐、Verizon等广告主以及范围更广的Google广告网络已经摒弃了这个平台。
Google极力淡化这次事件,说媒体夸张了攻击性视频旁边放置广告问题的严重性。该公司说:标记视频收到的“印象占比还不到广告商总印象的1/1000”。Google的CBO Philipp Schindler则强调问题仅影响到“非常非常少量”的视频。但广告评估师说公司正在集结他们以防问题变糟。
“我们非常清楚在评估内容的时候,人类的眼睛,还有大脑都需要审慎的思考。”前广告评估师。
由于Google 90%的收入来自广告主,所以它需要防止定向广告到攻击性视频造成更多的损失。但用户每天上传的新视频长达60万小时,这需要一座小型城市规模的人夜以继日的处理才能看完。所以搜索巨头才会强调,开发出可标记日益增多的攻击性视频的人工智能内容过滤器是很难的。Schindler说:“这个问题无法由人来解决,也不应该由人来解决。”
问题是公司仍然要靠人来训练AI。于是Google仍然要依赖一群工人去识别和标记攻击性材料,然后把这些作为AI的训练数据。但据一些广告评估师透露,由于Google跟他们的沟通不畅,再加上这份工作的不稳定性,导致了他们没有办法把工作做好。而这个就会影响到AI识别的精确度。
人类任务
技术公司雇佣内容版主由来已久,随着大家上传和分享的内容越来越多,这项工作对于互联网巨头也变得愈发重要。Google的广告评估师工作可不仅仅是监控视频。他们还要读评论区标记出用户爆粗的言语。要检查Google广告网络服务的各种网站,确保符合公司的质量标准。他们还要按照零售、新闻等目录对网站进分类,并且点击广告链接看看是否有效。同时正如他们的名字所示那样,他们还得对广告本身的质量进行评价。
今年3月,在广告商的抵制下,Google让评估师把其他工作都先放到一边,去执行一个“高优先级的评估项目”。新项目意味着这群评估师几乎所有的精力都要集中在YouTube上面——检查视频内容,或者整个频道,看看有没有一系列可能因此广告主反感的东西。这是一个很大的变化。
而且评估师称,从自己手头的工作量来看,数量和速度的优先级要比准确性更高。在某些情况,这帮人甚至要在2分钟内审核时长数小时的视频。在一个匿名的在线论坛上,评估师相互交流省时的办法——比方说,说唱视频就快速浏览一下歌词看看有没有亵渎的话就行了,或者用10秒钟粗略看看视频剪辑而不是完全看完。会有计时器记录每个视频审查所需的时间,尽管这只是建议的期限,但评估师说这给他们增加了压力。有人担心积压的视频过多会害得自己被炒。
广告评估师的工作不仅仅只是把视频标记为不合适。他们还被要求对视频标题和内容进行细颗粒度的评估——要进行分类,比方说,是否包含“不合适语言”,如“亵渎”、“仇恨发言”或者“其他”等;或者是否属于“暴力”,子类包括“恐怖主义”、“战争和冲突”、“死亡和悲剧”等等。此外还有黄毒方面的分类。系统还为广告评估师提供“其他敏感内容”选项——这在比方说有人分享了极端政治言论的时候可以用得上。(AdAge 最近报道称Google现在允许客户取消在“性暗示”、“轰动、耸人听闻”以及包含“亵渎、粗俗”的内容旁展示广告。)
但广告评估师说,有些内容未必就能找到合适的位置归类。这种情况下,评估师就会把材料标记为“无法归类”。一位现任评估师讲述了自己是如何评估两个讲西班牙语的人进行说唱大战的。“我把材料归类为无法归类是因为他们讲外语。同时我还添加了一段评论,称视频里面的人似乎在用外语相互辱骂,但无法确定他们是否说了脏话。”(一位前评估师说,从最近的招聘判断,Google似乎更青睐懂双语的评估师。当视频语言自己不懂时,评估师还可以勾选某个选项。)
多名广告评估师称自己被要求观看内容令人震惊的视频。有一位评估师说,有人试图发布自杀的视频。有一个人把自己的轿卡点燃,然后把枪对准自己自杀了。在广告评估师频繁访问的一个论坛上,匿名发帖者称自己曾经见过虐待妇女、儿童以及动物的视频。有几个发帖者称,在连续看了好几个类似视频之后,自己被迫休息才能缓过来。广告评估师称自己并不清楚Google是如何给自己挑选需要观看的视频的——在评估前自己只能看到视频的标题和缩略图。此外,评估师经常观看的视频还包括有人讲话的视频游戏、政治类视频,以及阴谋论等。
综合来看,评估视频所需的工作范畴和对微妙之处的把握说明Google仍然需要人的帮助来处理YouTube的广告问题。Google在一份像广告评估师说明评估工作目的的文档中说:“我们有很多信息来源,但你们是我们最重要的来源之一。”但尽管只有机器智能才能处理YouTube的内容规模,就像Google高管和代表反复强调的那样,除非Google的机器已经聪明到能够分辨真正的攻击性言论与其他表达形式的不同,此类努力就仍然需要靠人来帮助完成。
Google发言人Chi Hea Cho说:“我们一直都在靠技术与人工审核的结合来审分析标记内容,因为对视频内容的理解是非常主观的。最近我们增加了更多人手来加速审核。这些审核帮助训练我们的算法,让它们能不断改善。”
人力资源
据两个消息来源透露,Google的广告质量评估师计划始于2004年。计划参照了Google的搜索质量评估计划,一开始主要服务于Google核心的广告活动:根据搜索结果产生相应广告的AdWords,以及通过Google把广告放置到网站上的AdSense。原先的广告评估师招聘代理ABE给他们的时薪是20美元。一位前评估师说,他们可以全职工作甚至加班工作。2006年,在评估师称工作条件变得不那么令人满意之后,WorkForceLogic收购了ABE。然后到了2012年,一家名为ZeroChaos 的公司收购了WorkForceLogic,前者就变成了跟评估师签合同的甲方至今。
广告评估工作往往能吸引喜欢工作条件更灵活的人,比如刚刚进入工作的大学毕业生,接近退休年龄的工人,家庭主妇,以及身体有残障的个人。只要能满足每周10小时的最低工作要求,广告评估师可以随时随地开展工作。评估师只需要有自己的桌面计算机和移动设备就能开始工作。
但这项工作天生的不稳定会对许多工人造成伤害。一位广告评估师说,我们当中大部分的人都喜欢这份工作,但不会有机会成为永久性的全职员工。
尽管Google广告评估师合同工大部分都是跟ZeroChaos签署的合同,但代理的机构并不只有这一家。ZeroChaos的合同是1年1签,而且直到最近他们的规矩还是连续工作2年后就不再聘用。一些工人认为这一限制导致Google无法找到最适合这份工作的有经验的评估师。(不过在4月初的时候ZeroChaos通知广告评估师称这一规定已经取消)。广告评估师的薪酬也没有得到提高——他们的时薪是15美元,一周最多可以工作29小时,但是并不能保证有足够任务达到这一阈值。工人称自己突然就会被解雇,既没有事先警告或者给出理由——有多位员工证实了这一点,甚至其中一位才工作了一周。公司会用一封敷衍了事的电子邮件通知工人被辞退。
Cho说:“在提供好的的工作条件方面,Google致力于跟有着良好履历的供应商合作。一旦问题引起我们的注意,我们就会提醒这些供应商关注员工诉求,要求双方协作来解决问题。我们会进一步关注此事。”
跟Google缺乏清晰的沟通本身也放大了广告评估师对就业的不安全感。他们从来都没有见过自己服务的那些人,包括在面试过程期间,他们唯一的联络方式就是一个名为“广告评估管理团队”的邮件地址,Google告诉评估师只有遇到任务相关问题时才能使用。评估师发送邮件给对方时,只会收到自动回复。对此Google回应称:“鉴于接收到的报告规模,管理者并不会对个别问题作出响应:相反,我们监控收到的报告以尽快侦测出系统范围内的问题。如果你需要单独回应,或者采取特殊行动,请联络你的合同管理员。”
一位前广告评估师说:“山景城那一头的人就像是幕布背后的巫师。我们非常想像真正的同事那样跟他们沟通,但结果却没有。”
至于Google,搜索巨头的确告诉评估师说他们做的工作很重要,即便并没有说清楚重要的原因是什么。
公司在一份培训材料中解释说:“我们未必能告诉你每一项任务是干什么用的,但肯定都是我们认为重要的东西。你不会经常听到自己工作的成果是什么。实际上,有时候你的工作看起来就像流进黑洞一样……尽管你未必总能看到自己工作的影响,但你的工作是重要的,而且Google有很多人在非常非常仔细地进行审核。”
这种仔细有时候甚至到了令一些工人感到不舒服的程度。Google会将一些已经过审核的内容混进分配给广告评估师的任务当中来考察他们的表现。Google给广告评估师的一封邮件中写道:“这些测试以正常的任务出现,你会像正常工作一样收到这些题目。但是我们不会告诉哪些是测试题目……我们会利用考试分数来评估你的表现。得分很低的话可能会导致分配给你的任务终止。”
把已经知道答案的问题嵌入进来是众包调研的一桩常见做法。这种策略往往用来确定调研人员是不是随便乱点东西,往往被玩笑为从业者的图灵测试。
但Georgia Tech AI的研究人员Mark Riedl不认同这种做法:“众包工人不应该被视为是机器,相反我们需要认识到众包工人是人,对于这些人我们有着伦理道德方面的责任,在设计任务的时候应该意识到他们的尊严。”
当然,对于部分同事提出的这些问题,并不是所有的广告评估师都吹毛求疵。15美元的时薪仍然高于大多数城市的最小工资。一位广告评估师仍然对ZeroChaos提供的机会表示感谢:“甚至连麦当劳都拒绝我的情况下ZeroChaos却不关心我有没有犯罪背景。”多位评估师说在拿到这份工作前自己已经接近无家可归或者需要领食物救济券的地步。
但也有人说这种灵活性往往最终对他们并不有利,即便他们需要依赖这份工作。可以在家工作并且选择自己的工作时间算是一种特殊待遇。但据一份ZeroChaos FAQ,广告评估师被禁止同时为其他公司工作。一位前广告评估师说因为这项禁令自己无法同时打两份工,所以现在她每周也就比失业的时候多拿40美元。这样是撑不下去的。
人机连接
技术界的大公司往往都会雇用临时工参与到训练AI系统的重复性任务。一位广告评估师提到自己几年前曾经替微软评估Bing的搜索结果,这种工作的强度很大,每小时大概要审查多达80页的搜索结果。LinkedIn和Facebook也雇用人来执行类似的工作,LinkedIn主要是做数据注释,而Facebook则是评估粉丝页面的“赞助帖子”。
临时工作的不安全感以及普遍的人员流动性令新老员工感到不安,这些人认为Google正失去在这份工作上花费时间更多的老员工才具备的系统知识。一位前广告评估师表示:“他们把钱浪费在了培训新人上面然后又把人撵出大门。”
但是广告评估师的人员流失也许正好反映出让AI变得更聪明的最佳实践。人工智能研究人员和行业专家说,输入数据的人类培训师的定期轮换对于训练AI更好。AI初创企业Nara Logics的CEO Jana Eggers说:“AI需要许多看法,尤其是在类似攻击性内容方面。”尽管最高法院并未就什么是猥亵做出描述,但是“当我看到时就能做出判断”这种极限值测定依然有效。“给机器更多观察的眼睛有望得到更好的结果。”
但尽管AI研究人员通常同意人低落的士气未必就会导致糟糕的机器学习,但也许会产生源自其工作环境和体验的,更为微妙的影响。康奈尔大学AI教授Bart Selman说:“经常有观点认为获取大量不同输入是训练AI模型的好办法。这个作为一般指南来说是好的,但在道德判断上,众所周知,大多数群体都存在着根深蒂固的严重偏见。” Selman举例说,比如大家的普遍看法是男性在特定类型的工作方面要优于女性,反之亦然。“那么,如果你基于普通组观点或者过去的招聘决定来训练AI招聘模型,你就会得到代表一般人群观念的隐藏偏见。”而如果结果表明你主要靠一群焦虑的临时工的认知来训练AI的话,他们最终可能会把自己独特的偏见带进那些系统里面。
Selman说:“你不会想通过让AI伦理模块观察普通人群日常所为来训练这种AI。你应该从那些更加审慎地考虑了潜在偏见以及道德问题的人那里获取输入才对。”
在山景城的Google人享受着别致的园区,免费的美食,以及撞球、桌上足球等娱乐手段。这些跟典型的广告评估师得到的待遇实在是差得太远。现在替全球最有价值的公司工作可以意味着奢侈的福利以及丰厚的工资。也可以意味着作为临时工机械地执行那些重复性的任务,好训练公司的机器执行相同的工作。
更多硅谷一线采访,请收听您在硅谷的特派记者徐涛带来的《硅谷早知道》,让您把握趋势发现未来。关注请点击链接( http://36kr.com/goods/10002),或扫描以下二维码。