大数据杀熟仍未绝迹,工程师:公开“黑盒”算法几乎不可能!

文章正文
发布时间:2024-09-10 17:38

图源:东方IC

30秒快读

1.你被“大数据杀熟”了吗?

2.近日,上海规范电商平台营销活动算法剑指“大数据杀熟”。

3.《IT时报》记者测试发现,跟两三年前相比,大数据杀熟的现象已经没有那么猖獗,但在电商、生鲜电商等平台上,差异化定价的现象仍存在,几位算法工程师透露了行业“不能说的秘密”。

“电视里放着关于故宫的纪录片,打开手机电商App首页就被推送大量文创类商品。”喜欢看历史节目的云云(化名)说道。“手机‘偷听’+算法推荐”似乎已经成为网民们见怪不怪的平常事,“比你自己更了解你”的各种互联网应用在消费端变幻出五花八门的玩法,只为满足你的所谓“需求”。

近日,上海制定发布的《上海市网络交易平台网络营销活动算法应用指引(试行)》(以下简称《指引》)提出了多种存在风险的网络营销活动算法应用方式,包含了数据处理、参数设置、消费者画像、差别待遇、信息推送或商业营销等。

同时,《指引》也提出了相关合规管理建议,其中“鼓励平台经营者通过公开算法原理、目的意图、决策规则、可能产生的影响等信息,提供算法应用结果解释等方式提升公众对算法应用的理解”值得关注。

01 价格“私人定制”

“大数据杀熟”一词进入大众的视野可以追溯到2018年,成为当时年度社会生活类十大流行语之一。

“大数据杀熟”的主要表现形式在于“不同人不同价”。北京市消协曾发布的“大数据杀熟”问题调查结果显示,88.32%的被调查者认为“大数据杀熟”现象普遍或很普遍,没有被调查者认为“大数据杀熟”现象不存在。此外,还有56.92%的被调查者表示有过被“大数据杀熟”的经历,而网购平台、在线旅游、网约车类移动客户端或网站是“重灾区”。

图源:北京市消协

《IT时报》记者在黑猫投诉平台输入“大数据杀熟”,一共出现了1882条投诉信息,排在前10条的几乎都和2021年“双11”有关。“本人在某商城领取优惠券购买商品最终价格1349元,而用另一个不常用的账号领取相同优惠券,最终价格1249元。主号和不常用的号最终价格相差100元”;“原价3.8元的坐垫,从购物平台的签到频道进去购买,同一个店铺的同一款商品变成5.8元”。

比起价格上的显性差异,有些“大数据杀熟”则是潜移默化的。“因为‘大数据杀熟’,所以我一直不买某自营生鲜平台的会员。”嘉嘉(化名)告诉记者,“正因为我不是会员,所以经常可以收到平台给我发放的大额优惠券,比如‘99减50’‘199减100’等。而我的同事办了会员之后就收不到这类优惠券了,大多是会员每月领取的‘79减5’‘109减7’之类。不过,由于我使用次数增多,现在这种大额优惠券也很少收到了。”

中南财经政法大学数字经济研究院执行院长、教授盘和林在接受记者采访时指出:“‘大数据杀熟’是互联网平台收集特定用户的信息,对用户进行画像。比如如果你经常买奶粉,系统就给你贴上一个‘妈妈’的标签;如果你经常买贵的奶粉,系统就给你贴上一个‘购买力强’的标签;如果算法判定你的价格敏感度低,算法就推送较高的报价,从而抬高产品售价。这里的关键是精准性,也就是‘大数据杀熟’必须是算法针对个人做出的精准报价,其前提是算法通过个人用户的数据收集而完成对个人用户的定位。”

对此,《IT时报》记者测试同时在某网购平台搜索“儿童鞋”,并按照价格升序排列。相比之下,年轻妈妈因为经常搜索儿童类产品,所以最低价格的鞋子为33元;而另一位记者从未搜过儿童类产品,最低价为21元,相差12元。随后两位记者又用“儿童舞蹈裙”关键词进行了测试,得到了类似的结果,年轻妈妈得到的推荐商品更贵。

左为从未搜过儿童产品的用户,右为经常搜索儿童产品的年轻妈妈

左为从未搜过儿童产品的用户,右为经常搜索儿童产品的年轻妈妈

02 “不能说的秘密”

“大数据杀熟”的前提是通过各种渠道收集用户数据,而技术的成熟,使得算法在互联网行业大规模应用成为现实。

算法工程师阿石(化名)在一次算法研讨会上提及:“有一次客户提出想让我们提高部分用户对曾经购买过产品的回购次数,如口红、酒等。客户提供用户的相关数据,让我们定位用户信息,给用户做合适的推送。针对这样的要求,我们的团队就要考虑这样做合不合适,要不要接单。”

某互联网公司软件测试工程师阿蔚(化名)告诉《IT时报》记者:“很多算法是数据互通的,尤其在属于同一公司产品时比较明显。说白了就是用户被A平台搜集的数据,被B平台检索到,B平台也能直接掌握你的喜好、习惯等,并尝试精准推送,采集到的数据越多,推送就会越精准。”

对消费者来说,他们往往无法掌握规则,虽然质疑互联网平台存在“大数据杀熟”行为,但又没有明确证据。

《指引》指出,鼓励平台经营者提供算法应用结果解释等方式提升公众对算法应用的理解。对于算法公开,算法从业者阿林(化名)告诉《IT时报》记者:“算法分为‘白盒’与‘黑盒’。‘白盒’算法比较直接,程序员编写程序代码后能够知道输出的结果。而‘黑盒’算法则根据获得的数据自动升级,数据越多升级越快,一直都处于更改状态,而最后输出的结果程序员自己也不清楚,也不可控。相比之下,‘黑盒’算法运用更多,也很难公开。”

盘和林表示,对于平台来说,一方面担忧算法机制泄露降低自身竞争能力,因为算法公开需要大量调出长期累积的算法数据,这也是平台技术能力的一部分;另一方面,平台也担心算法公开后引起争议,比如某些数据在用户看来是很敏感的,由于恐惧隐私泄露,大多数人会选择不要推荐。

03 互联网行业自律的平衡点

“大数据杀熟”是由互联网平台实施差异化营销导致的。在日常生活中,我们经常会碰到这类营销方式。比如点开一个视频网站,系统根据用户平时的观看种类、时长等推荐一些影片,避免用户在海量影库中搜索。如果推荐影片正好用户喜欢,用户就愿意花钱购买。这种差异化营销既使得平台营收增加,又节约了用户的搜索时间。

在很长一段时间里,社会和产业对“大数据杀熟”的定义边界并没有那么清晰。有的时候用户希望获得相关推荐;当算法推荐损害利益的时候,用户又希望能够通过一些手段阻止;更多的时候,“大数据杀熟”是无形的,用户并不确定自己是否正在被杀熟。

上海申伦律师事务所律师夏海龙在接受媒体采访时表示:“‘大数据杀熟’和差异化营销的真实关系是一体两面,站在企业的角度是差异化营销,站在用户的角度就是被杀熟。”

图源:东方IC

“算法规则的制定并不是针对具体的某个人,但算法在执行过程中可能伤害到了某些人群。”同济大学CIMS研究中心副研究员马云龙认为,“‘大数据杀熟’并不是一个互联网化的概念,但是互联网平台利用它的垄断地位,掌握大量的用户数据实现利益最大化,造成的交易不公平侵害了个人消费者的权益。这次上海出台的《指引》是希望互联网行业能够从自律的角度去找到一个平衡点。”

《指引》更多鼓励网络交易平台经营者根据自身业务类型、规模大小等,建立相适应的算法应用合规管理制度,加强对算法应用的风险防控和隐患排查治理。

电子商务研究中心主任曹磊也认为:“由于数据掌握在平台手中,对于数据的处理方式外人不得而知,对于杀熟现象的规避还要依靠企业的自觉,只有平台正视大数据的价值,对其进行合理的管理与应用,才能更好地服务消费者。”