文/曹双涛
编辑/杨博丞
题图 | 文心一格
阿里云消息不断。
11月12日晚,“阿里云盘崩了”“淘宝又崩了”“闲鱼崩了”“钉钉崩了”等话题相继登上热搜,阿里云全线产品受到影响。
图源:微博
紧接着,11月16日,阿里在财报中宣布,鉴于多方面不确定性因素,不再推进云智能集团的完全分拆。
“阿里集团将在阿里云的战略方向上保持长期坚决投入,同时云智能集团仍会继续保持独立公司运作,采取董事会授权的CEO负责制。”吴泳铭说。
阿里在财报中表示,美国近期扩大对先进计算芯片出口的限制,给云智能集团的前景带来不确定性。云智能集团的完全分拆可能无法按照原先的设想提升股东价值,因此决定不再推进云智能集团的完全分拆,而是会面对不确定的环境,专注建立云智能集团可持续增长的模型。
对于投资者就阿里云的上市计划是暂停还是永远取消,市场形势有所变化后,会不会重新考虑阿里云的分拆的相关问题,蔡崇信并未做出明确回答。
一、阿里云又崩了
这已经不是阿里云首次“崩”了。
早在去年12月份,阿里云下游客户香港廉价航空公司、加密货币交易平台 OKX(欧易)等大量公司,以及澳门金融管理局等多个政府部门网站瘫痪,数小时无法提供服务。
阿里云发布故障通报称,在中国香港的数据中心机房降温系统出现故障,导致服务器宕机持续超过 12 个小时,而且没有完善的备用冗余方案,这被认为是阿里云运营十多年来持续时间最长的一次大规模故障。
虽说在当晚9点前后,阿里云方面表示,受影响云产品均已恢复,因故障影响部分云产品的数据(如监控、账单等)可能存在延迟推送情况,不影响业务运行。但和去年阿里云宕机影响相比,本次事故对阿里云而言,可谓是史诗级灾难。
图源:阿里云官网
一方面,据阿里云健康状态页面显示,本次受影响的不单单是某一区域市场,阿里云所服务的全球市场无一幸免。除阿里云自有业务区域受影响外,其对外服务的金融云、政务云清一色全挂。
图源:阿里云官网
另一方面,在日前举办的2023云栖大会上,阿里巴巴集团主席蔡崇信曾指出,目前中国80%的科技企业和一半的大模型公司都跑在阿里云上。天眼查也显示,当前阿里云服务的客户超过300万家。本次阿里云宕机,直接导致其下游多家客户业务瘫痪。
纳思云充电桩、乐爽cooleasy由阿里云提供服务支持,阿里云事故后,纳思云充电桩发布重要通知称,因阿里云IoT服务API接口故障,导致使用阿里云相关服务的设备无法正常使用。乐爽cooleasy发布紧急通知称“阿里云网络全国崩盘了,导致所有平台都出现问题”。
有公司技术人员称,阿里云发生故障后,公司技术人员全部被安排临时加班,负责检查和处理软件系统数据。如此大面积产品故障,这还是使用六七年阿里云第一次遇到。
二、阿里云为何突然宕机?
针对本次故障发生的原因,阿里云方面暂时尚未回应。但国内某家大厂技术经理朱杨(化名)告诉DoNews,一般来说引发服务器宕机的因素有很多。比如说,网站访问量过高、硬件服务器老化等等。
不少公司为保证服务器运行稳定,内部负责服务器运维的部门,往往采取轮班制,负责实时监测服务器运行情况。一旦服务器出现故障,则会立即启动紧急预案机制。而且云服务器本身采用的是弹性机制,能根据负载情况自动调节,很少出现宕机的可能。
阿里云突然宕机的原因,自己猜测或和阿里云鉴权服务组件有关,出现异常的则是AK、SK。所谓的鉴权服务指的是身份验证和授权服务,AK相当于我们普通用户登录APP时的用户名,用来识别用户身份。SK相当于密码,通过大量字符串进行身份核验。
和我们普通用户登录APP那样,客户登录阿里云服务器时,阿里云会对客户身份进行检验。但AK和SK异常,客户自然无法登录阿里云服务器。虽然有同行指出,还有一种原因是双十一结束后,阿里云对服务器容量进行收缩,无法满足大量客户需求。
但令自己想不通的是,阿里云服务淘宝双十一和618等大促节点多年,有着完整的应对大促节点后服务器如何调整经验,出现这种概率事件估计极低。
三、阿里云或面临天价赔偿和客户持续流失
但不管基于何种原因宕机,自身服务器出现问题导致客户业务瘫痪,阿里云或将面临天价赔偿。目前阿里云服务百万级客户数量,需针对每个客户业务受损情况进行单独赔偿。
同时考虑到阿里云1+6+N战略指引下,阿里云各部门自负盈亏。保守估计,阿里云赔偿客户金额可能在千万级以上。据阿里今年二季度财报显示,Q2,阿里云营收同比增长4%至251.23亿元。
图源:阿里财报
家大业大的阿里云而言,虽能承接这一赔偿金额。但朱杨接着表示,厂商在不同服务器迁移时,若是因自身服务项目多,迁移过程中需对整个系统代码重新更改,服务器也需重新部署、调试。整个迁移过程中,需保证数据的绝对安全,而且更换服务器并非一两周就内完成的,这个过程中短则一两个月,长则半年。
虽说更换服务器面临上述问题,但保证服务器运行时的绝对稳定,是企业使用云服务器的第一宗旨。从这一角度来看,阿里云本次严重宕机事件,不仅仅会面临着老客户大量流失风险,而且阿里云销售后续拓展新客户时,难度也会升级。
对标SaaS厂商来看,其收入=单笔合同金额*客户数量*客户续费率+定制化服务。客户的流失让当前的阿里云,可谓说是雪上加霜。据IDC发布的《中国公有云服务市场(2023上半年)跟踪》报告显示,今年上半年中国公有云服务整体市场规模(IaaS/PaaS/SaaS)为190.1亿美元。其中,IaaS+PaaS上半年同比增长15.9%,创下近三年新低。
增速下降的原因在于,2023年随着企业业务逐步恢复,企业对于预算的制定、支出和使用更加谨慎,降本增效需求进一步提升,这在一定程度上阻碍了公有云市场增速,企业IT预算增长整体不及预期。
而在科研、高校、政务、金融等领域,混合云和专属云的市场发展也对公有云市场营收造成一定冲击。反映到阿里云身上就是,其市场份额从2022年的33%下降至今年上半年29.9%,在几大云厂商中降幅最为明显。
图源:IDC中国
同时,近两年阿里云试图他们发力政务云市场,除面对深耕政务云市场多年华为云的竞争外,随着电信、移动、联通三大运营商对云服务的愈发重视,又加之他们做云服务市场本身就有着其他云厂商难以匹敌的优势。
自2021年8月到2022年8月,全国1亿元以上政企数字大单项目中,电信、移动、联通中标的企业数量分别为104个、68个、34个,但阿里云只有9个。基于此,过去两年,三大运营商云业务收入增速完全赶超阿里云。
图源:公开信息整理
除传统客户外,百川智能、智谱AI、零一万物、昆仑万维、vivo、复旦大学等头部企业及科研机构,纷纷选择在阿里云上训练大模型。但考虑到当前国内大模型尚处在商业化探索阶段,而且对服务器要求极高,阿里云服务突然宕机,这是否会引发大模型客户对阿里云的担忧?
而且今年阿里云栖大会反复强调的战略便是:做“AI时代最开放的云”,让开发AI、使用AI变得更加容易和便宜。但没有稳定的服务器运行机制,又何谈让AI更加便宜呢?
四、销售文化过重,技术人员流失严重
正如上文朱杨所言,阿里云本次宕机事件,实则暴露出当前阿里云核心技术人员不足,内部管理失控等问题。自阿里云成长至今,先后历经王坚时代、姜鹏和王文彬时代、胡晓明时代、张建峰时代、逍遥子时代,以及刚刚上任的吴泳铭时代。
其中,王坚作为阿里云从零到1的开拓者,其在阿里云内部有着极高的地位,这也是为何今年阿里云发力大模型,王坚频频出现在公众场合,以及云栖大会上王坚处在C位的原因。
图源:云栖大会
胡晓明虽为阿里云发展制定了清晰的商业化方向,带领阿里云营收从2015年的30亿元增长至2019年的400亿元。另据Gartner数据显示,阿里云在2019年在全球云计算的市场份额为9.1%,全球排名第三。在亚太地区,阿里云的市场份额更是高达28.6%,高于亚马逊、微软的17.5%和11.8%,排名第一。
但这也让阿里云从一家技术型公司变成一家销售型公司,并为后续阿里云内部技术人才流失埋下了祸根。一方面,胡晓明执掌阿里云期间除要求销售背负KPI考核外,技术、产品、科学家也必须背负考核指标,这种考核下导致阿里云内部从上到下均以业绩为导向。
另一方面,因当时阿里云竞争对手较少,而且云服务对互联网行业而言,本身就是刚需。互联网行业红利所带来的高增长,让阿里云内部销售几乎习惯了躺着赚钱的日子,对客户意识明显不足。甚至针对客户所提出的需求,内部销售直接要求客户内部流程更改。
2018年张建锋曾胡晓明手中接管阿里云后,曾给阿里云定下三年营收过千亿元的目标,但此时互联网行业红利退散,政务云市场兴起。习惯强势乙方的阿里云,在政务云市场显得格格不入。
图源:IDC中国
据悉,政企云市场更青睐使用私有云,需为客户做定制化,华为服务政府、运营商等大企业数十年,内部已建立起一套完全和中国大客户精准耦合的组织体系。有原阿里云销售称,自己和同事招投标时,华为云来了二三十人,把客户全流程进行梳理。但反观阿里云,仅有三个人,最终中标方自然是华为云。
遇到华为云必败,更是成为不少阿里云销售心知肚明的答案。而且阿里云对销售的考核是以月为单位,但ToG端大单,往往需跟很长时间,这让很多销售的业绩并不理想。长时间下来,很多销售同事根本不愿意跟ToG端大单。
如杜伟所言,反映到阿里云的财报上就是,自2018年以后,阿里云营收增速逐渐下滑。
而且2022年在一个价值3.9亿元的部委大单中,华为云中标后,阿里云直接把甲方告了,这也意味着阿里云彻底和客户撕破脸,甚至在不少业内同行看来,阿里云更是幼稚。
图源:阿里财报
千亿目标、无法拿下更多ToG大单,这自然让阿里云内部销售文化越来越重。杜伟接着表示,阿里云不少技术均是归国工程师,当初他们看重阿里云的技术,希望在阿里云获得更大的成长,才加入的阿里云。但入职后却发现阿里云是一家销售型公司,这和他们当初加入阿里云初衷完全背道而驰,不少归国工程师纷纷离职。
2022年12月,因出现上文所述的阿里云宕机事件,张建峰引咎辞职,阿里云回到张勇时代。但胡晓明和张建峰累计执掌阿里长达8年时间,其内部组织变革不可能是短时间就能够被改变的。
同时有接近阿里云的业内人士表示,今年5月份阿里云大裁员,出于“降本增效”考虑,被裁的员工有很大一部分为收入较高、能力较强的技术人员。而且未来需上市的阿里云,迫切需给到资本市场一份好看的财报,这让如今的阿里云对销售更是极其看重。
同时在今年上半年大模型浪潮下,阿里云核心技术人员或被其他大厂挖走,或出来单干。今年3月,曾领导阿里云智能计算平台事业部的贾扬清离职创业。同期,阿里M6大模型带头人杨红霞被爆加盟字节跳动Ai Lab。
随着张勇的离职,目前阿里云权力地带更是逐渐“模糊”,这点在云栖大会也能看出。目前担任阿里集团CEO的吴泳铭,第一天并没有发表演讲,引发了不少猜测——云栖大会由蔡崇信做开场发言后,产品发布主要是由CTO周靖人完成。
而且作为阿里云的“大客户”代表,百川智能创始人兼CEO王小川反而被提上优先级,这更是让市场纷纷猜测当前的阿里云是否处在群龙无首阶段。
但需要指出的是,本次宕机阿里云也需深思其内部或许真的需完成一场从上到下的大变革,才能避免出现类似事件发生。而且此次阿里云故障也再次为行业敲响警钟,如何对内部现有流程进行梳理,避免类似“灾难”事件发生在自己身上,这是当下每家云厂商都必须重视的问题。