(原标题:小红书将业界最大数据湖迁至阿里云)
记者获悉,经过一年奋战,小红书已把业界体量最大的数据湖0故障迁上阿里云。据统计,该面貌共有1500东谈主参与,挪动数据500PB。
手脚中国头部互联网公司之一,小红书月活已过3亿,其数据湖存储了昔时11年的总共原始数据,包括结构化、半结构化和非结构化数据。比年来,跟着业务的高速增长,小红书在线处理数据的需求陆续增多,同期离线处理所积蓄的历史问题,也会在改日的切换中带来更多资本与风险。
为此,2023年11月,小红书发起迁云面貌——谋整齐年内,把小红书的数据湖搬上阿里云。
挪动至阿里云上后,数据湖可通过多个OSS Bucket维持纳入联结伙源池,竣事多个Bucket分享资源池内的OSS朦拢及QPS智商。这么的流控智商在面向小红书复杂业务场景,可无邪调配资源,高效诓骗朦拢性能,裁汰不同行务田户间的相互影响。阿里云原生HDFS+DLA元数据可竣事无缝对接Hadoop EMR体系,维持元数据线性膨大智商,唐突搪塞小红书数百PB数据下的元数据线性增长。
较于过往业界体量最大的案例,小红书的本次挪动的数据体量更大。
*注:任务=数据处理历程
(图片来自小红书官方公众号)
据先容,小红书的迁云面貌资格了三个阶段。第一步,面貌组最初管束表率问题,然后把柄表率进行治理;第二步,完成治理后,面貌在2024年5月认真参预双跑阶段。把数据拷贝到阿里云上,双方同期跑数,考证正确性与实时性;第三步,2024年8月,面貌范围双跑,参预割接阶段。阿里云团队全程在现场保险,顺利完成了割接。
2024年11月,小红书迁云面貌认真宣告范围。在0故障的情况下,挪动数据500PB,任务11万,参与东谈主数1500东谈主,触及部门40多个。面貌触及居品之多和数据体量之大均创下业界纪录。