近日,Uber 在印度推出了一项新服务,允许其共享乘车和外卖司机利用空闲时间,通过应用程序参与数据分类和信息收集的工作。这一消息由 Uber AI 解决方案全球负责人 Megha Yethadka 在 LinkedIn 上发布,她表示,司机在日常工作中可能会有空闲时间,或者希望在晚上赚取一些额外收入。
这项新的工作任务包括审查照片、计数物体、分类文本、录制音频以及数字化收据等多种形式。Yethadka 提到,这些任务将用于支持 Uber 全球的企业客户,帮助他们开发生成式人工智能模型或消费应用。
Yethadka 进一步表示:“到目前为止,这些任务一直是由独立承包商在应用程序外完成的。初步结果非常可喜,我们期待将这项服务进一步扩展。” 在她发布的视频中,提到了这项服务有可能在全球范围内推广。
Uber 印度及南亚的总裁 Prabhjeet Singh 表示,目前这些新任务已经在12个城市推出,且 “数以万计的司机” 已开始参与 Uber 所称的 “数字任务”。
Uber 首席执行官 Dara Khosrowshahi 在8月份的财报电话会议上提到,数字任务的推出是因为 Uber 公司拥有将任务分配给全球赚取者的核心能力。“你将看到一种不同类型的赚取者,他们将为全球令人兴奋的 AI 发展工作。”Khosrowshahi 表示。
此外,Uber 还在同一天宣布,他们正在运营一个350PB(拍字节)的数据湖,并开发了一种名为 “HiveSync” 的工具来保护这些数据。Uber 工程团队的公告解释说,以前 Uber 的数据基础设施在两个数据中心区域之间运行以确保冗余,但这使得第二个区域在运行时没有实际使用,产生了不必要的费用。
因此,Uber 启动了 “单区域计算”(SRC)计划,将所有批量计算任务在单一区域内运行,然后通过 HiveSync 将数据复制到第二个区域。HiveSync 是 Uber 在2016年开始开发的,现已管理约300PB 的数据,存储在80万张 Hive 表中,每天复制8PB 的数据。
Uber 表示,他们计划开源这一复制服务,并将继续开发新功能,以满足日益增长的可扩展性和低延迟的需求,HiveSync 在 Uber 将批量数据分析和机器学习训练系统迁移到谷歌云过程中也发挥着重要作用。
划重点:
🌟 Uber 在印度推出司机数据分类新任务,帮助 AI 模型发展。
👥 数以万计的司机已参与这一 “数字任务”,可在12个城市中使用。
💾 Uber 同时发布了一个350PB 的数据湖,并推出数据保护工具 HiveSync。