首页 > 点评 > 关键词 > 谷歌最新资讯 > 正文

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

2020-02-05 10:24 · 稿源:脑极体公众号

声明:本文来自于微信公众号 脑极体(ID:unity007),作者:海怪,授权站长之家转载发布。

预测未知,一直是人类十分向往的能力。远不说国人熟悉的周易八卦、唐代道士编写的《推背图》,还有西方人熟知的占星术、中世纪流行起来的塔罗牌,近的比如说当年根据 “ 2012 世界末日”这一玛雅预言影响下出现的全民狂热和商业狂欢,依然让我们记忆犹新。

现在“不问苍生问鬼神”的时代已经过去,我们对物理世界及社会经济的确定性的、经验性的甚至概率性的预测都已轻车熟路。但比如说像“蝴蝶效应”描述的高度复杂的、超多变量以及超大数据量的预测,人类还是束手无策么?

答案并不是。

人工智能 AI 机器人

近日,我国武汉新型冠状病毒疫情的爆发引起世界卫生组织和全球多地卫生机构的密切关注。其中,《连线》杂志报道了“一家加拿大公司BlueDot通过AI监测平台率先预测和发布武汉出现传染疫情”的新闻,得到国内媒体的广泛关注。这似乎是我们在“预测未来”这件事上最想看到的成果——借助大数据沉淀基础和AI的推断,人类似乎正能够揣摩“天意”,揭示出原本深藏于混沌之中的因果规律,从而在天灾降临前试图挽救世界。

今天我们就从传染病预测出发,看看AI是如何一步步走向“神机妙算”的。

谷歌GFT频喊“狼来了”:流感大数据的狂想曲

用AI预测传染病显然不是Bluedot的专利,其实早在 2008 年,今天的AI“强手”谷歌,就曾进行过一次不太成功的尝试。

2008 年谷歌推出一个预测流感流行趋势的系统——Google Flu Trends(谷歌流感趋势,以下简称GFT)。GFT一战成名是在 2009 年美国H1N1 爆发的几周前,谷歌工程师在《Nature》杂志上发表了一篇论文,通过谷歌累积的海量搜索数据,成功预测H1N1 在全美范围的传播。就流感的趋势和地区分析中,谷歌用几十亿条检索记录,处理了4. 5 亿个不同的数字模型,构造出一个流感预测指数,其结果与美国疾病控制和预防中心(CDC)官方数据的相关性高达97%,但要比CDC提前了整整 2 周。在疫情面前,时间就是生命,速度就是财富,如果GFT能一直保持这种“预知”能力,显然可以为整个社会提前控制传染病疫情赢得先机。

然而,预言神话没有持续多久。 2014 年,GFT又再次受到媒体关注,但这一次却是因为它糟糕的表现。研究人员 2014 年又在《Science》杂志发布 “谷歌流感的寓言:大数据分析的陷阱” 一文,指出在 2009 年,GFT没有能预测到非季节性流感A-H1N1。从 2011 年 8 月到 2013 年 8 月的 108 周里,GFT有 100 周高过了CDC报告的流感发病率。高估了多少呢?在2011- 2012 季,GFT预测的发病率是CDC报告值的1. 5 倍多;而到2012- 2013 季,GFT预测流感发病率已是CDC报告值的 2 倍多。

(图表来自The Parable of Google Flu: Traps in Big Data Analysis | Science,2014)

(图表来自The Parable of Google Flu: Traps in Big Data Analysis | Science,2014)

尽管GFT在 2013 年调整了算法,并回应称出现偏差的罪魁祸首是媒体对GFT的大幅报道导致人们的搜索行为发生了变化,GFT预测的2013- 2014 季的流感发病率,仍然高于CDC报告值1. 3 倍。并且研究人员前面发现的系统性误差仍然存在,也就是“狼来了”的错误仍然在犯。

到底GFT遗漏了哪些因素,让这个预测系统陷入窘境?

根据研究人员分析,GFT的大数据分析出现如此大的系统性误差,其收集特征和评估方法可能存在以下问题:

一、大数据傲慢(Big Data Hubris)

所谓“大数据傲慢”,就是谷歌工程师给出的前提假设就是,通过用户搜索关键词得到的大数据包含的即是流感疾病的全数据收集,可以完全取代传统数据收集(采样统计),而不是其补充。也就是GFT认为“采集到的用户搜索信息”数据与 “某流感疫情涉及的人群”这个总体完全相关。

这一 “自大”的前提假设忽视了数据量巨大并不代表数据的全面和准确,因而出现在 2009 年成功预测的数据库样本不能涵盖在之后几年出现的新的数据特征。也是因为这份“自负”,GFT也似乎没有考虑引入专业的健康医疗数据以及专家经验,同时也并未对用户搜索数据进行“清洗”和“去噪”,从而导致此后流行病发病率估值过高但又无力解决的问题。

二、搜索引擎演化

同时搜索引擎的模式也并非一成不变的,谷歌在 2011 年之后推出“推荐相关搜索词”,也就是我们今天很熟悉的搜索关联词模式。

比如针对流感搜索词,给出相关寻求流感治疗的list, 2012 年后还提供相关诊断术语的推荐。研究人员分析,这些调整有可能人为推高了一些搜索,并导致谷歌对流行发病率的高估。举例来说,当用户搜索“喉咙痛”,谷歌会在推荐关键词给出“喉咙痛和发烧”、“如何治疗喉咙痛”等推荐,这时用户可能会出于好奇等原因进行点击,造成用户使用的关键词并非用户本意的现象,从而影响GFT搜集数据的准确性。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

而用户的搜索行为反过来也会影响GFT的预测结果,比如媒体对于流感流行的报道会增加与流感相关的词汇的搜索次数,进而影响GFT的预测。这就像量子力学家海森堡指出的,在量子力学中存在的“测不准原理”说明的一样,“测量即干涉”。

那么,在充斥媒体报道和用户主观信息的搜索引擎的喧嚣世界里,也同样存在“预测即干涉”悖论。搜索引擎用户的行为并不完全是自发产生,媒体报道、社交媒体热点、搜索引擎推荐甚至大数据推荐都在影响用户心智,造成用户特定搜索数据的集中爆发。

为什么GFT的预测总是偏高?根据这一理论,我们可以知道,一旦GFT发布的流行病预测指数升高,立刻会引发媒体报道,从而导致更多相关信息搜索,从而又强化GFT的疫情判断,无论如何调整算法,也改变不了“测不准”的结果。

三、相关而非因果

研究人员指出,GFT的根源问题在于,谷歌工程师并不清楚搜索关键词和流感传播之间到底有什么因果联系,而只是关注数据之间的——统计学相关性特征。过度推崇“相关”而忽略“因果”就会导致数据失准的情况。比如,以“流感”为例,如果一段时间该词搜索量暴涨,可能是因为推出一部《流感》的电影或歌曲,并不一定意味着流感真的在爆发。

一直以来,尽管外界一直希望谷歌能够公开GFT的算法,谷歌并没有选择公开。这让很多研究人员质疑这些数据是否可以重复再现或者存在更多商业上的考虑。他们希望应该将搜索大数据和传统的数据统计(小数据)结合起来,创建对人类行为更深入、准确的研究。

显然,谷歌并没有重视这一意见。最终在 2015 年GFT正式下线。但其仍在继续收集相关用户的搜索数据,仅提供给美国疾控中心以及一些研究机构使用。

为什么BlueDot率先成功预测:AI算法与人工分析的协奏曲

众所周知,谷歌在当时已经在布局人工智能, 2014 年收购DeepMind,但依然保持它的独立运营。同时,谷歌也没有GFT再投入更多关注,因此也并未考虑将AI加入到GFT的算法模型当中,而是选择了让GFT走向“安乐死”。

几乎在同一时期,今天我们所见到的BlueDot诞生。

BlueDot是由传染病专家卡姆兰·克汗(Kamran Khan)建立流行病自动监测系统,通过每天分析 65 种语言的约 10 万篇文章,来跟踪 100 多种传染病爆发情况。他们试图用这些定向数据收集来获知潜在流行传染病爆发和扩散的线索。BlueDot一直使用自然语言处理(NLP)和机器学习(ML)来训练该“疾病自动监测平台”,这样不仅可以识别和排除数据中的无关“噪音”,比如,系统识别这是蒙古炭疽病的爆发,还仅仅是 1981 年成立的重金属乐队“炭疽”的重聚。又比如GFT仅仅将“流感”相关搜索的用户理解为可能的流感病患者,显然出现过多不相关用户而造成流行病准确率的高估。这也是BlueDot区别于GFT在对关键数据进行甄别的优势之处。

就像在这次在新型冠状病毒疫情的预测中, 卡姆兰表示,BlueDot通过搜索外语新闻报道,动植物疾病网络和官方公告来找到疫情信息源头。但该平台算法不使用社交媒体的发布内容,因为这些数据太过杂乱容易出现更多“噪音”。

关于病毒爆发后的传播路径预测,BlueDot更倾向于使用访问全球机票数据,从而更好发现被感染的居民的动向和行动时间。在 1 月初的时候,BlueDot也成功预测了新型冠状病毒从武汉爆发后,几天之内从武汉扩散至北京、曼谷、汉城及台北。

新冠病毒爆发并非是BlueDot的第一次成功。在 2016 年,通过对巴西寨卡病毒的传播路径建立AI模型的分析,BlueDot成功地提前六个月预测在美国佛罗里达州出现寨卡病毒。这意味着BlueDot的AI监测能力甚至可以做到预测流行病的地域蔓延轨迹。

从失败到成功,BlueDot和谷歌GFT之间究竟存有哪些差异?

一、预测技术差异

之前主流的预测分析方法采取的是数据挖掘的一系列技术,其中经常用到的数理统计中的“回归”方法,包括多元线性回归、多项式回归、多因Logistic回归等方法,其本质是一种曲线的拟合,就是不同模型的“条件均值”预测。这也正是GFT所采用的预测算法的技术原理。

在机器学习之前,多元回归分析提供了一种处理多样条件的有效方法,可以尝试找到一个预测数据失误最小化且“拟合优度”最大化的结果。但回归分析对于历史数据的无偏差预测的渴求,并不能保证未来预测数据的准确度,这就会造成所谓的“过度拟合”。

据北大国研院教授沈艳在《大数据分析的光荣与陷阱——从谷歌流感趋势谈起》一文中分析,谷歌GFT确实存在“过度拟合”的问题。也就是在 2009 年GFT可以观察到2007- 2008 年间的全部CDC数据,采用的训练数据和检验数据寻找最佳模型的方法所参照的标准就是——不惜代价高度拟合CDC数据。所以,在 2014 年的《Science》论文中指出,会出现GFT在预测2007- 2008 年流感流行率时,存在丢掉一些看似古怪的搜索词,而用另外的 5000 万搜索词去拟合 1152 个数据点的情况。 2009 年之后,GFT要预测的数据就将面临更多未知变量的存在,包括它自身的预测也参与到了这个数据反馈当中。无论GFT如何调整,它仍然要面对过度拟合问题,使得系统整体误差无法避免。

BlueDot采取了另外一项策略,即医疗、卫生专业知识和人工智能、大数据分析技术结合的方式,去跟踪并预测流行传染病在全球分布、蔓延的趋势,并给出最佳解决方案。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

BlueDot主要采用自然语言处理和机器学习来提升该监测引擎的效用。随着近几年算力的提升以及机器学习,从根本上彻底改变了统计学预测的方法。主要是深度学习(神经网络)的应用,采用了“反向传播”的方法,可以从数据中不断训练、反馈、学习,获取“知识”,经过系统的自我学习,预测模型会得到不断优化,预测准确性也在随着学习而改进。而模型训练前的历史数据输入则变得尤为关键。足够丰富的带特征数据是预测模型得以训练的基础。经过清洗的优质数据和提取恰当标注的特征成为预测能否成功的重中之重。

二、预测模式差异

与GFT完全将预测过程交给大数据算法的结果的方式不同,BlueDot并没有完全把预测交给AI监测系统。BlueDot是在数据筛选完毕后,会交给人工分析。这也正是GFT的大数据分析的“相关性”思维与BlueDot的“专家经验型”预测模式的不同。AI所分析的大数据是选取特定网站(医疗卫生、健康疾病新闻类)和平台(航空机票等)的信息。而AI所给出的预警信息也需要相关流行病学家的再次分析才能进行确认是否正常,从而评估这些疫情信息能否第一时间向社会公布。

当然,就目前这些案例还不能说明BlueDot在预测流行病方面已经完全取得成功。首先,AI训练模型是否也会存在一些偏见,比如为避免漏报,是否会过分夸大流行病的严重程度,因而再次出现“狼来了”的问题?其次,监测模型所评估的数据是否有效,比如BlueDot谨慎使用社交媒体的数据来避免过多的“噪音”?

幸而BlueDot作为一家专业的健康服务平台,他们会比GFT更关注监测结果的准确性。毕竟,专业的流行病专家是这些预测报告的最终发布人,其预测的准确度直接会影响其平台信誉和商业价值。这也意味着,BlueDot还需要面临如何平衡商业化盈利与公共责任、信息开放等方面的一些考验。

AI预测流行病爆发,仅仅是序曲……

“发出第一条武汉冠状病毒警告的是人工智能?”媒体的这一标题确实让很多人惊讶。在全球一体化的当下,任何一地流行疾病的爆发都有可能短时间内传遍全球任何一个角落,发现时间和预警通报效率就成为预防流行疾病的关键。如果AI能够成为更好的流行病预警机制,那不失为世界卫生组织(WHO)以及各国的卫生健康部门进行流行病预防机制的一个办法。

那这又要涉及到这些机构组织如何采信AI提供的流行病预报结果的问题。未来,流行病AI预测平台还必须提供流行病传染风险等级,以及疾病传播可能造成的经济、政治风险的等级的评估,来帮助相关部门做出更稳妥的决策。而这一切,仍然需要时间。这些组织机构在建立快速反应的流行病预防机制中,也应当把这一AI监测系统提上日程了。

可以说,此次AI对流行病爆发提前成功地预测,是人类应对这场全球疫情危机的一抹亮色。希望这场人工智能参与的疫情防控的战役只是这场持久战的序曲,未来应该有更多可能。比如,主要传染病病原体的AI识别应用;基于主要传染病疫区和传染病的季节性流行数据建立传染病AI预警机制;AI协助传染病爆发后的医疗物资的优化调配等。这些让我们拭目以待。

  • 相关推荐
  • 大家在看
  • 硅谷风投公司A16Z创始人:创业公司的销售应该与产品一样重要

    创业很难,让公司活下去更难,带领公司成为独角兽难上加难。马克·安德森作为网景的联合创始人与A16Z的创始人,可能是最清楚怎么将公司发展成独角兽的人之一,他的观点,值得创业者们学习参考。造出新产品,然后让用户购买和使用它,是一件令人激动的事。但是实现产品/市场契合(PMF)只是创业公司的第一个里程碑,它代表创始人面临的真正?

  • 又一家咖啡创业公司溃败:融资4亿,打水漂了

    知名互联网咖啡品牌 “连咖啡”正在大规模关店。大众点评显示,连咖啡北京地区 16 家店铺已悄然关闭,仅剩两家仍在正常营业。需要指出的是,这一次关店席卷连咖啡的全国门店。

  • 马斯克:特斯拉应被看作十几家科技创业公司集合体

    6月22日消息,据国外媒体报道,特斯拉CEO马斯克日前在社交网络上评论到,该公司应被看作十几家科技创业公司集合体。特斯拉马斯克是在评论一篇文章时提出这一观点的。这篇文章标题为“特斯拉是怎么在16年内就成为全球价值最高汽车公司?”目前特斯拉市值约1856.42亿美元;此前的世界第一,也就是丰田汽车市值约1767.43亿美元。马斯克评论称,特斯拉应该被看作是一个十几家科技创业公司的集合体,而这些公司中许多都与传

  • 网易云音乐战略投资AI音乐公司“AIVA” 共同开发AI音乐引擎

    近日,网易云音乐宣布,战略投资AI音乐公司“AIVA”,双方将结合人工智能技术在AI辅助音乐创作领域展开深度合作。接下来,网易云音乐和AIVA将共同开发面向中国音乐人的AI音乐引擎,辅助音乐人进行创作。

  • 携程上海成立新公司,主营创业投资等业务

    天眼查数据显示,6月3日,携程创业投资(上海)有限公司成立,该公司注册资本1亿人民币,法定代表人为沈杰。公司经营范围包括一般项目:创业投资,投资咨询,企业管理,由携程旅游网络技术(上海)有限公司全资控股,后者为携程投资(上海)有限公司的全资子公司。

  • 雷军卸任湖北珞珈梧桐创业投资有限公司董事

    天眼查数据显示,近日,湖北珞珈梧桐创业投资有限公司发生工商变更,雷军卸任董事。但雷军仍为该公司股东,持股比例为4%。湖北珞珈梧桐创业投资有限公司成立于2014年4月,注册资本1亿,法定代表人为陈作涛,公司经营范围包括创业投资;对高新技术企业投资;投资管理;投资咨询等。天眼查股东信息显示,该公司第一大股东为北京方圆和光投资管理有限公司,持股比例为40%。据珞珈梧桐官网,珞珈梧桐是一家?

  • 谷歌回应下架印度“卸载中国应用”APP:违反公司政策

    印度“卸载中国应用”App凤凰网科技讯 北京时间6月3日消息,谷歌公司发言人周三表示,印度一键 “卸载中国应用”App违反了公司政策,已经被下架。谷歌发言人证实,“卸载中国应用”App因为违反了公司的应用商店政策被下架,但没有给出更多细节。知情人士称,谷歌的政策禁止应用误导用户删除或禁用第三方应用,或者修改设备设置或功能,而“卸载中国应用”App违反了这一政策,因此被下架。“卸载中国应用”App开发商OneTouch AppLab

  • 大众汽车完成对自动驾驶初创公司Argo AI的26亿美元投资

    6月2日消息,据国外媒体报道,自动驾驶初创公司Argo AI周二表示,大众汽车已完成对该公司26亿美元投资。Argo AI表示,此举将有助于该公司在欧洲的扩张。大众提供10亿美元的资金,并转让其位于慕尼黑的自动智能驾驶(Autonomous Intelligent Driving)业务,价值16亿美元。此次交易对Argo AI估值超过70亿美元。大众和福特将持有同等的Argo公司的股份。去年1月,福特和大众汽车宣布结成“全球联盟”,两家公司将合作开展

  • 度小满金融创业信心调查报告:金科公司正成为小微创业者的“金融孵化器”

    随着我国产业结构的调整以及人们就业观念的变化,灵活就业这些年来在经济社会发展中已经开始发挥着越来越大的作用,成为缓解我国就业压力的重要途径。在此前结束不久的2020年两会上,政府工作报告提出“深入推进大众创业万众创新”,而“就业”更被提及39次,鼓励灵活就业也成为当下稳就业、保民生的重要方向。近日由度小满金融(原“百度金融”)联合华夏时报金融研究院发布的《2020年创业信心调查报告》(以下简称《报告》)显示

  • 谷歌或斥资1.8亿美元收购智能眼镜制造公司North

    谷歌周二宣布,该公司收购了一家由亚马逊支持、成立有 8 年之久的智能眼镜制造公司——North。

  • 谷歌和可穿戴设备公司Fitbit就收购交易申请欧盟批准

    谷歌和可穿戴设备公司Fitbit就收购交易向欧盟申请批准。谷歌曾在 2019 年 11 月宣布将以 21 亿美元的价格收购Fitbit,以此在健身追踪器和智能手表市场上与苹果和三星竞争。 2020 年 1 月 7 日,Fitbit发布公告表示,其股东已同意谷歌对Fitbit的收购。

  • 专利权斗争升级!谷歌反诉智能音箱公司Sonos专利侵权

    在Sonos起诉谷歌五个月后,谷歌提出反诉,声称该科技巨头故意复制了其音箱专利技术。正如The Verge此前报道,谷歌声称Sonos侵犯了其与数字版权管理(DRM)、内容可用性通知、个性化网络搜索、回声和噪声控制以及网状网络相关的五项专利。

  • 外媒:网易云音乐170万美元战略投资AI音乐公司AIVA

    6月22日消息,据国外媒体报道,随着技术的发展和产业的重视,人工智能技术已深入到了越来越多的领域,音乐领域也不例外,网易云音乐就战略投资了一家AI音乐公司。从外媒的报道来看,网易云音乐战略投资的,是AI音乐初创公司AIVA,他们向这一公司战略投资了170万美元。AIVA总部位于卢森堡,成立于2016年,还不到4年的时间,是一家不折不扣的初创公司。AIVA由Denis Shtefan、Pierre Barreau和Vincent Barreau三人联合创?

  • 携程成立创业投资新公司,注册资本1亿元人民币

    DoNews 6月4日消息(记者 程梦玲)天眼查数据显示,6月3日,携程创业投资(上海)有限公司成立,该公司注册资本1亿元人民币,法定代表人为沈杰,公司经营范围包括一般项目:创业投资,投资咨询,企业管理,由携程旅游网络技术(上海)有限公司全资控股,后者为携程投资(上海)有限公司的全资子公司。

  • 谷歌母公司Alphabet将在收购加拿大AR眼镜制造商North

    6月28日消息,据国外媒体报道,谷歌母公司Alphabet将收购加拿大增强现实(AR)眼镜制造商North。据外媒报道,Alphabet正在就以1.8亿美元价格收购North进行深入谈判,该公司将此次收购视为以最少的投入或现金重新进入消费者智能眼镜市场的简单途径。有消息称,现在North正处于将自己出售给Alphabet的最后阶段。North成立于2012年,它获得了约1.6亿美元的投资,投资方包括英特尔的风险投资部门和Salesforce创始人马克·?

  • 在线教育走向“口碑竞争”时代 小狸AI课让“AI”更有教育温度

    近年来,在线教育行业迅速发展,在线学习逐渐获得学生和家长的认可。专家指出,“在线教育是教育服务的重要趋势,正成为中国经济新的增长点。”据预测, 2020 年中国在线教育市场规模将达 4330 亿元。而在国家进一步完善和加强政策法规的推动下,在线教育走向“重新洗牌的冷静调整期”,注重师资、课程和品牌的头部企业容易突出重围,赢得市场和资本的青睐。在此背景下,儿童智能启蒙教育领先品牌——小狸AI课凭借卓越的教学品质广

  • 华米科技AI创新大会今日开幕,共同见证AI解构健康未来

    2020年 6 月 15 日消息,今天下午,全球领先的智能可穿戴公司华米科技(NYSE:HMI)将于中国合肥举行首届AI创新大会,本届AI创新大会以「AI to Decode Future」为主题,将与全球 AI 领域专家一道,规划 AI 与健康结合的新蓝图,用 AI 解构未来,让科技连接健康。一直以来,华米科技在探索 AI 的路上从未止步,并在人工智能领域取得一定的技术积累。2017 年,华米科技成立人工智能实验室,启动人工智能可穿戴芯片研发,并将目标锁定?

  • 超1600名谷歌员工签署请愿书 要求公司停止向美国警方出售软件

    截至周一下午,超过 1600 名谷歌员工签署了一份内部请愿书,要求该公司停止向警方出售软件。在美国发生了一系列针对美国黑人的谋杀案后,谷歌员工们的要求接踵而至,抗议浪潮呼吁美国种族公正。

  • 联发科独立AI处理器APU3.0,手机AI应用的原动力

    近年来,手机在语音助手、AI拍照、视频优化、VR/AR游戏等方面的AI应用快速发展,手机想要实现这些AI应用,需要芯片提供足够强大的AI算力和低功耗效能,因此手机芯片厂商纷纷在SoC中加入了独立的人工智能处理器,用于专门进行AI运算。例如联发科的天玑系列5G芯片,无论是主打高端市场的天玑 1000 系列,还是主打中高端市场的天玑 800 系列,都搭载了联发科自研的独立AI处理器 APU 3.0。早在 2018 年,联发科就开始将独立AI处理器内?

  • Gravitylink推出钛灵AI市场,深入解决行业痛点,加速AI落地应用

    随着科学技术的发展,人工智能已渗透在城市的各个角落和生活的方方面面。在算力和算法技术发展迅猛的同时,人工智能行业又面临应用场景不明确、算法碎片化、研发成本极高等诸多市场挑战,难以落地实际应用场景之中。 可见,要深入解决行业痛点,加速AI落地应用是所有AI行业都应思考的问题。深圳时空引力科技有限公司(简称Gravitylink)致力于为全球开发者搭建AI模型交易服务平台,打通AI产业上下游,帮助AI服务商提供展示和交易?

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议