站长之家首页 > 点评 > 谷歌最新资讯 > 正文

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

2020-02-05 10:24 · 稿源:脑极体公众号

声明:本文来自于微信公众号 脑极体(ID:unity007),作者:海怪,授权站长之家转载发布。

预测未知,一直是人类十分向往的能力。远不说国人熟悉的周易八卦、唐代道士编写的《推背图》,还有西方人熟知的占星术、中世纪流行起来的塔罗牌,近的比如说当年根据 “ 2012 世界末日”这一玛雅预言影响下出现的全民狂热和商业狂欢,依然让我们记忆犹新。

现在“不问苍生问鬼神”的时代已经过去,我们对物理世界及社会经济的确定性的、经验性的甚至概率性的预测都已轻车熟路。但比如说像“蝴蝶效应”描述的高度复杂的、超多变量以及超大数据量的预测,人类还是束手无策么?

答案并不是。

人工智能 AI 机器人

近日,我国武汉新型冠状病毒疫情的爆发引起世界卫生组织和全球多地卫生机构的密切关注。其中,《连线》杂志报道了“一家加拿大公司BlueDot通过AI监测平台率先预测和发布武汉出现传染疫情”的新闻,得到国内媒体的广泛关注。这似乎是我们在“预测未来”这件事上最想看到的成果——借助大数据沉淀基础和AI的推断,人类似乎正能够揣摩“天意”,揭示出原本深藏于混沌之中的因果规律,从而在天灾降临前试图挽救世界。

今天我们就从传染病预测出发,看看AI是如何一步步走向“神机妙算”的。

谷歌GFT频喊“狼来了”:流感大数据的狂想曲

用AI预测传染病显然不是Bluedot的专利,其实早在 2008 年,今天的AI“强手”谷歌,就曾进行过一次不太成功的尝试。

2008 年谷歌推出一个预测流感流行趋势的系统——Google Flu Trends(谷歌流感趋势,以下简称GFT)。GFT一战成名是在 2009 年美国H1N1 爆发的几周前,谷歌工程师在《Nature》杂志上发表了一篇论文,通过谷歌累积的海量搜索数据,成功预测H1N1 在全美范围的传播。就流感的趋势和地区分析中,谷歌用几十亿条检索记录,处理了4. 5 亿个不同的数字模型,构造出一个流感预测指数,其结果与美国疾病控制和预防中心(CDC)官方数据的相关性高达97%,但要比CDC提前了整整 2 周。在疫情面前,时间就是生命,速度就是财富,如果GFT能一直保持这种“预知”能力,显然可以为整个社会提前控制传染病疫情赢得先机。

然而,预言神话没有持续多久。 2014 年,GFT又再次受到媒体关注,但这一次却是因为它糟糕的表现。研究人员 2014 年又在《Science》杂志发布 “谷歌流感的寓言:大数据分析的陷阱” 一文,指出在 2009 年,GFT没有能预测到非季节性流感A-H1N1。从 2011 年 8 月到 2013 年 8 月的 108 周里,GFT有 100 周高过了CDC报告的流感发病率。高估了多少呢?在2011- 2012 季,GFT预测的发病率是CDC报告值的1. 5 倍多;而到2012- 2013 季,GFT预测流感发病率已是CDC报告值的 2 倍多。

(图表来自The Parable of Google Flu: Traps in Big Data Analysis | Science,2014)

(图表来自The Parable of Google Flu: Traps in Big Data Analysis | Science,2014)

尽管GFT在 2013 年调整了算法,并回应称出现偏差的罪魁祸首是媒体对GFT的大幅报道导致人们的搜索行为发生了变化,GFT预测的2013- 2014 季的流感发病率,仍然高于CDC报告值1. 3 倍。并且研究人员前面发现的系统性误差仍然存在,也就是“狼来了”的错误仍然在犯。

到底GFT遗漏了哪些因素,让这个预测系统陷入窘境?

根据研究人员分析,GFT的大数据分析出现如此大的系统性误差,其收集特征和评估方法可能存在以下问题:

一、大数据傲慢(Big Data Hubris)

所谓“大数据傲慢”,就是谷歌工程师给出的前提假设就是,通过用户搜索关键词得到的大数据包含的即是流感疾病的全数据收集,可以完全取代传统数据收集(采样统计),而不是其补充。也就是GFT认为“采集到的用户搜索信息”数据与 “某流感疫情涉及的人群”这个总体完全相关。

这一 “自大”的前提假设忽视了数据量巨大并不代表数据的全面和准确,因而出现在 2009 年成功预测的数据库样本不能涵盖在之后几年出现的新的数据特征。也是因为这份“自负”,GFT也似乎没有考虑引入专业的健康医疗数据以及专家经验,同时也并未对用户搜索数据进行“清洗”和“去噪”,从而导致此后流行病发病率估值过高但又无力解决的问题。

二、搜索引擎演化

同时搜索引擎的模式也并非一成不变的,谷歌在 2011 年之后推出“推荐相关搜索词”,也就是我们今天很熟悉的搜索关联词模式。

比如针对流感搜索词,给出相关寻求流感治疗的list, 2012 年后还提供相关诊断术语的推荐。研究人员分析,这些调整有可能人为推高了一些搜索,并导致谷歌对流行发病率的高估。举例来说,当用户搜索“喉咙痛”,谷歌会在推荐关键词给出“喉咙痛和发烧”、“如何治疗喉咙痛”等推荐,这时用户可能会出于好奇等原因进行点击,造成用户使用的关键词并非用户本意的现象,从而影响GFT搜集数据的准确性。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

而用户的搜索行为反过来也会影响GFT的预测结果,比如媒体对于流感流行的报道会增加与流感相关的词汇的搜索次数,进而影响GFT的预测。这就像量子力学家海森堡指出的,在量子力学中存在的“测不准原理”说明的一样,“测量即干涉”。

那么,在充斥媒体报道和用户主观信息的搜索引擎的喧嚣世界里,也同样存在“预测即干涉”悖论。搜索引擎用户的行为并不完全是自发产生,媒体报道、社交媒体热点、搜索引擎推荐甚至大数据推荐都在影响用户心智,造成用户特定搜索数据的集中爆发。

为什么GFT的预测总是偏高?根据这一理论,我们可以知道,一旦GFT发布的流行病预测指数升高,立刻会引发媒体报道,从而导致更多相关信息搜索,从而又强化GFT的疫情判断,无论如何调整算法,也改变不了“测不准”的结果。

三、相关而非因果

研究人员指出,GFT的根源问题在于,谷歌工程师并不清楚搜索关键词和流感传播之间到底有什么因果联系,而只是关注数据之间的——统计学相关性特征。过度推崇“相关”而忽略“因果”就会导致数据失准的情况。比如,以“流感”为例,如果一段时间该词搜索量暴涨,可能是因为推出一部《流感》的电影或歌曲,并不一定意味着流感真的在爆发。

一直以来,尽管外界一直希望谷歌能够公开GFT的算法,谷歌并没有选择公开。这让很多研究人员质疑这些数据是否可以重复再现或者存在更多商业上的考虑。他们希望应该将搜索大数据和传统的数据统计(小数据)结合起来,创建对人类行为更深入、准确的研究。

显然,谷歌并没有重视这一意见。最终在 2015 年GFT正式下线。但其仍在继续收集相关用户的搜索数据,仅提供给美国疾控中心以及一些研究机构使用。

为什么BlueDot率先成功预测:AI算法与人工分析的协奏曲

众所周知,谷歌在当时已经在布局人工智能, 2014 年收购DeepMind,但依然保持它的独立运营。同时,谷歌也没有GFT再投入更多关注,因此也并未考虑将AI加入到GFT的算法模型当中,而是选择了让GFT走向“安乐死”。

几乎在同一时期,今天我们所见到的BlueDot诞生。

BlueDot是由传染病专家卡姆兰·克汗(Kamran Khan)建立流行病自动监测系统,通过每天分析 65 种语言的约 10 万篇文章,来跟踪 100 多种传染病爆发情况。他们试图用这些定向数据收集来获知潜在流行传染病爆发和扩散的线索。BlueDot一直使用自然语言处理(NLP)和机器学习(ML)来训练该“疾病自动监测平台”,这样不仅可以识别和排除数据中的无关“噪音”,比如,系统识别这是蒙古炭疽病的爆发,还仅仅是 1981 年成立的重金属乐队“炭疽”的重聚。又比如GFT仅仅将“流感”相关搜索的用户理解为可能的流感病患者,显然出现过多不相关用户而造成流行病准确率的高估。这也是BlueDot区别于GFT在对关键数据进行甄别的优势之处。

就像在这次在新型冠状病毒疫情的预测中, 卡姆兰表示,BlueDot通过搜索外语新闻报道,动植物疾病网络和官方公告来找到疫情信息源头。但该平台算法不使用社交媒体的发布内容,因为这些数据太过杂乱容易出现更多“噪音”。

关于病毒爆发后的传播路径预测,BlueDot更倾向于使用访问全球机票数据,从而更好发现被感染的居民的动向和行动时间。在 1 月初的时候,BlueDot也成功预测了新型冠状病毒从武汉爆发后,几天之内从武汉扩散至北京、曼谷、汉城及台北。

新冠病毒爆发并非是BlueDot的第一次成功。在 2016 年,通过对巴西寨卡病毒的传播路径建立AI模型的分析,BlueDot成功地提前六个月预测在美国佛罗里达州出现寨卡病毒。这意味着BlueDot的AI监测能力甚至可以做到预测流行病的地域蔓延轨迹。

从失败到成功,BlueDot和谷歌GFT之间究竟存有哪些差异?

一、预测技术差异

之前主流的预测分析方法采取的是数据挖掘的一系列技术,其中经常用到的数理统计中的“回归”方法,包括多元线性回归、多项式回归、多因Logistic回归等方法,其本质是一种曲线的拟合,就是不同模型的“条件均值”预测。这也正是GFT所采用的预测算法的技术原理。

在机器学习之前,多元回归分析提供了一种处理多样条件的有效方法,可以尝试找到一个预测数据失误最小化且“拟合优度”最大化的结果。但回归分析对于历史数据的无偏差预测的渴求,并不能保证未来预测数据的准确度,这就会造成所谓的“过度拟合”。

据北大国研院教授沈艳在《大数据分析的光荣与陷阱——从谷歌流感趋势谈起》一文中分析,谷歌GFT确实存在“过度拟合”的问题。也就是在 2009 年GFT可以观察到2007- 2008 年间的全部CDC数据,采用的训练数据和检验数据寻找最佳模型的方法所参照的标准就是——不惜代价高度拟合CDC数据。所以,在 2014 年的《Science》论文中指出,会出现GFT在预测2007- 2008 年流感流行率时,存在丢掉一些看似古怪的搜索词,而用另外的 5000 万搜索词去拟合 1152 个数据点的情况。 2009 年之后,GFT要预测的数据就将面临更多未知变量的存在,包括它自身的预测也参与到了这个数据反馈当中。无论GFT如何调整,它仍然要面对过度拟合问题,使得系统整体误差无法避免。

BlueDot采取了另外一项策略,即医疗、卫生专业知识和人工智能、大数据分析技术结合的方式,去跟踪并预测流行传染病在全球分布、蔓延的趋势,并给出最佳解决方案。

让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?

BlueDot主要采用自然语言处理和机器学习来提升该监测引擎的效用。随着近几年算力的提升以及机器学习,从根本上彻底改变了统计学预测的方法。主要是深度学习(神经网络)的应用,采用了“反向传播”的方法,可以从数据中不断训练、反馈、学习,获取“知识”,经过系统的自我学习,预测模型会得到不断优化,预测准确性也在随着学习而改进。而模型训练前的历史数据输入则变得尤为关键。足够丰富的带特征数据是预测模型得以训练的基础。经过清洗的优质数据和提取恰当标注的特征成为预测能否成功的重中之重。

二、预测模式差异

与GFT完全将预测过程交给大数据算法的结果的方式不同,BlueDot并没有完全把预测交给AI监测系统。BlueDot是在数据筛选完毕后,会交给人工分析。这也正是GFT的大数据分析的“相关性”思维与BlueDot的“专家经验型”预测模式的不同。AI所分析的大数据是选取特定网站(医疗卫生、健康疾病新闻类)和平台(航空机票等)的信息。而AI所给出的预警信息也需要相关流行病学家的再次分析才能进行确认是否正常,从而评估这些疫情信息能否第一时间向社会公布。

当然,就目前这些案例还不能说明BlueDot在预测流行病方面已经完全取得成功。首先,AI训练模型是否也会存在一些偏见,比如为避免漏报,是否会过分夸大流行病的严重程度,因而再次出现“狼来了”的问题?其次,监测模型所评估的数据是否有效,比如BlueDot谨慎使用社交媒体的数据来避免过多的“噪音”?

幸而BlueDot作为一家专业的健康服务平台,他们会比GFT更关注监测结果的准确性。毕竟,专业的流行病专家是这些预测报告的最终发布人,其预测的准确度直接会影响其平台信誉和商业价值。这也意味着,BlueDot还需要面临如何平衡商业化盈利与公共责任、信息开放等方面的一些考验。

AI预测流行病爆发,仅仅是序曲……

“发出第一条武汉冠状病毒警告的是人工智能?”媒体的这一标题确实让很多人惊讶。在全球一体化的当下,任何一地流行疾病的爆发都有可能短时间内传遍全球任何一个角落,发现时间和预警通报效率就成为预防流行疾病的关键。如果AI能够成为更好的流行病预警机制,那不失为世界卫生组织(WHO)以及各国的卫生健康部门进行流行病预防机制的一个办法。

那这又要涉及到这些机构组织如何采信AI提供的流行病预报结果的问题。未来,流行病AI预测平台还必须提供流行病传染风险等级,以及疾病传播可能造成的经济、政治风险的等级的评估,来帮助相关部门做出更稳妥的决策。而这一切,仍然需要时间。这些组织机构在建立快速反应的流行病预防机制中,也应当把这一AI监测系统提上日程了。

可以说,此次AI对流行病爆发提前成功地预测,是人类应对这场全球疫情危机的一抹亮色。希望这场人工智能参与的疫情防控的战役只是这场持久战的序曲,未来应该有更多可能。比如,主要传染病病原体的AI识别应用;基于主要传染病疫区和传染病的季节性流行数据建立传染病AI预警机制;AI协助传染病爆发后的医疗物资的优化调配等。这些让我们拭目以待。

  • 大家在看
  • 相关推荐
  • 谷歌推出TensorFlow Quantum 可用于构建量子AI模型

    谷歌宣布推出了TensorFlow Quantum (TFQ),这是一个用于构建量子机器学习模型原型的开源库。虽然量子计算机还不是主流,但当它们到来时,就需要算法。TFQ填补了这一空白,让开发者有可能创造出混合人工智能算法,,既使用经典计算技术,又使用量子计算机电路模拟。

  • 人脸识别公司Clearview AI数据泄露 客户名单信息被盗

    面部识别软件制造商Clearview AI周三表示,它遭遇了数据泄露。被窃取的数据包括该公司的全部客户名单、客户的搜索次数以及每个客户的账户数量。

  • 近5年全球AI投资半数流向美国公司 占比高达56%

    据国外媒体报道,人工智能是近几年全球的一大热点,谷歌人工智能程序AlphaGo在人机围棋大战中的出色表现,也让外界充分认识到了人工智能的巨大潜力,人工智能也吸引了投资者的关注。

  • 硅谷强制要求取消大型会议,谷歌等科技公司受影响

    3月10日据macrumors报道,美国加州圣克拉拉县发布公告,强制要求当地取消所有大型会议等活动,为期至少3周时间,原因是当地已经出现大量新冠肺炎病例。在上周该县对大型活动还只是建议级别,不过随着当地防疫形式不容乐观,当地提高了要求。受此影响,谷歌、Facebook等硅谷科技公司已经取消了开发者大会,目前苹果还未确定6月份的WWDC是否会继续举行。

  • 谷歌旗下自动驾驶公司Waymo获得22.5亿美元融资

    3月3日据theverge报道,谷歌旗下的自动驾驶公司Waymo在第一轮外部融资中获得了22.5亿美元的融资,Silver Lake,加拿大退休金计划投资委员会和阿布扎比主权财富基金牵头在本次融资中领投,其他投资者包括Magna International,Andreessen Horowitz和AutoNation以及Alphabet参与融资。Waymo最早在2009年成立,2016年独立出来以单独的公司运营。

  • 苹果、谷歌、亚马逊、微软等多家科技公司将参与白宫主持的会议

    3月11日据appleinsider报道,苹果、谷歌、亚马逊、微软、推特等多家大型科技公司的代表正计划参加由美国首席技术官Michael Kratsios主持的白宫会议。会议希望解决面对冠状病毒爆发时,联邦政府和科技行业如何共同合作。参加这次会议的各公司管理层可能会亲自前往美国白宫或者通过电视电话会议来参与讨论。

  • 增强现实创业公司 Magic Leap 寻求出售,估值或超 100 亿美元

    据彭博社报道,知情人士透露,AR 创业公司 Magic Leap 正在探索包括出售在内的多种战略选择。目前该公司的融资额已经达到 20 亿美元。

  • 上路四年,融资烧尽:一家「远程」无人驾驶创业公司的末路

    又一家无人驾驶汽车公司倒闭了。他们「把卡车司机请到远程控制中心」的做法好像并不受投资人青睐。这家名为 Starsky Robotics 的无人驾驶创业公司,在经历了融资失败、缩减车队、大幅度裁员一系列风波之后,最终还是没有撑过 2020 年的春天。

  • 原阿里巴巴首席架构师钟华离职创业,现任比升技术公司CEO

    3月19日据36氪消息,原阿里巴巴中间件首席架构师钟华已离职创业,现已担任中台公司“比升技术”CEO,该公司成立于 2018 年,目前已获得香港民生大数据有限公司 2000 万元的天使轮投资。

  • Alphabet旗下公司推出新冠病毒筛查网站 使用者需注册谷歌账户

    今天,Alphabet旗下的公司在旧金山湾区推出了COVID- 19 筛选和检测网站的试点,比预期提前了一天。用户需要拥有一个谷歌账户,并同意可能与谷歌共享的信息的条件才能符合筛选条件。该网站是总部位于湾区的生物技术公司Verily与加州州长办公室以及其他地方、州和联邦官员合作建立的。网站通过一个多步骤的过程,加州居民需要进行一个在线的新冠病毒“筛选调查”,这将引导患者到圣马特奥县和圣克

  • 玖富数科集团发布AI教育产品 赋能AI人才建设

    在推动教育数字化,智能化转型过程中,玖富数科集团持续发挥集团在AI技术方面的优势,结合目前教育行业的政策指导,充分集合目前的教育场景,开发出了更有针对性的AI教育产品,玖智工场就是其中之一。据悉,该AI教育产品是基于玖富超级大脑推出自主研发的,是玖富数科集团针对AI教育领域推出的智能应用开发平台,作为一个AI商业实战开发平台,玖智工厂可为用户提供基础与核心课程、实训教室、实习与就业机会等资源,用AI赋能数字教

  • Facebook 与谷歌、微软等七家大型科技公司就 COVID-19 发布行业联合声明

    联合声明写道:「我们在 COVID-19 响应工作上紧密合作。我们正在帮助数以百万计的人保持联系,同时共同打击有关该病毒的欺诈和错误信息,提升我们平台上的权威性内容,并与世界各地的政府医疗机构协调共享重要更新。我们邀请其他公司加入我们的行列,以保持社区的健康和安全。」

  • 美国政府与谷歌等科技公司讨论,利用智能手机定位数据来对抗疫情

    3月18日据华盛顿邮报​消息,美国政府正在与Facebook,谷歌以及其他科技公司进行谈判,讨论如何使用智能手机中的位置数据来对抗冠状病毒。科技公司可以汇总匿名位置数据,这些数据可以用于绘制冠状病毒的分布图,并确定社交距离是否是有效的病毒缓解策略。讨论和项目都处于早期阶段。

  • 百度推出电子出入证、社区AI测温系统等多款防疫AI产品

    3月6日消息,近日,百度推出电子出入证、社区AI测温系统、“ 8 合1”小程序等多款AI产品。其中,社区防疫电子出入证,只需要用手机百度或者微信扫一扫二维码,填写住户信息后就可以自动生成当天的动态通行证;AI测温系统可以让居民不用停留即走即测;综合性社区防疫小程序,拥有疫情地图、同乘查询、智能自测、发热门诊、心理咨询、防护手册、问题上报、免费问诊等八大模块。

  • 谁是中国AI芯片的少林和武当?

    芯片行业的历史上,很少出现创业热潮,但AI再次掀起的热潮不仅吸引了全球多家科技巨头进入了芯片行业,也让我们得以见证了AI芯片的崛起。中国作为全球重要的AI芯片公司聚集地,你应该会好奇到底哪些人加入了AI芯片的大潮?这些人是否又有一些共同的标签?

  • 搜狗AI录音笔S1:行业首创AI降噪功能,可过滤4万余种真实噪音

    2 月 26 日下午 2 点,搜狗召开“同舟共记, 2020 搜狗AI录音笔新品线上发布会”。在会上,搜狗重磅发布了多款搜狗AI录音笔新品,其中最引人瞩目的是首款具有AI降噪功能的AI录音笔S1。业内首创AI降噪功能,强大的软硬件结合能力解决行业难题 便携式录音笔最早出现在上个世纪末,但是十几年来,录音笔产品形态虽然有一些迭代,但是一些痛点始终没有解决。例如录音过程中的噪声问题,在日常使用录音笔的场景中,环境噪声不可避免,?

  • 云测数据:新基建时代的“AI数据雄兵”

    几年前,AlphaGo瞬间点燃了AI的激情与梦想,巨大的光环把AI推向了市场的风口。之后的几年国内的AI创业虽然几经起落,但也逐渐走向成熟。AI产业将逐渐褪去浪漫主义的“光环”,走向实用主义的落地。在 3 月 4 日,国家决策层提出要发力于科技端的基础设施建设,人工智能成为“新基建”七大版块中的重要一项。“新基建”的呼啸而至,显然为中国AI产业的稳步推进起到了关键的作用。简单回顾一下AI的发展历程,AI的三大要素是指算法、?

  • 谷歌取消线下大会

    新冠病毒在全世界蔓延,给科技企业和互联网行业带来了越来越严重的影响。据外媒最新消息,谷歌日前宣布因为病毒疫情,将取消每年一度的线下云计算大会(但举办一个在线大会),另外在欧洲爱尔兰,谷歌通知 8000 名员工和承包商员工居家远程工作。“我们正在将活动转换为谷歌Cloud Next 20:Digital Connect,这是一项免费的、全球性的、数字优先的多日活动,包含流媒体主题演讲、分组讨论、互动式学习,以及向谷歌团队进行数字化专

  • 嘀嗒公司被约谈

    据交通运输部消息, 2 月 27 日,交通运输新业态协同监管部际联席会议办公室对嘀嗒公司进行了电话约谈。约谈要求,嘀嗒公司要服从疫情防控大局,落实好企业主体责任。

  • 瘟疫公司下架

    今天,有网友发现之前曾连续登顶iOS付费游戏榜榜首的《瘟疫公司》目前已在App Store中国区下架,原因不明。目前App Store已无法搜索到该游戏。已下载的用户更新该应用时会收到“不再提供《Plague Inc.(瘟疫公司)》,开发人员已从App Store中移除此App”的提示。《瘟疫公司》是一款策略模拟类游戏。游戏中提供了细菌、病毒、真菌、寄生虫、朊病毒、纳米病毒和生化武器七种病原体,统称为游戏的基本病原体,游戏开始前为病原体注入一

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议