首页 > 产品 > 关键词 > Magi最新资讯 > 正文

Magi 火了:搜索引擎界的一股清流

2019-11-14 13:48 · 稿源:InfoQ公众号

声明:本文来自于微信公众号 InfoQ(ID:infoqchina),作者:Tina,授权站长之家转载发布。

“Peak Labs”公司近日发布了其人工智能系统 Magi 的公众版“ magi.com ”。通过这一搜索引擎,用户输入关键词,即可获取 Magi 从互联网文本中自主学习到的结构化知识和网页搜索结果,每个结构化结果后面都会附上来源链接和其可信度评分。

这跟我们使用的传统搜索引擎不同,传统搜索引擎返回的是一系列的链接,要解读问题,还需要自己去点击网页挖掘有用信息。

这一引擎发布后,引来大批网友围观,将它的服务器玩挂了。Magi 作者发微博做了回应:“突然很多人关注到了我们,真的很感谢大家,其实搜索引擎真的不是我们的主业,我们自己没做任何推广,更没来得及准备应对这恐怖的流量……Magi 单次搜索的计算量比一般的网页搜索要重很多,请大家手下留情,同时再次表示抱歉!”

magi.com 的结果中,答案在搜索框的正下方,链接则在页面右边,跟主流搜索引擎的用户界面相反。如在 magi.com 里搜索“编程语言”,出来的首先是各种主流编程语言的合集:C#、Python、Java、JavaScript…同时给予“编程语言”这个词以“描述”和“属性”解释。红黄绿的颜色代表 Magi 给出的可信评分级别。

在答案的右侧提供了一些链接,用鼠标划过它们即可看到,答案是从哪个具体的来源学习到的:

Magi 的关注点在用户搜索行为的本质,相对传统搜索引擎来说做了一点小改进 :“帮你思考”。当输入想了解事物或信息,传统搜索引擎给出的是按照结果的权重 (Page Rank) 展现的链接信息,需要自己去归纳和判断可信度。Magi 多做了一步,不仅收录互联网上的海量文本,还会去尝试理解并学习这些文本中蕴含的知识和数据。

季逸超表示,Magi 类似于民用版的 IBM Watson 或非学术版的 Wolfram Alpha。Wolfram Alpha 是一个读得懂你提问的搜索引擎,它的目标是“计算一切” 。按照发明者 Stephen Wolfram 的说法,它是一个计算知识引擎,而不是像百度或者谷歌那样的搜索引擎。简单地说来,它其实是一个绘图计算器、参考书图书馆、以及搜寻引擎的综合体,非常超前。

除了直接给出计算结果,Wolfram Alpha 还能够处理基于自然语言的事实问答问题,例如:

  • 如果输入“China GDP”,出现的将不是一大堆网页,而是直观的数据和图表。包括:中国 GDP 最新情况,从 1970 年至今的中国 GDP 增长情况(图表形式)、中国通货膨胀率、失业人口率。

  • 如果输入“How many people in China”,你可以看到当前中国的总人口数、人口密度、平均每年人口增长率、预期寿命和平均年龄等数据。

Magi 的背后

Magi 来自中国团队 Peak Labs,创始人季逸超在开发者圈子内也小有名气。2011 年,还在北大附中读书期间,他就独自完成了猛犸浏览器 iOS 的开发。2012 年,季逸超创办了自己的公司,继续推动浏览器和输入法项目。目前,Peak Labs 主要精力都放在 Magi 项目上,专注于背后的技术,以及相关商业产品的开发。

“我们真正做商业化的,是 Magi 背后的技术——基于迁移学习的开放信息提取。”Magi 采取的迁移学习 NLU 算法,具有的优势在于只需使用通用数据训练 AI 引擎,就能使 AI 引擎很好的适用专业垂直领域。Magi 首先使用互联网知识和自有的数据进行预训练,而专业垂直领域的任务仅需极少量人工数据标注,就能达到大规模数据的训练效果。

季逸超在知乎上给出了详细而全面的技术解读

 一、利用率和通用性

Magi 不再依赖于预设的规则和领域,“不带着问题” 地去学习和理解互联网上的文本信息,同时尽可能找出全部信息 (exhaustive) 而非挑选唯一最佳 (most promising)。Magi 通过一系列预训练任务淡化了具体实体或领域相关的概念,转而学习 “人们可能会关注内容中的哪些信息?”。为 Magi 设计了专门的特征表达、网络模型、训练任务、系统平台(下面都会讲到),并投入大量精力逐渐构建了 proprietary 的专用训练 / 预训练数据。Magi 通过终身学习持续聚合和纠错,为人类用户和其他人工智能提供可解析、可检索、可溯源的知识体系。

 二、覆盖率和时效性

配合自家 web 搜索引擎以评估来源质量,信息源和领域不设白名单,综合 Clarity(清晰度)、Credibility(可信度)、Catholicity(普适性)三个 Magi 权衡知识工程的规模化和准确性难题的量化标准来进行来源质量评估。且注重时效性,时效性体现在上文提到的对既有知识的时间线追踪,做到不再周期性触发 batch 更新,整个系统持续在线上学习、聚合、更新、纠错。

 三、可塑性和国际化

没有前置 NER 和 dependency parsing 等环节,减少母文本信息的损失。为 Magi 的提取模型设计了专用的 Attention 网络结构以及数个配套的预训练任务。技术栈完全 language-independent,可以实现低资源和跨语言 transfer。

它做对了什么?

Magi 官网和季逸超自己也坦承还存在一些不足,比如消歧义、工程性,以及规模化和准确度等。对于搜索慢的问题,季逸超在微博中说,这是由于单次搜索的计算量比一般的网页搜索要重很多。Magi 搜索结果目前还不够好,但这也不妨碍它成为一个未来的搜索引擎方向,给用户提供一个可信任的和理解学习之后的知识。特别是发展在这个 AI 时代,搜索引擎的结果更应该贴近用户的需求。

现在的主流搜索引擎依靠机器抓取,建立在超链分析基础上的网页搜索,采用搜索爬虫和排序算法的组合,以关键词为核心自动检索,实现海量信息的自动获取与重要性排序。作为获取信息的入口,它直接关系到我们获取的信息的质量,也成就了早期的互联网公司。

但现在搜索引擎的过度商业化操作已经引起了用户的反感。Magi 的优势在于去除了商业化的元素,筛除了广告,使搜索到的信息更纯粹,更有价值,节省用户的时间。

季逸超在他的微博里说道:“现在的 Magi 饱含一个工程师朴素的初心,既不想拿广告恶心你,也对你的隐私毫无兴趣。”

Magi 引擎的“火”,说明了搜索引擎在向更好的方向发展。

  • 相关推荐
  • 大家在看
  • Google 搜索引擎导流作用越来越弱

    Google 联合创始人 Larry Page 和 Sergey Brin 在 2004 年公司上市时说,他们的搜索结果展示是最好的,广告很少,很有用,也不突出。Page 还表示,他们希望用户尽可能快的离开 Google 前往正确的地方。2019 年,美国众议院反垄断委员会主席 David Cicilline 询问这一声明是否还有效。

  • 支付宝被曝狂招搜索人才 官方回应:不做搜索引擎

    7月29日消息,针对近日狂招搜索人才的传闻,支付宝强调:不做搜索引擎,只做服务搜索。支付宝方面向《科创板日报》回应称,“我们的确在招人,春节左右就开始了,今年还会再招200人。但支

  • 请回答,搜索引擎!在自我提问中找到的SEM优化技巧

    SEMer一直在做优化,加词,改创意,调整排名,其实更需要停下来想一想。包括做信息流推广也是一样,抓取精准用户群体,哪些才是我们精准用户呢?我们很少去探究搜索词后面,网民在想啥?他为啥这样去搜索?

  • 互联网图片版权诉讼调研报告:31%用户直接通过搜索引擎获得相关图

    近日,北京互联网法院近日发布关于涉网图片类著作权案件的调研报告。报告指出,个别图片公司或者律师甚至专门从事图片维权诉讼,利用专业软件检索到侵权行为后再向图片权利人寻求授权,以提起诉讼的方式获取不正当商业利益。

  • 百度搜索资源平台:普通收录和死链提交工具不再支持索引型sitemap文件

    7月8日下午,百度搜索资源平台发布《sitemap提交方式优化公告》称,为了提升sitemap文件的处理效率,即日起搜索资源平台的普通收录和死链提交工具均不再支持索引型sitemap文件(即xml文档嵌套xml文档)。

  • 头条、抖音后,谁是字节跳动的新引擎?

    TikTok海外遇阻,全球化失利。作为字节跳动流量和营收支柱,头条和抖音已经或即将碰到天花板。字节跳动疯狂布局游戏、在线教育、电商三大赛道,这里能长出新增长引擎吗?

  • 深度对话:巨量引擎不想只卖广告

    “我们想深入到生意的链条中去。其中,会有无数新可能。”巨量引擎营销副总裁陈都烨这样说。今天,今日头条、抖音、西瓜视频等大热的平台,其广告业务都集中于巨量引擎之上。媒体的报道显示,巨量引擎在 2019 年拿下了超过 1000 亿人民币的广告收入,站在中国广告市场的前列。

  • 巨量引擎《动见》:数说直播营销

    商务部数据显示,今年一季度我国电商直播超过400万场,电商直播平台、短视频直播平台的直播场次呈爆炸式增长态势。虽然电商直播并不能代表直播营销的全貌,但它的繁荣足以证明直播商业的重心。6月30日,巨量引擎提供高层次营销洞察与深度研究成果的官方智库平台《动见》正式上线,以“营销的后直播时代”为主题,带来更多关于直播营销的思考。消费者在直播间里看什么根据《2020抖音直播数据图谱》显示,目前在直播间里,80后人均观

  • 支付宝回应被曝狂招搜索人才:做的是端内服务搜索

    今日,针对“狂招搜索人才”一事,支付宝回应称,“我们的确在招人,春节左右就开始了,今年还会再招 200 人。但支付宝不会像传统搜索引擎那样聚焦于信息搜索,支付宝要做的是端内服务搜索,我们在尝试把中心化流量通过激励的方式融入搜索运营。”

  • 巨量引擎《动见》:直播带货热潮下的冷静思考

    现阶段,直播带货在中国成为一个热潮。课堂上,很多EMBA学员也会提出相关的问题:直播带货到底是为了带货,还是为了营销?会成为一种主流趋势么?企业是否应该加入直播带货大潮?如何进行直播带货? 6 月 30 日,巨量引擎官方智库平台《动见》正式上线,以“营销的后直播时代”为主题,带来更多关于直播营销的思考。如今,商品、直播者、消费者构成了直播带货的三大主体。而消费者的规模、直播者的能力、消费者和商品的契合度,是?

  • 巨量引擎公布抖音广告创意指数CEI

    巨量引擎正式发布抖音广告创意指数CEI(Creativity Evaluation Index)与《2019- 2020 年度抖音广告创意观察报告》。创意指数CEI分为两个模型:适合全域广告,但更加适合品牌广告的为“创意精彩指数”,适合效果广告的为“创意效果指数”。每个维度的分数越高则代表该视频在此方面的创意能力越强。

  • 字节跳动收购容器平台才云科技 后者团队将加入火山引擎

    7月30日消息,据悉,字节跳动将于近日完成对容器平台才云科技( Caicloud )的全资收购,收购完成后,才云科技的团队及业务,将加入字节跳动火山引擎。成立于2015年的才云科技,初始定位是提供 Docker+Kubernetes 管理平台的 PaaS 服务。目前,才云科技主要产品包括智能容器云平台 Caicloud Compass 、AI 中台 Caicloud Clever 以及端到端智能解决方案。商业模式主要是以私有云和混合云形式向客户提供基于容器架构的产品

  • 蓝光地产发动人才驱动引擎,稳固企业长远发展

    作为人员流动性较大的行业,地产人员流失一直是各大房企都面临的一个发展难题。但蓝光地产通过建立了人才驱动策略,不仅解决了自身的人员紧缺问题,也让蓝光地产培养出了一批优秀的发展人才。总结自身的人才培养历程,蓝光地产的经验主要是稳扎稳打四个字。在建立自身的人才培养策略前,蓝光地产对当前地产界人员频频跳槽的原因进行了总结,针对存在的收入低、发展空间小、平台不佳、管理混乱以及频繁加班的几大主要原因,对自身的

  • 家居行业的新引擎,斑马仓用数字化智启未来

    从线下到线上,向数字化转型,是一条打破传统营销模式的“破局之路”。2020 年已匆匆走完上半场,很多装企老板在年中回顾复盘时内心免不了感叹疫情太狠、生意太差、生存不易。突如其来的疫情让本应黄金时期的线下零售业陷入“至暗时刻”,线下零售门店几乎停摆。家装市场被按下暂停键,家居需求暂时被压抑,但不会消失,家装行业依旧在重压下前行。赚钱不易,但依然充满希望,装企老板缺少的是面对复杂经济环境的信心和突围的方法?

  • 被永远改变的搜索,被低估的百度

    通用搜索业务重新得到了巨头的重视,但已经回不到从前。同时,作为搜索引擎的百度并没有衰落,而是体现出触底回升的迹象。

  • 字节跳动旗下巨量引擎宣布品牌升级 启用新logo

    ​今日,字节跳动旗下综合的数字化营销服务平台巨量引擎正式宣布品牌升级,并启用新logo。

  • 巨量引擎美好购车节即刻启动,央视名嘴帮你选好车

    8 月 1 日,巨量引擎首个平台级汽车促销活动——「美好购车节」将在抖音正式开幕。首届「美好购车节」将以“帮你选好车”为主题,联合央视财经频道及多位车圈大咖共同参与,帮助消费者“省钱省心省力”,买到称心好车。8 月 1 日到 7 日,每晚20: 00 在【抖音汽车快报】直播间,将由 7 位「好车心选官」接力直播,每天一个主题购车日, 7 天不间断。 8 月 8 日晚20:00,朱广权、尼格买提、龙洋、陈伟鸿四位央视主持人将组成「央视?

  • 巨量引擎《动见》论直播:如何用数据工具提升运营效率

    巨量引擎一直助力的直播为企业带来了哪些改变?企业入局直播需要考虑哪些因素?企业的内容运营该怎么做?哪些工具可以助力优化企业直播? 6 月 30 日,巨量引擎官方智库平台《动见》正式上线,映天下、独角鲸群、火星文化、山南云拓四家机构分享了他们的操盘经验。 “春节后,甲方对于直播卖货的营销需求,比春节前几乎增长了 5 到 10 倍。” 据知情人士透露,受疫情和宏观经济的双重影响,今年广告主纯广告的预算有所缩减,决策也更?

  • 抖音崩了?收藏没了 搜索结果也为空

    凤凰网科技讯 7月30日消息,很多用户今天打开抖音之后发现抖音界面刷不出任何的内容了,页面上显示搜索结果为空。据网友爆料显示,仅有部分用户受到影响。还有网友爆料说:“一开始以为是手机或者网络问题,后来一看,真是崩了,评论区没了。”截至发稿,抖音尚未对此进行回复。

  • 反复搜索并点击自己网站,对SEO排名影响有哪些?

    ​在做SEO的过程中,我们总是会有一个小习惯,那就是当我们刚开始做网站排名的时候,总是习惯性的去搜索自己的关键词,并且去点击相关的页面。  

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议
  • 热门标签