首页 > 评论 > 关键词 > 搜索引擎最新资讯 > 正文

在这个多语言的世界里,知道你要搜什么吗?

2015-10-22 10:58 · 稿源:创见

所有类似 Google 这样的搜索引擎,核心处理过程都一样:从言辞寥寥的模糊问题中解读出最可能的涵义,从问题中推测出用户的意图,进而根据以上推测决定最优搜索结果,反馈给用户。互联网的语言种类越来越多,丰富的语言多样性使得搜索的过程更为复杂。由于同一主题的相关搜索词汇在不同国家的语言中大不一样,宏观社会层面的搜索数据的尝试遇到了挑战。本文中我将探讨 Google Trends 试图解决多语言问题作出的尝试以及其使用的方法的局限和冲突产生之处。

我们可以想象用户用 Google 搜索「pizza」的过程:用户可能想知道附近有多少家披萨店 (第一次来到这片区域),可能想知道今天的特价午餐列表 (用户已经知道附近的餐厅,正决定去哪家吃午餐) 或者披萨菜谱 (正准备亲自下厨)。用户也可能是一个正在准备论文的学生,想知道披萨的历史以及它对全球的影响,再或者,用户是一个尝试推行新菜品的厨师,想要了解最近的披萨的趋势。Google 必须判断这些可能的情况,选择最相关的信息反馈给用户。每一种不同的情况得到的搜索网页将大不相同。

你如果扫一眼 Google Trends 的「pizza」搜索条目页面底部的相关搜索,就能够感受到当中的复杂程度。从「附近的披萨店」、披萨优惠券到披萨菜谱,各个方面的信息在搜索列表中一应俱全。从搜索条目时间轴可以很明显的看出,全球范围的用户对披萨的搜索量在过去的十年中呈现近乎完美的线性增长。以下的搜索量分布地图显示美国、加拿大、澳大利亚和新西兰成为披萨搜索榜的领先国家,而披萨的产地意大利却排名较靠后。

出现这个现象的原因可想而知,「pizza」很明显是一个英文单词,所以搜索结果地图上仅显示了使用英语的网友。想要更准确地了解世界范围内披萨的搜索热度,我们必须将同词义的各国语言词汇都纳入搜索。为了帮助理解多语言环境下的某一主题,Google Trends 针对每个独立的标签构建「主题」,即用预先定义的标题对所有相关的词汇、替代拼写和其他语言的名称进行分组。Google 给了一个例子,主题「东京」——日本首都,同义词有東京, Токио, Tokyyo, Tokkyo,还有相关词汇比如「日本首都」。搜索主题「pizza」——而不是英文单词「pizza」——得到了同样的搜索时间轴,但是地理分布图却大不一样。地图显示搜索量主要集中在意大利和欧洲而不是美国(虽然美国的搜索量也很多)。

可见主题的功能非常强大,它能够将多种语言的相关词汇集中起来。另一方面,同一个单词在不同语言中涵义不同即语言重叠会让主题搜索变得混乱。以下的折线图证明了这一点,可以清楚的看出,美国对英文词组「united nations」的搜索量在过去十年中稳速下滑,世界范围内的搜索趋势亦是如此。

阿拉伯人或日本人可能不会使用英文词汇「united nations」,Google 创建了主题「united nations」来将它在其他语言中的拼写和相关词汇集中在一起。美国国内对主题「united nations」的搜索相对稳定,主要是因为该主题收录了「united nations」常用的首字母缩写。然而,下图中显示的全球范围内对「united nations」的搜索趋势几乎与美国国内的趋势相反,搜索热度呈现线性增长。

是什么导致了这种现象呢?主要原因是 Google 把「un」作为同义词收录到了 united nations 主题下。从以下地图中各国对 united nations 主题搜索热度情况来看,拉脱维亚排第一,靠前的排名几乎都被法国和讲西班牙语的国家占据。

拉提维亚、法国和西班牙语国家都将「un」作为常用的冠词, 类似于英语中的「the」。事实上,在 Google Trends 上搜索单词「un」会得到和搜索主题「united nations」一样的结果。

我们进一步看,即使是美国人也会将「un」作为西班牙语使用,比如说搜索「Darte un Beso」——2013 年的一首热歌,「como hacer un」(一本指南书名) 以及人名「Kim Jong Un」。事实证明不仅是 united nations 主题可能会因为收录「un」而产生不准确的搜索数据,即使将搜索数据限制在某一国家范围之内也无法消除语言的不同,因此辨别模糊的语义必须从语言本身来判断,而不是依靠地理或政策。

问题出现的潜在原因是主题全球词汇的编辑由机器学习或者人工编辑们预先完成。这个过程本质是在做一个复杂的布尔或命题,命题没有包含语义丰富的上下文消除歧义,给定的单词在问题中怎么用,问题的语言,以前的问题等等,因为难以消除歧义得到真正的涵义。在主题编辑的过程中词汇和语义的关联主要由它们的最常使用方式决定而不是上下文语境,故而不管你是用英文还是拉脱维亚语搜索,「un」都被当做 United Nations 的缩写。Google Trends 存在的问题是没有提供给用户一种简单的方式来查看相关主题的完整词条列表,以及主题和词条的隶属关系,进而根据自身领域知识来移除一些有错误的词条。

这不仅仅是语义上的主题使用混乱。如果使用 Trends 搜索「美国总统选举,2016」并将搜索结果缩小到美国用户,结果显示搜索热度在 2012 年美国总统奥巴马连任数月后急剧增长。另外,2004 年 10 月对「2016 选举」的搜索热度要高于现在。

查看相关搜索列表,可以很明显的看出主题包含许多「选举」、「总统选举」、「选举民意调查」这类的词汇,这些都是通用词汇,不单指 2016 年选举,这些词条的收录可能解释了搜索热度在 2004 年出现了高峰的原因。然而,相关度排名第二的词汇是「2016」,主题中还收录了 2016 年奥运会,2016 年的各种车型以及其他与 2016 相关重大事件,总统选举仅占据相关搜索的一部分。进一步看,与 2016 相关的所有搜索趋势都呈现相似的增长,这证明了「2016」是导致相关上涨的原因。仅针对「选举」的搜索则呈现相对稳定的结果,在 2015 年的热度相对过去几年没有显著的增长,目前的搜索水平也没有超过往年的峰值。

那么关键问题是,哪一个搜索结果是正确的呢?「2016 年选举」的搜索热度真的在 10 年前达到了峰值?并且在奥巴马连任后突然性的增长?亦或者,搜索热度一直稳定,相对过去十年没有增长?除非把「2016 选举」这个主题收录的所有词条一一列出逐条分析它们的搜索热度趋势图,否则我们不可能知道哪一张趋势图是正确的。事实上,大数据分析常常基于这样预定义的聚合和过滤操作,在很大程度上是不透明的,难以洞察其中的真实规律。

我们的研究工作中有两个主要问题——多语言的网络环境造成的搜索准确度的降低以及数据过滤的不透明性对分析结果的实质影响。Google 使用预定义的主题来管理不同语言中的相关词汇,走出了冲破全球语言壁垒的一大步。另一方面,主题中语言歧义可能导致搜索结果混乱不清,原因有两个,一是词汇在不同语言中表意不同;二是主题词条收录的问题,比如总统选举的主题下有一些和 2016 年高度相关的词条,这显然是不合适的。Google 如果想让主题管理词条的方式为主流所接受,必须提高数据过滤过程的透明度。Google 可以添加一个展示主题下所有的词条的界面,每个词条附有其对搜索结果的影响以及它们语义、地理、学术方面的上下文,并且提供编辑和移除词条的功能,这对解决以上问题有很大的帮助。

互联网起源于学术工作者小范围的信息交流,如今已经成长到一个覆盖全球语言的信息网络。上文中搜索混乱的问题仅仅只是信息搜索技术全球扩张和成长过程必然的阻碍,在未来,语言将不会成为我们了解世界的阻碍。

本文来源:Forbes 译文创见首发 由 TECH2IPO/创见 尘大大 编译 转载请注明出处

 

  • 相关推荐
  • 大家在看
  • 影响网站在百度搜索SEO排名的因素有哪些?

    “SEO诞生有20+年了,我是 2011 年即 10 年入的坑,其实彼时已进行SEO第二阶段了,那时流行一句话叫【内容为王,外链为皇】。很多新人不懂,那时我也不懂,后面懂了。”

  • 今日头条上线搜索广告,8月刚引入前百度搜索高管

    字节跳动在近期上线了“搜索广告”。在其商业化广告方案中,除了信息流之外,新增了搜索广告类。

  • 不知道搜索引擎喜欢什么内容,做再多原创也没用

    SEO行业一直都说“内容为王”,虽然原创对排名有很大帮助,但也有很多人的原创内容根本没有排名,为什么。我们来一起分析下背后的原因。

  • 跟全网客一起来看一看如何做到搜索引擎霸屏

    实际上现在在搜索引擎当中,已经对于各类广告的投放做的比较精准了,由于大数据时代存在不再需要把各类信息投放给每一个消费者,而是有的放矢的进行投放。举个简单的例子来说,如果是篮球用品的话,投放给18岁到58岁之间的男性朋友,销量情况肯定会更好一些。于是在这种情况下,我们就要讨论一下搜索引擎霸屏究竟是怎么实现的,以及这类服务商都是如何操作的。一个懂得精准营销的平台很重要。但我们在做营销推广的过程当中,首先是要选择好?

  • 微软为Xbox推出Bing应用 让搜索引擎在游戏机上也更好用

    微软宣布为Xbox游戏机推出一款新的Bing应用,目的是让该公司的搜索引擎在其游戏硬件系列上更容易访问。在基本功能方面,它就是你所期望的Bing应用程序,例如提供网页和图像搜索,区别在于是用游戏机访问的而不是使用手机或PC。

  • 谷歌宣布其搜索引擎的另一项新功能:“哼歌识曲”

    据外媒CNET报道,谷歌周四公布了其搜索引擎的一些新功能。其中一个新技巧可以让人们哼唱录音,试图找出一首一直想不起歌名的歌曲。这家科技巨头还将让人们通过实时更新看到一个公园、餐厅或其他企业的繁忙程度。谷歌搜索上的一项新的增强现实功能可以让人们选购汽车,并进行虚拟游览。谷歌在周四的一次预录的在线活动中宣布了这些消息。

  • 微软Bing在13个国家的Android搜索引擎选单拍卖中胜出

    为了遵守欧盟委员会对Android的决定,谷歌去年宣布,将允许欧洲的Android用户在设备设置过程中选择默认搜索引擎来负责主屏幕搜索框和Chrome浏览器的入口工作。如果有三家以上的搜索供应商希望被列入选择界面,谷歌将进行拍卖。

  • 校友录头像被爬取搜索引擎未及时删除 网友起诉获赔1元

    因发现其上传至校友录的头像证件照出现在百度搜索结果中,原告孙某某以百度网站侵犯其隐私权、个人信息权益为由,诉至法院,要求判令北京百度网讯科技有限公司赔偿其经济损失 1 元和维权费用 40 元。法院一审认定,姓名与证件照结合构成个人信息,虽孙某某未授权校友录网站对涉案信息进行全网公开,但百度网站作为搜索引擎服务提供者,无法预见一般公开网络信息为未经授权公开的个人信息,其搜索行为不存在过错,但收到通知后应及?

  • 美国政府将对谷歌搜索引擎提起反垄断诉讼

    美国政府已准备对谷歌搜索引擎提起反垄断诉讼,指控该公司“破坏竞争,保护和扩大垄断”。彭博社报道称,在这之前,美国司法部对谷歌是否扭曲搜索结果以偏袒自己的产品,并关闭对竞争对手的访问渠道进行了长达 14 个月的调查。站长之家了解到,谷歌占据了美国在线搜索市场90%的控制权,为该公司创造了 1000 亿美元的收入。长期以来,竞争对手一直抱怨谷歌滥用权力“扼杀竞争”。消息人士告诉彭?

  • 营收1000亿美元 谷歌搜索引擎要被告了:破坏竞争

    谷歌靠搜索引擎起家,现在要惹上麻烦了,美国很快就要对他们在搜索引擎上的垄断采取法律行动。谷歌的搜索引擎是很多人离不开的,寻找网页和资料必不可少,它也给谷歌带来巨额利润,每年贡献10

  • 百度好奇夜,藏着新一代搜索的答案

    今天晚上的百度好奇夜真的太燃了。这场百度与浙江卫视合办的晚会,不仅仅是一场科技跨界的狂欢,更是百度App新搜索的价值和未来。

  • Bing可以用语音搜索了 微软增加语音搜索语音答复功能

    据外媒MSPoweruser消息,微软日前宣布,Bing桌面版已经提供Bing语音搜索体验。用户可以使用此功能来搜索或提问,并从Bing快速获得音频回复。

  • 谷歌现为iOS 14引入搜索桌面小部件 可执行快速搜索

    本周三,苹果发布了 iOS 14 的正式版本,其中最值得关注的变化就是第三方应用可以替代 Safari 和 Apple Mail 成为系统默认的浏览器和电子邮件处理应用。现在,谷歌对自家应用进行了更新,iOS 14 用户可以将 Chrome 设置为默认应用程序。

  • 掉队的Bing,靠生态搜索能翻盘?

    近日,微软官方宣布,Bing(中文名必应)正式改名为Microsoft Bing,同时启用全新的LOGO标识:“大家将看到我们的产品重命名为Microsoft Bing,这代表了横跨整个微软家族的搜索体验的持续整合。”

  • 头条搜索推出搜索竞价广告 以信息流广告为主

    近日,头条搜索正式推出了搜索竞价广告。目前,头条搜索竞价广告以信息流广告为主。据了解,今日头条于去年 3 月开始推广头条搜索,用户可通过今日头条上面的搜索框进行试用。

  • Bing正式改名Microsoft Bing:不再只是搜索

    微软改名部又出手了!

    微软官方宣布,Bing(必应)即日起正式改名为“Microsoft Bing”,同时启用全新的LOGO标识。

    之所以如此改名,微软意在强调Bing已经不再只是单纯的搜索引擎,而是一个微软旗下的完整搜索服务,同时还为Microsoft Edge浏览器中的搜索、Windows 10任务栏上的快速搜索、Microsoft 365中的工作搜索场景、《微软模拟飞行》中的沉浸式游戏等提供支持。

    微软表示:“今天开始,大家?

  • 唱吧黑科技:“声控”福利!帮你搜索另一个自己

    人生在世,知音难觅。每个人的声音就像指纹,是专属自己独一无二的密码,但在这个世界上总有几个人与你的声音契合,无论是音色还是音准都如此相像。唱吧作为声音的巨大数据库,精准的黑科技匹配你的专属知音!懂你的声音,并为你找到与你声音完美匹配的“灵魂伴侣”。唱吧是如何拥有这项“超能力”的呢?依赖于唱吧在声音科技领域多年的技术与经验的积累。唱吧对用户的声音细致分析,提炼出能代表你专属音色的密码,并构建出一个用

  • 搜狗搜索荣获MIND新闻推荐竞赛冠军

    近日,搜狗搜索在由微软亚洲研究院和微软新闻产品团队联合举办的“MIND新闻推荐比赛”中技压群雄,击败来自加拿大、法国、韩国等全球各地的技术团队,荣获国际比赛第一名。 (图片:比赛官网截图) 众所周知,推荐技术在新闻资讯(今日头条),短视频(抖音,快手),商品推荐(淘宝)等领域取得了巨大的成功,得到了工业界和学术界的广泛关注。与产品推荐、电影推荐或是餐厅推荐领域通常有一些公认的基准数据集不同,在新闻推荐领域,高?

  • 抓住关键点,提升App搜索设计的体验!

    搜索过程中需要展示什么?如何帮助用户尽快找到他们想要的?搜索的体验如何与其他体验相联系?这是很多设计师思维模糊的地方。

  • 夸克搜索升级学习频道 近期将上线iPad版

    昨日,智能搜索app夸克全新升级学习频道,面向各年级中小学生定制AI工具,开通家长专属辅导作业入口。此外,夸克搜索还表示近期将上线iPad版。

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议
  • 热门标签