首页 > 动态 > 关键词  > 盛大创新院最新资讯  > 正文

盛大创新院和搜狗研究员:自然语言处理的应用

2012-06-27 17:05 · 稿源:TechWeb

6月26日消息,盛大创新院搜索主题院研究员贾文杰和搜狗自然语言处理助理研究员张帆今天做客第165期IT龙门阵,分享了关于自然语言处理的应用和难点。

盛大创新院搜索主题院研究员贾文杰(TechWeb摄)

盛大创新院搜索主题院研究员贾文杰:面向搜索的中文分词系统

盛大创新院搜索主题院研究员贾文杰做了《面向搜索的中文分词系统》的主题演讲。他认为“无论是搜索还是推荐,做中文的互联网智能化处理,分词就是一个必不可少的步骤。”

分词应用的地方第一个是搜索,使用分词使得词表大大扩大,基于词做索引,后面的链条会大幅减少,倒排列表缩减会减少时间;第二个应用是上下文广告,比如推荐系统,“不管是做阅读、视频还是图片,或者是电商,基于内容相似度做推荐,不管是基于空间模型还是短本做推荐,第一步分词。”

贾文杰介绍,中文分词的难点第一个是切分歧义,对于语言单位有多种方法,第二个难点是未登录词,做分词系统没有的词或者是没有出现的词。

基于此,中文分词目前常见的算法包括无指导切分、基于词典的机械分词、基于语言模型的切分,基于字标注的切分。其中基于语言模型的方法是最常用的方法。

“做这样的分词系统有哪些核心工作要做呢?第一个,原子词识别,一些简单的命名实体,包括网址、时间、数字、日期,难点是规则整理,比如时间的表达非常多。第二个模块命名实体识别,除了前面的命名实体,剩下的主要是人名、地名、机构名,基于正则表达式写不出来,怎么来做?基于序列标注方法做,用一些方法把不在词典的词找出来。”

训练语言模型需要收集分词的语料库,目前的语料库有富士通和北京大学做的人民日报语料库,宾州中文树库,台北中研院的树库。

人民日报语料库有1400万词,是最大语料库,但是问题是缺少新词,创立年限太久,表达方式语序发生了很大变化,还有规模仍然不够大。

贾文杰介绍了盛大创新院推出的盛大云分词,它的优点是是分词结果较好,分词更快、而且是活的分词,分词保持不断更新,再者针对搜索进行了优化,最后还支持中英文之外的其他语言分词。

搜狗自然语言处理助理研究员张帆(TechWeb摄)

搜狗自然语言处理助理研究员张帆:搜索查询意图识别

搜狗自然语言处理助理研究员张帆做了《搜索查询意图识别》的主题演讲,他认为意图识别是知道用户想干什么,以便更好地满足用户需求。

现有的搜索引擎分为两类:通用搜索引擎和垂直搜索引擎,两种搜索引擎各有特点。通用搜索引擎抓取互联网上一切有价值的东西、统一建立索引,以关键字匹配为基本检索方式,以网页title和summary为展现方式。通用搜索引擎以百度、谷歌、搜狗、搜搜、有道为代表。

垂直搜索引擎以一定类别为主题,只抓取与主题相关的信息,更具主题特点有针对性的建立相应的索引检索方式,筛选方式以及展现方式,以机票搜索、地图搜索、购物搜索等为代表。

“通用搜索引擎的缺点是通用,不够准确,垂直搜索引擎的缺点是用户需要记住多个网站。有没有办法将二者结合?”张帆如此表示,“识别查询词对应的垂直搜索,并从中获取结果嵌入到通用搜索引擎中,可以为用户提供很好的体验。”这也就是意图识别用途。

意图识别的难点包括:输入不规范、意图太多、意图强度的区分、语料持续准确获取、搜索结果的可靠性、时效性的问题。

张帆提出了进行意图识别的几个方法:

词表穷举法,最简单直接的方法,通过词表的直接匹配来获取查询意图,它的实现方法是建立白名单系统、建立词表扩展系统、建立词表预处理系统,这种方法优点是简单易实现,缺点是召回比较低,人工比例较高。

规则解析法,适用于一些查询索然不集中淡非常符合规则的类别,通过规则解析查询来做一同识别和关键信息提取的。比如汇率查询、计算器、度量衡等。它的优点是信息提取准确,不足是只适用于规则性较强的类别。

统计模型分类法,一般有两种分类,一种是基于查询词本身的分类,另一种是基于查询词结果进行分类,这种方法适用于一些查询较为分散,且规则不明确的类别。这是最常用的方法,覆盖面最大的方法。这种方法的不足是实现较为复杂,数据获取、更新困难。

张帆介绍称,除此之外,还有一些特殊的意图识别方法,比如微博类意图识别,实现方法是对搜索结果进行时效性判断。

张帆认为,意图识别未来的发展的几个方向是无类别概念的意图识别,个性化意图识别,精准意图识别以及语音应用的意图识别。

举报

  • 相关推荐
  • K2发布后,Kimi 研究员集体在X和知乎上搞起了“团建”

    Kimi K2的发布几乎没什么预兆。 2025年7月11日深夜,月之暗面直接开源了这个万亿参数模型,整个AI圈子一下子就热闹起来。模型的能力很强,尤其是在代码和Agent任务上,没多久,它就和Grok4一起出现在了马斯克转发的热门模型趋势榜单上。

  • 12306回应大妈高铁车厢跳舞喧哗:乘务员劝阻无效可报警

    ​近日在福建厦门开往武汉的一趟高铁上,出现了不和谐一幕:多名大妈在车厢内旁若无人地跳舞,同时还大声喧哗,严重影响了车厢内的乘车环境。其他乘客纷纷表示不满,列车员也多次前往劝阻,但大妈们并未收敛,劝阻无果。 针对这一情况, 12306 工作人员回应称,乘客若在旅途中遇到此类影响乘车秩序的行为,可以先向列车员求助。若列车员多次劝阻后仍无效,乘客�

  • 国内首个!高德地图正式上线多语言地图:新增14种语言

    日前,高德地图正式上线多语言地图,在原有的中英文基础上,新增多达14种语言。 这14种语言包括西班牙语、葡萄牙语、法语、德语、泰语、日语、韩语、土耳其语、意大利语、俄语、阿拉伯语、马来语、印尼语、越南语。 此次多语言版的推出,使更多非英语国家的用户也能享受高德地图提供的优质出行服务。 高德地图多语言版实现了产品界面与地理信息的多语种适配,�

  • 29岁女演员回应在餐厅当服务员:称不觉得丢脸

    ​近日,一位 29 岁女演员宇书田在餐厅兼职当服务员的消息引发了社会广泛关注。宇书田有着不一般的学业背景,她硕士毕业于英国萨塞克斯大学导演专业,回国后便投身表演事业,至今已参与话剧商演 1000 余场。 然而,演员这一职业的特性决定了其工作的不稳定性,常常会面临无戏可演的困境。但每月的房租、日常饮食等开销却不会因此而减少,这些实实在在的生活成本�

  • 人人争当创新主角,这家企业把创新改善刻进了DNA

    7月17-19日,歌尔在潍坊总部和青岛全球研发总部同步举办创新大会,通过技术发布会、创新成果展、技术交流论坛、创新者表彰、家属开放日等活动,全方位展示创新发展的"DNA图谱"。大会表彰了30个团队、3个组织和29位个人,颁发科技创奖、卓越创新者等7类奖项,其中Inno Awards最高奖授予开发出全球领先Micro OLED显示模块的团队。歌尔近年来在声学、光学、汽车电子等领域实现多项全球首创技术突破,参与制定20余项国家级标准。2024年员工改善提案超8.5万件,形成全员创新文化。歌尔将技术创新与持续改善比作DNA双螺旋,共同推动企业稳步发展。

  • 80后领军设计师黄全的家:让艺术与烟火气自然融合

    斐雪派克与Green+BAZAAR合作,邀请设计师黄全以上海新居为样本,展现生活与艺术在家庭空间的完美融合。通过打通厨房与客厅、餐厅的隔墙,打造出开放流动的大空间,自然光透过挑空区域洒落在大理石岛台上。嵌入式冰箱、酒柜等电器与空间设计融为一体,既满足实用需求又与艺术品和谐搭配。开放式厨房增强了家人互动,烹饪时能照看孩子或与客人交谈,让厨房成为家庭情感联结的中心。这种"社交厨房"理念超越了单纯的烹饪功能,成为家人最常聚集的场所,无论是早晨咖啡时光还是周末聚餐,都让家庭交流充满轻松氛围。

  • 励展华博GH上海礼博会盛大开幕 全国统一大市场战略驱动礼业机遇

    第七届上海国际礼业博览会(简称"励展华博GH上海礼博会")将于2025年7月17日在上海新国际博览中心盛大开幕。展会规模达3万平方米,汇聚1500家优质展商,展出超10万款新品,涵盖文创IP、网红家电、3C数码、食品饮料等热门品类。展会特设中秋礼盒新品首发区、汽车周边礼品专区及香氛盲盒展区,预计吸引超4万人次专业买家。作为华东地区最具影响力的礼品家居行业�

  • 卡萨帝:一边在发明创新,一边要警惕“碰瓷”

    卡萨帝在家电领域持续引领行业创新,从首创法式冰箱开创行业品类,到发明"分区洗"洗衣机开启新趋势,再到推出"空气洗"技术,始终以原创技术推动行业发展。2023年7月新品发布会上,卡萨帝推出奢护中心产品,通过全隔离密封洗涤舱、AI双擎全变频等技术,在洗护、烘干、养护三大场景实现突破。数据显示,卡萨帝在1W+高端洗衣机市场占比达78.7%,印证了其"创新者"地位。面对行业模仿,卡萨帝坚持通过持续创新保持领先优势,为用户提供难以复制的产品体验。

  • 研究生济南打车去拉萨 打表价1万多 比自己开车玩惬意

    ​近日,济南一名出租车司机曹师傅驾驶新能源混动出租车,搭载两名均为研究生的乘客,开启了一场跨越3900公里的非凡旅程——从泉城济南出发,沿318川藏线一路奔赴雪域高原拉萨。这一独特出行方式迅速在网络上引发广泛关注与热议。 曹师傅向记者透露,此次进藏全程打表计费,目前计价器显示费用已超万元,而这仅是基础车费。剩余的油费、过路费需由两名乘客另行�

  • “鲁A的哥”载客打表到拉萨:乘客是研究生 打表价1万多元

    近日,一辆鲁A籍出租车现身四川甘孜藏族自治州康定市,引发网友好奇。原来,这辆新能源混动出租车是载着两名山东师范大学的研究生,从山东济南出发,历经7天、跨越3900多公里,一路驶向雪域高原拉萨。