首页 > 业界 > 关键词 > 人工智能最新资讯 > 正文

人工智能是怎么“干掉”垃圾邮件的?

2021-01-04 17:28 · 稿源:站长之家

你可能不知道,在互联网每天发送的3000多亿封电子邮件中,至少有一半是垃圾邮件因此,电子邮件供应商承担着一个艰巨的任务,那就是过滤垃圾邮件,并确保用户收到重要的信息。

然而,垃圾邮件检测是混乱的。垃圾邮件和非垃圾邮件之间的界限是模糊的,并且标准会随着时间的推移而变化。从自动化垃圾邮件检测的各种努力来看,机器学习已经被证明是最有效,也是最受电子邮件供应商青睐的方法。

电子邮件,邮箱

尽管我们在日常生活中仍然会看到垃圾邮件,多亏了机器学习算法,每天已经有大量垃圾邮件已经从我们的收件箱中清除掉了。

那么机器学习如何确定哪些邮件是垃圾邮件,哪些不是呢?以下是基于机器学习的垃圾邮件检测工作原理的概述。

所面临的挑战

垃圾邮件有不同的风格。许多只是一些烦人的信息,旨在引起人们对某一事件的注意或传播虚假信息。还有一些是网络钓鱼邮件,目的是引诱收件人点击恶意链接或下载恶意软件。

它们有一个共同点,那就是与收件人的需求无关。垃圾邮件检测算法必须找到一种方法来过滤垃圾邮件,同时避免屏蔽用户希望在收件箱中看到的真实消息。而且它必须以一种能够与不断发展的趋势相匹配的方式来做到这一点,例如由流行病、选举新闻、对加密货币的突然兴趣以及其他因素引起的恐慌。

静态规则可以提供帮助。例如,太多的密件抄送收件人、非常短的正文和所有大写主题都是垃圾邮件的特征。同样,一些发件人域和电子邮件地址也可能与垃圾邮件相关联。但在大多数情况下,垃圾邮件检测主要依赖于对消息内容的分析。

Naïve 贝叶斯机器学习模型

机器学习算法使用统计模型来分类数据。在垃圾邮件检测情况下,一个经过训练的机器学习模型必须能够确定在电子邮件中发现的单词顺序是更接近于垃圾邮件中发现的单词顺序,还是更接近于安全邮件中的单词顺序。

不同的机器学习算法可以检测到垃圾邮件,但其中一个吸引人的是“Naïve 贝叶斯”算法。顾名思义,“Naïve 贝叶斯”基于“贝叶斯定理”,该定理由英国数学家贝叶斯 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。

之所以称之为“Naïve ”,是因为它假设观察的特征是独立的。假设你想用“Naïve贝叶斯”机器学习来预测是否会下雨。在这种情况下,你的特征可能是温度和湿度,而你预测的事件是降雨。

在垃圾邮件检测的情况下,事情变得有点复杂。我们的目标变量是给定的电子邮件是“垃圾邮件”还是“非垃圾邮件”,而特征是邮件正文中的单词或单词组合。简而言之,我们希望根据电子邮件的文本来计算出它是垃圾邮件的概率。

这里的问题是我们的特征不一定是独立的。例如,考虑术语“烤”、“奶酪”和“三明治”它们可以有不同的含义,这取决于它们是连续的还是在信息的不同部分。另一个例子是“不(not)”和“有趣(interesting)”这两个词在这种情况下,根据它们在消息中出现的位置,含义可能完全不同。但是,即使特征独立性在文本数据中很复杂,如果配置得当,在自然语言处理任务中已证明“Naïve 贝叶斯”分类器是有效的。

数据收集

垃圾邮件检测是一个有监督的机器学习问题。这意味着必须为机器学习模型提供一组垃圾邮件和非垃圾邮件的示例,并让它找到区分这两个不同类别的相关模式。

大多数电子邮件供应商都有自己的大量标记电子邮件数据集。例如,每次用户在Gmail账户将一些邮件标记为垃圾邮件时,就是为谷歌的机器学习算法提供训练数据。(注:谷歌的垃圾邮件检测算法比本文中研究的方法要复杂得多,而且该公司有机制防止滥用其“报告垃圾邮件”功能。)

有一些开源数据集,如加州大学欧文分校的垃圾数据集和安然垃圾数据集。但这些数据集是用于教育和测试目的,在创建生产级别的机器学习模型方面用处不大。

因此,拥有自家的电子邮件服务器的公司可以很容易地创建专门的数据集,以调整其机器学习模型适应所属工作领域的特定语言。例如,提供金融服务的公司的数据集与建筑公司的数据集就有很大的区别。

训练机器学习模型

尽管近年来自然语言处理已经取得了不错的进展,但人工智能算法仍然不能像人类一样理解语言。

因此,开发垃圾邮件检测器机器学习模型的关键步骤之一是为统计处理准备数据。在训练“Naïve 贝叶斯”分类器之前,垃圾邮件和非垃圾邮件的语料库必须经过某些步骤。

人工智能,AI

考虑包含以下句子的数据集:

  • 史蒂夫想为聚会买烤奶酪三明治(Steve wants to buy grilled cheese sandwiches for the party)

  • 莎莉正在做烤鸡肉当晚餐(Sally is grilling some chicken for dinner)

  • 我买了一些奶油干酪做蛋糕(I bought some cream cheese for the cake)

文本数据在被输入到机器学习算法之前必须被“标记化”,无论是在训练模型时,还是之后对新数据进行预测时。实质上,标记化意味着将文本数据分解为更小的部分。如果按单个单词分割上述数据集,就会得到以下词汇表。请注意,这里只每个单词只统计一次。

Steve, want, to, buy, grill, cheese, sandwich, for, the party, Sally, is, grill, some, chicken, dinner, I, bought, cream, cake

我们可以删除出现在垃圾邮件和非垃圾邮件中的单词,这些单词对区分是否为垃圾邮件没有帮助,包括the、for、is、to和some等术语。在上述数据集中,删除这些没意义的词将使检测词汇量减少5个。

我们也可以使用其他技术,如将单词转换成基本形式。例如,在我们的示例数据集中,buy和bought是共同的意思,grilled和grill也是一样,这同样有助于进一步简化机器学习模型。

在某些情况下,您应该考虑使用二元模型(两个单词标记)、三元模型(三个单词标记)或更多单词标记。例如,将上述数据集以二元模型形式标记就是“奶酪蛋糕(cheese cake)”,而使用三元模型将生成“烤奶酪三明治(grilled cheese sandwich)”。

一旦你处理了数据,就会有一个定义机器学习模型特征的术语列表。现在,您必须确定哪些单词或单词序列与垃圾邮件相关。

当你在训练数据集上训练机器学习模型时,每个术语会根据它在垃圾邮件和非垃圾邮件中出现的次数分配一个权重。例如,如果“赢得大奖(win big money prize)”是特征之一,并且只出现在垃圾邮件中,那么它被检测为垃圾邮件的可能性就会更大。如果“重要会议”只在非垃圾邮件中提到,那么将其被归类为非垃圾邮件的可能性也就会增加。

一旦处理了数据并为特征分配权重,机器学习模型就可以过滤垃圾邮件了。当收到一封新邮件时,标记文本,并按照贝叶斯公式运行。邮件主体中的每个术语都乘以其权重,权重的总和决定了该邮件是垃圾邮件的概率。(实际上,计算有点复杂,但为了简单起见,本文将坚持使用权重之和。)

先进的垃圾邮件检测与机器学习

听起来简单,“Naïve 贝叶斯”机器学习算法已经被证明对许多文本分类任务是有效的,包括垃圾邮件检测。

但这并不意味着它是完美的。

与其他机器学习算法一样,Naïve 贝叶斯不理解语言的上下文,而是依赖单词之间的统计关系来判断一段文本是否属于某个类。

这意味着,例如,如果发送者只是在邮件的末尾添加一些非垃圾邮件词汇,或者用其他密切相关的词汇替换垃圾邮件词汇,那么就可以骗过Naïve 贝叶斯圾邮件检测器,从而忽略垃圾邮件。

当然,Naïve 贝叶斯并不是唯一可以检测垃圾邮件的机器学习算法。其他流行的算法包括递归神经网络(RNN)和transformers,它们在处理连续数据(如电子邮件和文本信息)方面非常有效。

最后要注意的是,垃圾邮件检测始终是一项正在进行的工作。随着开发人员使用人工智能和其他技术来检测和过滤电子邮件中的有害信息,垃圾邮件发送者同样能找到了新方法破解系统,让垃圾骗过过滤器。这就是为什么电子邮件供应商总是依赖用户的帮助来改进和更新他们的垃圾邮件检测程序。

注:本文经站长之家编译,最初由Ben Dickson在TechTalks发布,你可以点击这里阅读原文。

  • 相关推荐
  • 大家在看
  • 人工智能可以借助卫星找到地球濒危的大象

    从高空视角,只要一个物体够大,还是很容易辨别出来了。如今,在更高级的卫星和人工智能的帮助下,我们也可以从太空中看到大象。

  • 有“同理心”的人工智能机器人来了,可预测“同伴”的意图

    哥伦比亚大学的研究人员开发出了一种机器人,它可以通过视觉预测另一台机器的行为,从而显示出“一丝同理心”。研究人员首先对一个机器人(A)编程,把它放在放在3英尺 x2英尺的围栏中,使其朝着投射到地板上的任何绿色圆圈移动。有时它会直接移动到摄像头发现的绿色圆圈,但如果圆圈被障碍物隐藏了,它就会滚向另一个圆圈,或者根本不移动。

  • 人工智能热之下的冷思考 | 2020年度全球十大人工智能治理事件出炉

    新一代人工智能技术在全球蓬勃兴起,为数字经济发展注入新动能,深刻改变着社会生产与生活方式。与此同时,如何在技术变革浪潮中主动治理、有效治理,发展负责任的人工智能,成为全球共同的时代议题。 2021 年 1 月 18 日,旷视人工智能治理研究院携手权威研究机构人民智库联合发布《 2020 年度全球十大人工智能治理事件》,回顾并分析了过去一年中最具理论价值、实践价值、新闻价值、以及研究价值的人工智能大事,希望以此推动多?

  • 围棋国手柯洁再谈到人工智能:这辈子都战胜不了AI了

    近日,围棋国手柯洁谈到与围棋人工智能的关系:现在基本上都是跟AI训练,很少跟人训练了。不过AI都是冰冷的,所以很痛苦。

  • 科学家正开发新人工智能设备,要来帮大家戒烟了!

    科学家们正在开发一种人工智能设备“Level”,通过预测人们何时有烟瘾进而帮助人们戒烟。据悉,Level系统可以精确监控吸电子烟的行为,它被设计用来帮助使用者控制他们的烟瘾或减少他们吸入的尼古丁的量。

  • 讯飞扫描词典笔,一款好用的人工智能学习产品

    近几年,随着科技的发展,人工智能技术逐渐走进了人们生活的方方面面,包括一些孩子的学习之中。现在当你走进一些中小学时,经常会看见一些人工智能产品的身影,其中最受欢迎的产品之一便是讯飞扫描词典笔了。一、续航强劲 携带方便讯飞扫描词典笔是科大讯飞在去年双十一期间发布的一款主要面向小学、初中和高中的A.I.+方向的智能硬件产品。在外观和配置上,它的机身整体呈扁平状,重量也仅有78克,携带起来非常方便。机身的背板是

  • 云从科技荣膺最强人工智能TOP30

    近日国内领先的人工智能专业媒体和产业服务平台机器之心公布了「AI中国」机器之心 2020 年度榜单云从科技凭借技术创新能力与商业落地成果荣获最强人工智能TOP30这也是云从科技连续第四年入选机器之心年度榜单依托于人机协同操作系统云从科技从一家计算机视觉企业到如今登顶最强人工智能TOP30榜单在逐渐红海化的中国AI市场开辟全新的发展道路这背后离不开以周曦为核心的创始团队持续十数年的技术积

  • 厉害了!这个人工智能模型可将文本转换成生动的图像

    如今人工智能越来越强大,比如可以实现生成音乐、改变图片艺术风格等等。最近,人工智能非营利组织OpenAI发布了一个名为DALL-E的神经网络,可以将文本转换成与内容相关的图像。

  • 时趣荣获2020-2021「AI中国」机器之心人工智能年度奖项

    在21世纪的时间轴上,2020必将是载入史册的一年。在这风云变幻的这一年, AI与各行各业深度融合,在实体世界中体现出巨大价值,为科技强国战略注入了更大的发展动能。 近日,中国人工智能业内最具影响力的媒体及领先的生态服务平台机器之心发布「AI 中国」机器之心 2020 年度榜单,时趣作为中国人工智能产业智能营销先锐企业,入选了AI中国·最具商业价值解决方案TOP30、AI中国·最具产业价值技术应用落地案例TOP30。 与往届

  • 公安部网安局:注意防范利用AI人工智能等新型诈骗手段

    昨日,公安部网安局发文提醒用户,应该注意防范利用AI人工智能等新型手段诈骗。公安部网安局称,AI诈骗常用手法包括了,合成声音、AI换脸等方式。

  • 这个人工智能系统竟可预测精神病,诊断准确性与医生相当

    人工智能已经越来越多应用到医疗诊断情景中,比如站长之家曾报道的谷歌AI系统可以辅助医生识别乳腺癌。最近,科学家又开发出了一个可以预测高精神病发作的人工智能系统。

  • AI顶尖大牛朱松纯麾下暗物智能荣膺“最强人工智能TOP30”

    近日,知名人工智能专业媒体及产业服务平台机器之心公布了“「AI中国」机器之心2020年度榜单”。暗物智能科技(以下简称“暗物智能”)凭借出色的技术创新能力与优秀的商业落地成果,成功入选“最强人工智能TOP30”。

  • 41%的IT领导者认为,到2030年人工智能将取代他们的工作

    IT行业领导者认为这个行业的未来会是怎样的?什么样的威胁会在未来最普遍?云安全公司Trend Micro最近进行了一项新的研究,显示超过五分之二(41%)的IT领导者认为,到2030年,人工智能将取代他们的角色。

  • 小蚁入选科技独角兽百人团:以AI力量打造人工智能新高地

    2021年是“十四五”的开局年,强化国家战略科技力量是首要任务,科技创新成为核心驱动力。在产业变革的大背景下,针对500强及产业龙头企业的开放式创新场景和创新需求,上海市科技创业中心指导下,一度天使发起了“500强产业创新加速计划”,为持续围绕产业场景推动创新链和产业链融合,2021年1月17日,一度天使、RSC国际创新中心联合60+产业龙头、100+位科技独角兽重磅发布科技独角兽百人团,推出智慧城市、智能制造、汽车新四化?

  • 机器之心2020年度榜单发布 | 明略科技入选最强人工智能公司TOP30

    近日,备受国内外人工智能行业广泛关注与重视的「AI中国」机器之心 2020 年度评选榜单正式发布,作为我国人工智能产业的风向标,机器之心「Synced Machine Intelligence Awards」年度奖项评选活动自 2017 年设立以来已连续举办至第四届,是目前国内人工智能界规模最大、评选最权威的年度奖项,已成为我国人工智能产业的风向标。明略科技成功凭借领先的技术实力入选AI中国 · 最强人工智能公司TOP30 榜单。该榜单主要关注人工智能企

  • 华为将在许昌建设中原人工智能计算中心,计划投资15亿元

    根据协议,许昌市与华为公司将充分发挥各自优势,建设基于自主创新的中原人工智能计算中心,构建公共算力服务平台、应用创新孵化平台、产业聚合发展平台和科研创新人才培养平台,打造具有全球影响力的中原地区人工智能创新高地。该中心计划投资15亿元,将分两期建设。

  • 科技赋能“健康中国” “2020AIIA杯人工智能医疗大赛”冠军出炉

    产前超声筛查步骤从 23 步缩减至 1 步,基于5G网络的智能化超声机器人代替医生远程完成超声扫查和诊断…… 1 月 15 日上午,以“科技赋能生命”为主题,由中国人工智能产业发展联盟、浙江大学医学院附属第一医院、杭州未来科技城管委会主办,浙江省健康服务业促进会承办的“2020AIIA杯人工智能医疗大赛”决赛在杭州成功举行。 近年来,随着人工智能、大数据、5G等技术与医疗行业深度融合,人工智能被广泛应用于医疗领域已成为现?

  • 人工智能企业眼控科技完成新一轮数亿元融资,恒信华业、徐工投资领投

    近日,聚焦在交通安全领域的人工智能企业眼控科技对外宣布完成新一轮数亿元融资,由恒信华业、徐工投资领投,南京中益仁投资等机构跟投。本轮融资将用于公司核心战略业务的产品技术研发、市场拓展、人才招募等方面。上海眼控科技股份有限公司成立于2009 年,是一家集计算机视觉识别与深度学习技术研发应用于一体的全球性人工智能科技企业,致力于用人工智能技术提供更安全更高效的交通安全解决方案。目前,眼控科技在交通安全监管?

  • 高通人工智能应用创新大赛颁奖典礼线上隆重举行 ,AI应用落地大考圆满收官!

    近几年来,AI不断加速产业的智能化发展,在医疗、卫生、交通、工业、教育等行业有让人惊喜的落地应用。AI从技术、应用场景到生态架构,正茁壮发展。在全球抗击新冠疫情的战役中,AI科技是其中重要的参与者,大量的AI技术应用到了这次大规模公共卫生事件中。「2020年,AI应用落地大考仍在继续,开发者如何抓住AI技术应用浪潮,占据先机?」为此,由高通公司(Qualcomm)、中国智谷·重庆经开区、CSDN、Testin云测、OPPO、极视角、中

  • 这个人工智5秒完就能发现火星新陨石坑,科学家需花费40分钟

    为了能更高效的研究火星上的陨石坑,科学家已经开出出新的人工智能系统,5秒钟就能分析找出火星表面照片上的陨石坑,而这是NASA科学家需要花费40分钟才能完成的任务。

  • 参与评论
文明上网理性发言,请遵守新闻评论服务协议
  • 热门标签

热文

  • 3 天
  • 7天