首页 > 业界 > 关键词  > Ghostbuster最新资讯  > 正文

Ghostbuster:一个准确度高的AI生成文本检测工具

2023-11-15 11:19 · 稿源:站长之家

**划重点:**

1. 🤖 大型语言模型如ChatGPT的高效写作引发问题,学生滥用以代写作业,一些学校因此禁用ChatGPT。

2. 🛠️ Ghostbuster是一种先进的AI生成文本检测方法,通过评估各种生成文本的可能性,无需了解具体模型或其概率。

3. 📊 Ghostbuster在多个领域、不同提示和模型上取得了出色的性能,弥补了现有方法的不足,有望在多个应用中发挥作用。

站长之家(ChinaZ.com)11月15日 消息:大语言模型如ChatGPT,以其卓越的写作能力引发了问题。学生们纷纷利用这些模型代写作业,导致一些学校不得不采取禁止ChatGPT的措施。此外,这些模型还存在生成带有事实错误的文本的倾向,因此谨慎的读者可能想知道,在信任某些新闻文章或其他来源之前,是否有生成式AI工具用于代写。

image.png

针对这一问题,研究人员提出了Ghostbuster这一先进的AI生成文本检测方法。该方法通过评估文档中每个标记在多个较弱的语言模型下生成的概率,然后将这些概率的函数作为最终分类器的输入进行组合。Ghostbuster无需知道生成文档所使用的具体模型,也无需知道在该特定模型下生成文档的概率。这使得Ghostbuster特别适用于检测由未知模型或黑盒模型生成的文本,例如流行的商业模型ChatGPT和Claude,其概率不可用。研究人员着重确保Ghostbuster具有良好的泛化性能,因此他们在不同领域(使用新收集的散文、新闻和故事数据集)、语言模型或提示下进行了评估。

为什么选择这种方法呢?

当前许多AI生成文本检测系统对于分类不同类型的文本(例如不同的写作风格、或不同的文本生成模型或提示)往往表现脆弱。简单使用困惑度(perplexity)的模型通常无法捕捉更复杂的特征,在新的写作领域表现尤为糟糕。与此相反,基于大型语言模型(如RoBERTa)的分类器虽然能轻松捕捉复杂特征,但容易对训练数据过拟合且泛化性能差。Ghostbuster的方法在这两者之间取得了平衡,既能够捕捉复杂特征,又不容易过拟合。

如何运作

Ghostbuster 采用三阶段训练过程:计算概率、选择特征和分类器训练。

计算概率:通过计算在一系列较弱的语言模型(一个一元模型、一个三元模型和两个非指令调整的 GPT-3模型)下生成文档中每个单词的概率,将每个文档转换为一系列向量、艾达和达芬奇)。

选择特征:使用结构化搜索过程来选择特征,其工作原理是(1)定义一组组合概率的向量和标量运算,以及(2)使用前向特征选择搜索这些操作的有用组合,重复添加最好的剩余特征。

分类器训练:根据最佳的基于概率的特征和一些额外的手动选择的特征训练了线性分类器。

Ghostbuster准确率表现

在同一领域训练和测试时,Ghostbuster在所有三个数据集上取得了99.0的F1分数,超过GPTZero5.9F1和DetectGPT41.6F1。在领域之外,Ghostbuster在所有条件下平均取得了97.0的F1,超过DetectGPT39.6F1和GPTZero7.5F1。与此相对,我们的RoBERTa基线在所有数据集的领域内评估时取得了98.1的F1,但其泛化性能不一致。Ghostbuster在所有领域上的性能均优于RoBERTa,仅在领域之外的创意写作中稍逊一筹,但总体上比RoBERTa在领域之外的性能更好(13.8F1差距)。

为了确保Ghostbuster对用户可能提示模型的各种方式的鲁棒性,例如请求不同的写作风格或阅读水平,研究人员评估了Ghostbuster对多个提示变体的鲁棒性。Ghostbuster在这些提示变体上的性能优于所有其他测试方法,达到99.5的F1。为了测试对模型的跨域泛化,研究人员在Claude生成的文本上评估了Ghostbuster的性能,结果Ghostbuster也在92.2的F1上超过了所有其他测试方法。

image.png

AI生成文本检测器曾被轻微编辑生成的文本所欺骗。研究人员检查了Ghostbuster对编辑的鲁棒性,例如交换句子或段落,重新排列字符,或用同义词替换单词。大多数在句子或段落级别的更改并没有显著影响性能,尽管如果文本通过重复改写,使用商业检测规避器(如Undetectable AI)或进行大量单词或字符级别的更改,则性能会平稳下降。性能在较长的文档上也表现最佳

由于AI生成文本检测器可能会将非母语英语的文本误判为AI生成的文本,研究人员评估了Ghostbuster对非母语英语写作的性能。所有测试模型在三个测试数据集中的两个上都具有95%以上的准确率,但在第三组较短的散文中表现较差。然而,文档长度可能是主要因素,因为Ghostbuster在这些文档上的表现几乎与其在其他长度相似的领域之外文档上的表现一样好(74.7F1),后者的F1在75.6到93.1之间。

希望将Ghostbuster应用于潜在的文本生成的禁区使用的用户应该注意,对于较短的文本、远离Ghostbuster训练领域的领域(例如不同的英语变体)、非英语母语的文本、人工编辑的模型生成或通过提示AI模型修改人工创作的文本,错误更有可能发生。为了避免延续算法伤害,我们强烈不建议在没有人类监督的情况下自动惩罚所谓的文本生成使用。相反,我们建议在分类某人的写作为AI生成可能会对其造成伤害时,谨慎使用Ghostbuster的人机协同使用。Ghostbuster还可以在一系列较低风险的应用中发挥作用,包括从语言模型训练数据中过滤AI生成的文本,并检查在线信息源是否为AI生成。

Ghostbuster是一种先进的AI生成文本检测模型,在测试的领域中取得了99.0的F1性能,相较现有模型取得了实质性的进展。它在不同领域、提示和模型上表现良好,对于识别来自黑盒或未知模型的文本非常合适,因为它无需访问生成文档的具体模型的概率。

image.png

Ghostbuster未来的方向包括为模型决策提供解释和提高对试图欺骗检测器的攻击的鲁棒性。AI生成文本检测方法还可以与水印等替代方法一起使用。研究人员还希望Ghostbuster能在过滤语言模型训练数据或标记网络上的AI生成内容等各种应用中发挥作用。

工具地址:https://ghostbuster.app/

论文网址:https://arxiv.org/abs/2305.15047

github项目网址:https://github.com/vivek3141/ghostbuster

大家尝试在这里猜测文本是否是人工智能生成的:ghostbuster.app/experiment

举报

  • 相关推荐
  • AI日报:扣子空间开放测试;腾讯混元开源视频生成工具HunyuanCustom;阿里开源大模型搜索引擎ZeroSearch

    本文汇总了近期AI领域多项重要进展:1)扣子空间开放测试,无需邀请码即可体验AI协作平台;2)腾讯推出HunyuanCustom视频生成工具,实现音视频同步编辑;3)阿里巴巴ZeroSearch技术降低AI训练成本88%;4)OpenAI新增GitHub连接器,强化代码分析功能;5)联想发布天禧个人超级智能体,具备感知交互能力;6)OpenAI在亚洲推出数据驻留计划;7)Multiverse发布全球首款AI生成多人游戏;8)秘塔AI上线"讲题"功能辅助家长辅导;9)Genspark推出智能电子表格工具AI Sheets;10)Google Gemini API新增缓存功能可节省75%成本;11)PixVerse v4视频生成速度质量双提升;12)快手推出内容净化器KuaiMod;13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度,展现了AI技术的快速发展和广泛应用。

  • 如何辨别AI生成的图片文字声音?分享一些小技巧

    在人工智能生成内容日益普及的今天,辨别AI生成的图片、文字和声音变得尤为重要。以下是一些实用的技巧,希望能帮到你……

  • GhibliTattoo发布!AI纹身生成,吉卜力风格专属定制!

    这款工具专为吉卜力粉丝、纹身爱好者与创意设计师打造。通过文本提示或图片上传,即可生成高分辨率、透明背景的吉卜力风格纹身设计……

  • 三星要将 Gemini AI 助手整合进 Galaxy Watch6 与 Buds3

    这是三星首次将功能强大的 AI 助手带入可穿戴设备类别,为用户提供更智能、更紧密连接的 Galaxy 体验……

  • AI把debug时间缩短到几分钟,Lightrun获7000万美元B轮融资

    2025年AI编程浪潮持续升温,OpenAI拟30亿美元收购AI编程助手公司Windsurf,Cursor母公司Anysphere获9亿美元融资。AI生成代码的可靠性引发关注,Lightrun公司推出Runtime Autonomous AI Debugger工具,可在IDE中精确定位问题代码并提供修复建议,将调试时间从数天缩短至几分钟。该公司近期完成7000万美元B轮融资,总融资达1.1亿美元。AI编程工具市场规模预计2032年达300亿美元,但AI生成代码的可靠性问题亟待解决。Lightrun的解决方案让开发者能在软件上线前发现并修复bug,防患于未然。

  • 当在线教育遇见 Rightbot:数智员工如何重构教育服务范式

    在线教育行业面临人力成本与服务标准化的双重困境,疫情期某平台用户量暴增300%却导致客服响应时间飙升至40分钟,教师人均负责学员突破200人,投诉率激增260%。文章揭示了"规模扩张-人力过载-体验崩塌"的恶性循环本质,指出标准化服务与个性化需求的冲突。通过Rightbot智能助教案例,展示了AI如何重构教育服务:1)构建垂直领域知识图谱,覆盖K12等6大领域;2)情感智能交互,识别学员真实需求并触发个性化策略;3)全链路数据闭环,预测学习风险并优化教学。实验数据显示,采用AI的机构教师人效提升275%,学员完课率提高58%,满意度从72分升至89分。文章提出未来教育将走向人机协同,让教师专注20%的高价值工作,用技术实现规模化与个性化的平衡。

  • 未来智能发布AI耳机新品iFLYBUDS Pro 3与Air 2,解码AI硬件的三重价值跃迁

    文章探讨了AI硬件行业当前面临的两极分化现象:一方面企业陷入参数竞赛的技术神话,另一方面因场景缺失导致功能冗余。未来智能通过发布iFLYBUDS Pro3和Air2两款AI会议耳机,展现了回归工具本质的理念——好AI耳机首先必须是好耳机。产品聚焦办公会议场景,通过viaim大脑与百万终端构建的生态闭环,实现数据与入口双向促进。数据显示用户留存率达70%,证明解决真实问题比追逐风口更具生命力。文章指出,真正的用户价值在于让技术隐形,当耳机能预测跨语言翻译需求、自动整理碎片信息时,工具便进化为"懂需求的伙伴"。

  • IBM管详解如何加速企业AI应用:Agent是路径,不是噱头

    IBM在2025 Think大会上提出,企业AI竞争已从实验阶段转向实际应用阶段,关键在于定制化AI解决方案和可量化的业务成果。IBM强调企业级AI Agent需具备"动手能力",能嵌入业务流程、完成任务并监控维护,而非仅是对话助手。其watsonx平台构建了模型、数据、任务执行的完整技术栈,并通过三层架构(交互层、任务分解层、系统连接层)实现闭环运行。IBM还推出"AgentOps"体系,将智能体模块化、服务化,建立能力目录和监控机制,解决企业部署AI Agent时的系统对接、价值评估和管理难题。实践案例显示,制造业设备巡检Agent可节省70%人力成本。IBM认为AI Agent是企业数字化能力的延伸,需与业务流程深度融合,而非追赶技术潮流。

  • 听脑AI:智能工具助力效沟通,赋能职场与生活

    听脑AI是一款专注于语音/视频转文本的智能工具,通过技术创新解决现代职场与生活中的信息记录痛点。核心功能包括:1)多场景语音转写,支持中英日韩等多语言识别;2)AI智能总结,自动提炼会议纪要、待办事项;3)行业模板库,适配政务、医疗、教育等专业场景;4)在线视频解析,快速提取课程/行业知识要点。产品优势在于实现从记录到管理的全流程解决方案,可提�

  • 99元的泡泡玛特溢价到2000元 LABUBU3.0系列热销

    近日,泡泡玛特现象级IP LABUBU第三代搪胶毛绒产品“前方高能”系列自四月底发售以来,热度持续不减。新品上架即遭抢购,官方小程序显示预售产品要到6月15日起才发售。 在二手平台