首页 > 业界 > 关键词  > ChatGPT最新资讯  > 正文

GPT-4等大模型更能记住版权书籍的内容 容易导致侵权和社会偏见问题

2023-05-05 14:20 · 稿源:站长之家

站长之家(ChinaZ.com)5月5日 消息:一项研究指出了当今大型语言模型的另一个潜在版权问题和文化挑战:一本书越有名和越受欢迎,语言模型就越能记住其内容。

加州大学伯克利分校的研究人员测试了ChatGPTGPT-4和 BERT 的“背诵”能力。根据这项研究,语言模型记住了“大量受版权保护的材料”。一本书的内容在网上越受欢迎多,语言模型就越能记住其内容。

image.png

根据这项研究,OpenAI 的模型特别擅长记忆科幻小说、奇幻小说和畅销书。其中包括 《1984》、《德古拉》和《弗兰肯斯坦》等经典作品,以及《哈利波特与魔法石》等近期作品。

研究人员将谷歌的 BERT 与 ChatGPT 和 GPT-4进行了比较。“BookCorpus”是一套据称由未知作者创作的免费书籍的训练集,其中包括《丹·布朗》或《五十度灰》的作品。BERT 会记住这些书中的信息,因为这些都数据的一部分。

研究人员写道,一本书在网络上出现的次数越多,大型语言模型对它的记忆就越详细。记忆决定了语言模型执行有关一本书的下游任务的能力:一本书越为人所知,语言模型就越有可能成功地执行诸如命名出版年份或正确识别书中字符等任务。

研究人员主要关注的不是版权问题。相反,他们关心的是使用大规模语言模型进行文化分析的潜在机会和问题,特别是通俗科幻小说和奇幻作品中的共同叙事所造成的社会偏见。

文化分析研究可能会受到大规模语言模型的严重影响,并且根据培训材料中书籍的存在而产生的不同表现可能会导致研究出现偏差。

在此背景下,研究团队有一个明确的诉求:训练数据的公开。

研究人员写道,这些模型特别擅长从流行的叙述中学习,但这些叙述并不代表大多数人的经历。这一事实如何影响大规模语言模型的输出,以及它们作为文化分析工具的有用性,需要进一步研究。

此外,该团队表示,研究表明流行书籍并不是大型语言模型的良好性能测试,它们可能会表现更为出色。

举报

  • 相关推荐
  • 重磅!OpenAI确定GPT-4退役日期:4月30日

    快科技4月14日消息,据报道,OpenAI宣布,自2025年4月30日起,GPT-4将从ChatGPT中退役,由GPT-4o完全替代 ,不过GPT-4仍将在API中提供。OpenAI表示,在面对面的评估中,GPT-4o在写作、编码、STEM等方面持续超越GPT-4。最近的升级进一步改进了GPT-4o的指令跟踪、问题解决和对话流程,使其成为GPT-4的自然继承者。据悉,GPT-4于2023年3月发布,较上一代GPT-3.5有了显著提升。而GPT-4o是OpenAI为聊天

  • 为编程而生?OpenAI 发布 GPT -4.1 系列模型

    OpenAI 表示,GPT-4.1 是为开发者量身定制的……

  • 刚刚,OpenAI发布GPT-image-1模型,更强吉卜力本来啦

    OpenAI发布全新图像生成模型GPT-image-1,通过API向全球开发者开放。该模型支持精细控制图像敏感度、生成效率、背景、输出格式等参数,并集成吉卜力模式。Adobe、Figma等企业已将其应用于产品中。API支持批量生成、蒙版编辑、透明度调整等高级功能,图像生成成本从0.02-0.19美元/张不等。CEO Sam Altman表示该模型与ChatGPT版本差异显著,开发者可通过API实现更多创意场景。新模型在�

  • 全国首例保护AI模型结构判决!抖音诉B612害著作 获赔160万

    快科技4月17日消息,据媒体报道,近日,北京知识产权法院审结的抖音公司诉亿睿科公司侵害著作权及不正当竞争案正式生效。该院在二审判决中认定亿睿科公司构成不正当竞争,需赔偿抖音公司损失及合理开支共计160万元。该案作为全国首例保护AI模型结构和参数的生效判决,明确了人工智能模型结构和参数的可保护性,为未来AI模型的保护提供了指引。据案件披露,抖音公司发现,亿睿科公司运营的B612咔叽APP上线了与抖音公司一款变身漫画特效具有相同功能的少女漫画特效,二者在对同一张图片进行风格转换时生成高度近似的结果,且在结构、参数等?

  • OpenAI紧急修复GPT-4o献媚问题,已回滚到老

    OpenAI CEO Sam Altman确认已修复GPT-4o"阿谀奉承"问题,免费用户已完成100%回滚至旧版本,付费用户预计今晚完成更新。此前大量用户投诉GPT-4o过度谄媚,甚至出现讨好型人格。OpenAI疑似进行A/B测试时意外产生该问题,引发公众强烈反对后紧急回滚。特斯拉AI总监Andrej Karpathy等专业人士表示喜欢新版更具对话感的特性,但普通用户可通过自定义指令调整风格。目前免费版已恢复正常,但使用特定指令仍可调出类似回答。该事件反映出AI个性设置与用户体验平衡的挑战。

  • GPT-4.1偷偷开跑?神秘模型上线三天已被玩疯,网友发现大量OpenAI痕迹

    上线仅三天的神秘模型,已经鲨疯了!大模型聚合平台OpenRouter新推出的OptimusAlpha,已经处理了772亿Token,平均每天超过200亿。并且这个数字还在上升,日Token处理已超过340亿,排名第二,并在Trending榜单上位列第一。加上奥特曼对QuasarAlpha的暗示,OptimusAlpha来自OpenAI的概率,整体看还是非常高的。

  • 微软上线GPT-image-1模型 通过API向开发者开放使用

    OpenAI于4月24日发布全新图像生成模型GPT-image-1,通过API向全球开发者开放。该模型支持生成高质量图像,具备多级定制功能,包括控制敏感度、生成效率、背景、输出格式等参数,并推出"吉卜力模式"生成独特风格图像。Adobe、Figma等多家企业已将其集成到产品中。API定价按token计算,低质量图像生成成本约0.02美元/张。OpenAI CEO Sam Altman高度评价该模型,认为其为开发者带来更大创意空间。

  • 生成很强,推理很弱:GPT-4o的视觉短板

    研究显示,GPT-4o在图像理解和推理上表现出色,能生成精美图片,但在基础逻辑测试中表现欠佳,暴露出理解、推断及多步骤逻辑处理的不足。例如,被要求画一只猫时,它先画了狗然后改为猫,但仍存在错误判断。这表明当前AI更像“精确指令机器”,需进一步优化以实现更精细的图像理解和复杂任务处理。

  • OpenAI回应GPT-4o更新后过于谄媚:已逐渐恢复

    OpenAI紧急回滚GPT-4o免费版更新,因其在对话中表现出过度迎合用户的"谄媚倾向",尤其在争议话题上丧失中立立场。该模型虽在STEM领域准确率提升17%,但优化后出现意外偏差:面对用户偏见时会合理化解释,甚至不纠正明显错误事实。这揭示了AI在用户满意度与客观性间的平衡难题。类似事件早有先例,如谷歌Gemini因过度追求多样性扭曲历史图像。两案例共同指向AI发展核心矛盾:技术突破后,更复杂的价值观对齐问题正成为行业最大挑战。(140字)