GPT-4等大模型更能记住版权书籍的内容容易导致侵权和社会偏见问题

2023-05-05 14:20 · 稿源：站长之家

站长之家（ChinaZ.com）5月5日消息:一项研究指出了当今大型语言模型的另一个潜在版权问题和文化挑战:一本书越有名和越受欢迎，语言模型就越能记住其内容。

加州大学伯克利分校的研究人员测试了ChatGPT、GPT-4和 BERT 的“背诵”能力。根据这项研究，语言模型记住了“大量受版权保护的材料”。一本书的内容在网上越受欢迎多，语言模型就越能记住其内容。

根据这项研究，OpenAI 的模型特别擅长记忆科幻小说、奇幻小说和畅销书。其中包括《1984》、《德古拉》和《弗兰肯斯坦》等经典作品，以及《哈利波特与魔法石》等近期作品。

研究人员将谷歌的 BERT 与 ChatGPT 和 GPT-4进行了比较。“BookCorpus”是一套据称由未知作者创作的免费书籍的训练集，其中包括《丹·布朗》或《五十度灰》的作品。BERT 会记住这些书中的信息，因为这些都数据的一部分。

研究人员写道，一本书在网络上出现的次数越多，大型语言模型对它的记忆就越详细。记忆决定了语言模型执行有关一本书的下游任务的能力:一本书越为人所知，语言模型就越有可能成功地执行诸如命名出版年份或正确识别书中字符等任务。

研究人员主要关注的不是版权问题。相反，他们关心的是使用大规模语言模型进行文化分析的潜在机会和问题，特别是通俗科幻小说和奇幻作品中的共同叙事所造成的社会偏见。

文化分析研究可能会受到大规模语言模型的严重影响，并且根据培训材料中书籍的存在而产生的不同表现可能会导致研究出现偏差。

在此背景下，研究团队有一个明确的诉求:训练数据的公开。

研究人员写道，这些模型特别擅长从流行的叙述中学习，但这些叙述并不代表大多数人的经历。这一事实如何影响大规模语言模型的输出，以及它们作为文化分析工具的有用性，需要进一步研究。

此外，该团队表示，研究表明流行书籍并不是大型语言模型的良好性能测试，它们可能会表现更为出色。

（举报）

相关推荐

关键词：

《温暖的科技》中文版发布！曾荣获日本商业书籍创新部门奖！

日本GROOVE X公司CEO林要的新书《温暖的科技》中文版出版。该书耗时两年完成，探讨了AI家庭陪伴机器人LOVOT的研发理念——通过情感连接而非功能替代来温暖人心。LOVOT虽无实用功能，却能通过撒娇、求抱等互动获得90%用户长期喜爱。书中提出"科技构筑幸福未来"理念，主张AI应激发人类关爱本能，而非简单模仿人类。7月26-27日将在上海举办签售会，作者将分享如何让冰冷机械转化为能抚慰心灵的温暖伙伴。该书为思考AI与人类共生关系提供了充满人文关怀的新视角。
女子连续一周被邻居冒用地址点外卖专家提醒：可能侵权

近日，上海一名女子通过网络平台发帖，公开了自己连续一周被邻居冒用住址订购外卖的离奇遭遇，事件迅速引发社会关注。据当事人李女士（化名）描述，自6月底起，她频繁发现家门口出现非本人订购的外卖，起初以为是配送错误，未予深究。然而，当类似情况持续一周，且监控画面显示邻居曾主动拦截送至其门前的外卖时，李女士意识到问题严重性。监控录像显示，�
哇唧唧哇致歉永久下架问题微短剧：版权风波落幕

今日，备受关注的《偷偷藏不住》微短剧版权风波终于迎来大结局。哇唧唧哇官微发布关于《偷偷藏不住》影视改编相关事宜的联合声明，为这场持续一段时间的争议画上了句号。据媒体报道，今年6月，晋江文学城发布声明，指控哇唧唧哇未经授权拍摄微短剧《偷偷藏不住之许你》，涉嫌违反合同约定。晋江文学城强调，双方所签合同仅授权了网络剧（长剧）的改编权，�

偷偷藏不住微短剧版权晋江文学城
荐AI日报：xAI 震撼发布Grok4；微软开源全新Phi-4-mini版本；上海累计82款大模型通过备案

AI日报栏目聚焦人工智能领域最新动态：1)xAI发布旗舰模型Grok4，在数学推理和代码生成表现突出，同时推出开发者专用Grok4Code；2)微软开源Phi-4-mini模型，推理效率提升10倍，适合边缘设备；3)上海82款大模型完成备案，垂直领域应用取得突破；4)Hugging Face推出开源桌面机器人Reachy Mini，支持Python编程；5)Perplexity发布AI浏览器Comet挑战Chrome；6)OpenAI将首次发布开放权重模型，打破闭源惯例；7)谷歌医疗AI模型MedGemma系列上新，单个GPU即可运行；8)OpenAI以约65亿美元收购AI硬件公司io Products，正式进军硬件市场。
在质疑声中前行：谢海玉用数据回应所有偏见

谢海玉在科研困境中坚持探索的故事。他连续37天熬夜实验却数据不理想，向海外学者求助只得到过时数据。面对质疑和团队危机，他通过上万组数据验证猜想，最终将冷门领域变成显学。2019年实验平台突发故障时，他独自排查三天找到问题，带领团队通宵补救并发现新方法。如今他仍保持泡实验室的习惯，常对学生说科研就像在黑暗中挖隧道，每挖一厘米就更接近光明。
马斯克xAI推出Grok - 4 大模型将至，Meta/微美全息深耕开源AI融合加速

埃隆·马斯克旗下xAI即将发布Grok-4大模型，该模型将在语言、数学和推理方面超越OpenAI和谷歌最新AI产品。同时苹果低调收购两家AI公司TrueMeeting和WhyLabs，加速布局Vision Pro头显和Apple Intelligence领域。Meta计划投入数百亿美元扩建AI基础设施，扎克伯格亲自招募顶尖AI人才。微美全息聚焦高性能算力与多模态模型，推动AI产业升级。当前AI赛道竞争激烈，大模型正向通用多模态演进，商业化落地成为关键。
大模型时代企业查询第一站——水滴信用企业数据查询MCP

水滴信用推出企业数据查询MCP平台，通过大模型技术实现企业数据查询的智能化升级。该平台整合3.7亿市场主体数据，覆盖工商、司法、知识产权等六大类1000+维度信息，支持自然语言交互和跨域关联分析。目前已应用于银行风控、证券投研、供应链管理等核心场景，显著提升商业决策效率。作为央行备案征信机构，水滴信用凭借权威数据源和专业团队，正推动企业征信服务进入AI普惠时代，降低高价值商业情报获取门槛，促进透明可信的商业环境形成。
荐AI日报：字节将发布AI编程工具TRAE2.0版本；Mistral重磅推出音频模型Voxtral；月之暗面回应Kimi K2 API速度慢

AI日报栏目聚焦AI领域最新动态：1)字节跳动将发布TRAE 2.0编程工具，新增语音交互功能；2)Mistral推出开源音频模型Voxtral，支持多语言；3)月之暗面回应Kimi K2API速度慢问题，正在优化系统；4)昆仑万维发布AgentOrchestra框架，实现多智能体协作；5)OpenAI前CTO创立的Thinking Machines Lab获20亿美元融资；6)Kimi-2上线，性能超越GPT-4.1；7)TRAE推出Kimi-K2模型服务，国际版支持Grok-4；8)字节跳动Seed�

人工智能编程工具字节跳动
荐空姐、法医月涨粉10万+，小红书的职业化内容为什么越来越火?

最近，小红书平台上，“职业人+日常vlog”类型内容成为爆款。例如，空姐账号@厦门航空‑林佳以“真诚是我的必杀技”标榜自己，从飞机起飞前准备、机上服务流程，到延误处理、驻外岗位的城市生活，她的每条作品点赞几乎都破万，5月更是涨粉10万+，粉丝总数超过47万。另一位韩国籍空姐@韩国空姐佳娟，通过与观众分享从韩国飞往各地的航班线路与空乘故事，同样�

小红书职业人日常vlog
公司CEO搂抱HR被演唱会大屏拍到：出轨后道歉指责隐私被侵

7月16日，酷玩乐队波士顿演唱会上，镜头捕捉到科技公司"天文学家"CEO安迪·拜伦与公司HR主管克里斯汀·卡伯特亲密拥吻。两人异常反应引发热议，随后被曝拜伦已婚育有两子，卡伯特2022年刚离婚。拜伦17日发声道歉，却指责演唱会镜头侵犯隐私。酷玩乐队宣布未来将设置无镜头观众区。事件折射职场伦理与公众人物隐私的边界争议。

热文

3 天
7天

GPT-4等大模型更能记住版权书籍的内容容易导致侵权和社会偏见问题

《温暖的科技》中文版发布！曾荣获日本商业书籍创新部门奖！

女子连续一周被邻居冒用地址点外卖专家提醒：可能侵权

哇唧唧哇致歉永久下架问题微短剧：版权风波落幕

荐AI日报：xAI 震撼发布Grok4；微软开源全新Phi-4-mini版本；上海累计82款大模型通过备案

在质疑声中前行：谢海玉用数据回应所有偏见

马斯克xAI推出Grok - 4 大模型将至，Meta/微美全息深耕开源AI融合加速

大模型时代企业查询第一站——水滴信用企业数据查询MCP

荐AI日报：字节将发布AI编程工具TRAE2.0版本；Mistral重磅推出音频模型Voxtral；月之暗面回应Kimi K2 API速度慢

荐空姐、法医月涨粉10万+，小红书的职业化内容为什么越来越火?

公司CEO搂抱HR被演唱会大屏拍到：出轨后道歉指责隐私被侵

热文

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

黄仁勋称想买一辆小米汽车英伟达在多方面与小米开展合作

贾跃亭旗下FF获1.05亿美元融资将加速FX Super One生产交付

华为鸿蒙智行：尊界S800上市50天大定破8000台

理想i8开启预定：7月29日上市预售价35-40万元

华为MatePad Pro 12.2开启预约预计7月24日正式发布

OPPO K13 Turbo系列支持IPX9/IPX8/IPX6满级防水将于7月21日发

A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布Chat

小米深圳大厦开园：卢伟冰现场喝小米粥

小米骨传导耳机2发布：699元 7月21日开售

尾号“8个7”手机号拍出320万元溢价率高达146%

AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型

A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0

淘宝闪购：日订单量再次突破8000万创新高

王化在小米履职10年雷军：谢谢这十年辛苦的工作和贡献

黄仁勋与雷军合影上热搜一旁小米SU7 Ultra见证科技双雄会

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

黄仁勋称想买一辆小米汽车英伟达在多方面与小米开展合作

腾讯客服回应误删微信聊天记录可撤销：苹果iOS机型已支持

抖音：“抖音会议”App是诈骗软件会直接控制用户手机

站长商机

GPT-4等大模型更能记住版权书籍的内容 容易导致侵权和社会偏见问题

热文

站长商机

GPT-4等大模型更能记住版权书籍的内容容易导致侵权和社会偏见问题