首页 > 业界 > 关键词  > ChatGPT最新资讯  > 正文

ChatGPT 在意大利恢复上线 但 OpenAI 在欧盟的监管麻烦才刚刚开始

2023-05-08 11:03 · 稿源:站长之家

站长之家(ChinaZ.com) 5月8日消息:OpenAI 此前成功安抚了意大利数据机构,解除了该国对 ChatGPT 的禁令,但其在与欧洲监管机构的斗争仍远未结束。

OpenAI,ChatGPT,人工智能,AI

今年早些时候,OpenAI 备受争议的 ChatGPT 聊天机器人遭遇了一个重大的法律障碍:在意大利被禁止。意大利数据保护机构(GPDP)指控 OpenAI 违反了欧盟的数据保护规定,该公司同意限制在解决问题的同时,限制该服务在意大利的访问。4 月 28 日,ChatGPT 重回该国,OpenAI 轻描淡写地解决了 GPDP 的担忧,而未对其服务进行重大改变,这是一场明显的胜利。

GPDP 表示欢迎 ChatGPT 所做出的变化。然而,该公司的法律问题——以及那些构建类似聊天机器人的公司的问题——可能仅仅是开始。多个国家的监管机构正在调查这些 AI 工具如何收集和生成信息,引用的关注点从公司收集未授权的训练数据到聊天机器人倾向于散布误导信息。在欧盟,他们适用的是《通用数据保护条例》(GDPR),这是全球最强的法律隐私框架之一,其影响可能远远超出欧洲。同时,欧盟的立法者正在制定一项专门针对 AI 的法律,很可能引领 ChatGPT 等系统的新时代法规。

ChatGPT 在误导信息,版权和数据保护方面的各种问题,使其成为了众矢之的。ChatGPT 是生成 AI 的最流行的例子之一,它是一个涵盖根据用户提示生成文本,图像,视频和音频等工具的笼统总称。据报道,在 2022 年 11 月推出后仅两个月内达到每月 1 亿活跃用户,成为历史上增长最快的消费者应用之一(OpenAI 从未确认这些数字)。人们使用它来将文本翻译成不同的语言,写文章和生成代码。但批评者——包括监管机构——已经强调了 ChatGPT 不可靠的输出,令人困惑的版权问题和不透明的数据保护做法。

意大利是第一个采取行动的国家。3 月 31 日,它指出了四种 OpenAI 违反 GDPR 的方式:允许 ChatGPT 提供不准确或误导性信息,未通知用户其数据收集做法,未满足六种可能的个人数据处理法律正当理由,以及未适当地防止 13 岁以下的儿童使用该服务。GPDP 下令 OpenAI 立即停止使用在 ChatGPT 的训练数据中收集的个人信息。

其他国家尚未采取任何行动。但是自 3 月以来,至少有三个欧盟国家(德国,法国和西班牙)对 ChatGPT 发起了自己的调查。与此同时,加拿大正在根据其《个人信息保护和电子文件法案》(PIPEDA)评估隐私问题。欧洲数据保护委员会(EDPB)甚至建立了一个专门的任务组,帮助协调调查。如果这些机构要求 OpenAI 进行更改,它们可能会影响该服务对全球用户的运行。

监管机构的关注点可以被广泛分为两类:ChatGPT 的训练数据来自何处以及 OpenAI 如何向其用户提供信息。

ChatGPT 使用的是 OpenAI 的 GPT-3.5 和 GPT-4 大型语言模型(LLM),这些模型基于大量的人类产生的文本进行训练。OpenAI 对使用的具体训练文本持保密态度,但表示其依靠「各种许可,创造和公开可用的数据来源,其中可能包括公开可用的个人信息。」

这可能会在 GDPR 下带来巨大的问题。该法律于 2018 年颁布,覆盖从欧盟公民那里收集或处理数据的所有服务,无论负责该服务的组织所在何处。GDPR 规定,公司在收集个人数据之前必须取得明确同意,并为收集数据提供法律合理性,并透明地说明如何使用和存储数据。

欧洲监管机构声称,围绕 OpenAI 训练数据的保密性意味着无法确认进入其中的个人信息是否最初是在用户同意的情况下提供的,GPDP 特别指出,OpenAI 一开始就「没有法律依据」收集这些信息。到目前为止,OpenAI 和其他公司几乎没有受到审查,但这一说法给未来的数据抓取工作增加了一个大问题。

此外,GDPR 的「被遗忘权」允许用户要求公司纠正其个人信息或完全删除它。OpenAI 预先更新了其隐私政策以促进这些要求,但在将特定数据分离成这些大型语言模型后,处理它们可能非常复杂,这引发了争议。OpenAI 还直接从用户处收集信息。与任何互联网平台一样,它收集各种标准用户数据(例如姓名,联系信息,银行卡详细信息等)。但是,更重要的是,它记录用户与 ChatGPT 的交互。正如 FAQ 中所述,该数据可以由 OpenAI 的员工进行审核,并用于训练其模型的未来版本。考虑到人们使用 ChatGPT 提问的亲密问题——将机器人当作治疗师或医生使用——这意味着该公司正在收集各种敏感数据。

至少有一些数据可能是从未成年人那里收集的,因为 OpenAI 的政策规定「不会故意从 13 岁以下的儿童那里收集个人信息」,但没有严格的年龄确认门槛。对于不允许从 13 岁以下的人那里收集数据,并且(在某些国家)要求 16 岁以下的未成年人获得父母同意的欧盟规定来说,这并不是好的政策。在担忧 ChatGPT 的未成年人筛选问题方面,GPDP 声称,ChatGPT 缺乏年龄过滤,会暴露未成年人接触「完全不适合其成长和自我意识水平」的回答。OpenAI 在使用这些数据方面拥有广泛的自由度,这让一些监管机构感到担忧,存储数据也存在安全风险。像三星和 JPMorgan 这样的公司已经禁止员工使用生成 AI 工具,因为他们担心员工会上传敏感数据。实际上,在 ChatGPT 遭受严重数据泄露,暴露用户的聊天记录和电子邮件地址后,意大利宣布禁用该应用。

ChatGPT 提供错误信息的倾向也可能会带来问题。GDPR 法规规定所有个人数据必须准确无误,这一点在 GPDP 的声明中得到强调。这可能会对大多数 AI 文本生成器造成困扰,因为它们容易出现「幻觉」:即对问题作出事实不正确或不相关的回答。在其他地方已经看到这种现象带来一些真实的后果,澳大利亚一个地区的市长因 ChatGPT 错误地声称他因贪污入狱而威胁起诉 OpenAI 诽谤他。ChatGPT 的广泛应用和目前在 AI 市场上的主导地位使其成为一个特别有吸引力的目标,但它的竞争对手和合作伙伴,如拥有 Bard 的谷歌或 OpenAI 的 Azure AI,也可能面临审查。在 ChatGPT 之前,意大利还禁止了聊天机器人平台 Replika 收集未成年人信息,至今仍然被禁用。虽然 GDPR 是一套强大的法律,但它并不是为解决 AI 特定问题而制定的。然而,一些可以解决这些问题的规定可能已经在视野范围内。

2021 年,欧盟提交了第一份《人工智能法》(AIA)的草案,这部立法将与 GDPR 一起制定。该法案根据人们对 AI 工具的风险评估对其进行管理,从「最小」(例如垃圾邮件过滤器)到「高」(用于执法或教育的 AI 工具)或「不可接受」,并因此被禁用(如社会信用体系)。在去年出现像 ChatGPT 这样的大型语言模型的激增之后,立法者现在正在赶快增加「基础模型」和「通用人工智能系统(GPAIs)」的规则——这是指包括 LLMs 在内的大规模 AI 系统——并有可能把它们归为「高风险」服务。

AIA 的规定不仅超出了数据保护的范畴。最近提出的一项修正案将强制公司披露用于开发生成 AI 工具的任何版权材料。这可能会暴露曾经的机密数据集,使更多的公司容易受到侵权诉讼的攻击,而这已经打击了一些服务。

专门制定 AI 法规的法律可能要等到 2024 年才会在欧洲生效,但达成该法律可能需要一段时间。欧盟立法者于 4 月 27 日就 AI 法案达成了临时协议。委员会将在 5 月 11 日对草案进行投票,最终提案预计在 6 月中旬公布。然后,欧洲理事会、议会和委员会将不得不解决任何悬而未决的争议,然后才能实施该法律。如果一切顺利,它可能会在 2024 年下半年被采纳。

目前,意大利和 OpenAI 的争议提供了一个早期的案例,展示了监管机构和 AI 公司如何进行谈判。如果 OpenAI 在 9 月 30 日之前无法创建一个更严格的年龄门槛以防止 13 岁以下的未成年人进入,并要求年龄在 13 岁以上的未成年人获得父母的同意,那么它可能会再次被封锁。但这提供了一个示范,说明欧洲认为什么是一个合适的 AI 公司行为——至少在新法规发布之前是这样。

举报

  • 相关推荐
  • 大家在看
  • Canvas:与ChatGPT协作的新方式

    Canvas是OpenAI推出的一个新界面,旨在通过与ChatGPT的协作来改进写作和编码项目。它允许用户在一个单独的窗口中与ChatGPT一起工作,超越了简单的聊天界面。Canvas利用GPT-4o模型,能够更好地理解用户的上下文,并提供内联反馈和建议。它支持直接编辑文本或代码,并提供快捷操作菜单,帮助用户调整写作长度、调试代码等。Canvas还支持版本回溯,帮助用户管理项目的不同版本。

  • Text Behind Image:轻松创建文字背景图片设计。

    Text Behind Image 是一个开源的设计工具,允许用户轻松创建文字背景图片设计。它提供了一个简洁的界面,让用户可以自由地在图片上添加文字,创造出独特的视觉效果。这个工具对于设计师、社交媒体运营者和内容创作者来说非常有用,因为它可以快速生成具有吸引力的视觉内容。

  • torchao:PyTorch原生量化和稀疏性训练与推理库

    torchao是PyTorch的一个库,专注于自定义数据类型和优化,支持量化和稀疏化权重、梯度、优化器和激活函数,用于推理和训练。它与torch.compile()和FSDP2兼容,能够为大多数PyTorch模型提供加速。torchao旨在通过量化感知训练(QAT)和后训练量化(PTQ)等技术,提高模型的推理速度和内存效率,同时尽量减小精度损失。

  • LFMs:新一代生成式AI模型

    Liquid Foundation Models (LFMs) 是一系列新型的生成式AI模型,它们在各种规模上都达到了最先进的性能,同时保持了更小的内存占用和更高效的推理效率。LFMs 利用动态系统理论、信号处理和数值线性代数的计算单元,可以处理包括视频、音频、文本、时间序列和信号在内的任何类型的序列数据。这些模型是通用的AI模型,旨在处理大规模的序列多模态数据,实现高级推理,并做出可靠的决策。

  • NVLM-D-72B:前沿的多模态大型语言模型

    NVLM-D-72B是NVIDIA推出的一款多模态大型语言模型,专注于视觉-语言任务,并且通过多模态训练提升了文本性能。该模型在视觉-语言基准测试中取得了与业界领先模型相媲美的成绩。

  • gradio-bot:将Hugging Face Space或Gradio应用转化为Discord机器人

    gradio-bot是一个可以将Hugging Face Space或Gradio应用转化为Discord机器人的工具。它允许开发者通过简单的命令行操作,将现有的机器学习模型或应用快速部署到Discord平台上,实现自动化交互。这不仅提高了应用的可达性,还为开发者提供了一个与用户直接交互的新渠道。

  • AI-Powered Meeting Summarizer:会议语音转文本并自动生成摘要的AI工具

    AI-Powered Meeting Summarizer是一个基于Gradio的网站应用,能够将会议录音转换为文本,并使用whisper.cpp进行音频到文本的转换,以及Ollama服务器进行文本摘要。该工具非常适合快速提取会议中的关键点、决策和行动项目。

  • VARAG:视觉增强的检索与生成系统

    VARAG是一个支持多种检索技术的系统,优化了文本、图像和多模态文档检索的不同用例。它通过将文档页面作为图像嵌入,简化了传统的检索流程,并使用先进的视觉语言模型进行编码,提高了检索的准确性和效率。VARAG的主要优点在于它能够处理复杂的视觉和文本内容,为文档检索提供强大的支持。

  • JoyHallo:数字人模型,支持生成普通话视频

    JoyHallo是一个数字人模型,专为普通话视频生成而设计。它通过收集来自京东健康国际有限公司员工的29小时普通话视频,创建了jdh-Hallo数据集。该数据集覆盖了不同年龄和说话风格,包括对话和专业医疗话题。JoyHallo模型采用中国wav2vec2模型进行音频特征嵌入,并提出了一种半解耦结构来捕捉唇部、表情和姿态特征之间的相互关系,提高了信息利用效率,并加快了推理速度14.3%。此外,JoyHallo在生成英语视频方面也表现出色,展现了卓越的跨语言生成能力。

  • PhysGen:基于物理的图像到视频生成技术

    PhysGen是一个创新的图像到视频生成方法,它能够将单张图片和输入条件(例如,对图片中物体施加的力和扭矩)转换成现实、物理上合理且时间上连贯的视频。该技术通过将基于模型的物理模拟与数据驱动的视频生成过程相结合,实现了在图像空间中的动态模拟。PhysGen的主要优点包括生成的视频在物理和外观上都显得逼真,并且可以精确控制,通过定量比较和全面的用户研究,展示了其在现有数据驱动的图像到视频生成工作中的优越性。

  • Whisper large-v3-turbo:高效自动语音识别模型

    Whisper large-v3-turbo是OpenAI提出的一种先进的自动语音识别(ASR)和语音翻译模型。它在超过500万小时的标记数据上进行训练,能够在零样本设置中泛化到许多数据集和领域。该模型是Whisper large-v3的微调版本,解码层从32减少到4,以提高速度,但可能会略微降低质量。

  • Realtime API:低延迟的实时语音交互API

    Realtime API 是 OpenAI 推出的一款低延迟语音交互API,它允许开发者在应用程序中构建快速的语音到语音体验。该API支持自然语音到语音对话,并可处理中断,类似于ChatGPT的高级语音模式。它通过WebSocket连接,支持功能调用,使得语音助手能够响应用户请求,触发动作或引入新上下文。该API的推出,意味着开发者不再需要组合多个模型来构建语音体验,而是可以通过单一API调用实现自然对话体验。

  • Saylo AI:探索无限的AI角色扮演游戏。

    Saylo AI是一个AI角色扮演游戏,让你与AI角色互动,探索多样化的戏剧性故事。它利用人工智能技术,提供沉浸式的互动体验,让玩家在虚拟世界中与AI朋友交流,体验不同的故事情节。Saylo AI的背景信息展示了其创新性和娱乐性,旨在为玩家提供一种全新的娱乐方式。目前产品处于推广阶段,价格未明确标注。

  • twinny:Visual Studio Code的免费且私密的AI扩展

    twinny是一个为Visual Studio Code用户设计的AI扩展,旨在提供个性化的编程辅助,提高开发效率。它通过集成先进的AI技术,帮助开发者在编码过程中快速解决问题,优化代码,并提供智能提示。twinny的背景是响应开发者对于更加智能和自动化编程工具的需求,它通过简化开发流程,减少重复劳动,从而让开发者能够专注于更有创造性的工作。

  • Buildpad:构建人们真正想要的产品

    Buildpad 是一个旨在帮助创始人从概念到成功最小可行产品(MVP)的在线平台。它通过提供智能验证工具、AI引导的开发流程、进度跟踪以及个性化的项目见解,帮助用户构建能够获得市场认可的产品。Buildpad 的主要优点包括简化产品开发流程、提高产品成功率、以及提供个性化的指导和支持。

  • Novela:AI时代的技能学习平台

    Novela是一个专注于AI时代技能学习的在线平台,提供早期访问服务,用户可以免费试用。它旨在帮助用户掌握AI相关的技能,以适应未来职场的需求。

  • interview.co:视频面试软件,简化招聘流程

    interview.co是一个专注于简化招聘流程的视频面试软件。它通过提供在线视频面试、AI问题生成器和面试管理工具,帮助企业高效地筛选和评估候选人。产品背景信息显示,interview.co旨在解决传统面试中的时间消耗、日程安排困难和成本高昂等问题。价格方面,interview.co提供试用版,具体定价信息需进一步探索。

  • Open NotebookLM:将任何PDF转换为播客集!

    Open NotebookLM是一个利用开源语言模型和文本到语音模型的工具,它可以处理PDF内容,生成适合音频播客的自然对话,并将其输出为MP3文件。该项目的灵感来自于NotebookLM工具,通过使用开源的大型语言模型(LLMs)和文本到语音模型来实现。它不仅提高了信息的可访问性,还为内容创作者提供了一种新的媒体形式,使他们能够将书面内容转换为音频格式,扩大其受众范围。

  • Chital:macOS平台的Ollama模型聊天应用

    Chital是一个为macOS平台设计的应用程序,它允许用户与Ollama模型进行聊天。这个应用具有低内存占用和快速启动的特点,支持多聊天线程,能够在不同的模型间切换,并支持Markdown格式。此外,它还能自动为聊天线程生成标题摘要。Chital的开发主要是为了满足开发者个人的使用需求,但也鼓励社区成员通过fork代码库来添加新功能。

  • SafeEar:保护隐私的音频深度检测

    SafeEar是一个创新的音频深度检测框架,它能够在不依赖于语音内容的情况下检测深度音频。这个框架通过设计一个神经音频编解码器,将语义和声学信息从音频样本中分离出来,仅使用声学信息(如韵律和音色)进行深度检测,从而保护了语音内容的隐私。SafeEar通过在真实世界中增强编解码器来提高检测器的能力,使其能够识别各种深度音频。该框架在四个基准数据集上的广泛实验表明,SafeEar在检测各种深度技术方面非常有效,其等错误率(EER)低至2.02%。同时,它还能保护五种语言的语音内容不被机器和人类听觉分析破译,通过我们的用户研究和单词错误率(WER)均高于93.93%来证明。此外,SafeEar还构建了一个用于反深度和反内容恢复评估的基准,为未来在音频隐私保护和深度检测领域的研究提供了基础。

今日大家都在搜的词: