斯坦福大学：大多数大语言模型不符合欧盟AI法案 GPT-4仅排第四

2023-07-12 10:16 · 稿源：站长之家

站长之家（ChinaZ.com）7月12日消息:斯坦福大学著名的以人为中心的人工智能研究所（HAI）表示，对10个主要基础模型的调查显示，它们“基本上不”遵守欧盟的人工智能法案。

得分最高的基础模型是Bloom，它是 Hugging Face 的开源模型，于2022年7月发布，是一个大型多语言模型，具有多达1760亿个参数，旨在通用。

紧随其后的是 EleutherAI 的GPT-NeoX和 Google 的PaLM2。OpenAI 的 GPT-4排名第四，Cohere 的Command跻身前五。

得分最低的模型是来自德国人工智能初创公司 Aleph Alpha 的Luminous 。令人惊讶的是，表现第二差的模型是Anthropic 开发的人工智能机器人 Claude，这是，旨在生成更安全的响应。第三差的是AI21的Jurassic-2。

斯坦福大学研究人员表示，Claude的结果表明模型是受限或封闭的。他们发现，像 Claude 这样的模型，以及 Google 的PaLM2和 OpenAI 的GPT-4等几乎没有被披露的模型，使得评估数据源和计算水平变得困难。GPT-4得分为25，PaLM 得分为27，尽管与 Claude 一样，在涉及数据源和治理的测试时，两者都排名较低。

斯坦福大学的研究人员考虑了欧盟人工智能法案的22项要求，并选择了12项可以利用公共信息进行“有意义的评估”的要求。它们是数据源、数据治理、受版权保护的数据、计算、能源、能力/限制、攻击/缓解、评估、测试、机器生成的内容、成员国和下游文档。

这12个指标按4分制进行评估，其中最低得分为1分，4为最高。然而，由于创建者没有透露足够的信息，某些模型无法得到充分评估。例如，封闭模型的数据源通常不公开。

研究人员表示，他们选择《欧盟人工智能法案》是因为它是“当今世界最重要的人工智能监管举措”。该法案很快将成为适用于欧盟4.5亿人口的法律，同时也为全球人工智能监管开创了先例。

研究人员得出结论，得分最高的模型仍有“重大改进”的空间。这意味着欧盟人工智能法案将导致透明度和问责制方面的“重大变化”和“实质性进展”。

大多数模型陷入困境的四个领域是受版权保护的数据（不明确的责任问题）、计算/能源(能源使用报告不均匀)、风险缓解(披露不充分)和评估/测试(模型提供商很少根据故意伤害来衡量性能)。

一般来说，广泛开放的模型在资源披露方面较强，但在监视或控制部署方面较弱。封闭或受限模型则相反。因此，斯坦福大学的研究人员呼吁欧盟政策制定者加强部署要求，以确保更大的问责制。

研究人员表示，欧盟人工智能法案必须明确未明确规定的领域，例如哪些性能维度需要披露。此外，评估合规性时必须考虑模型的准确性、稳健性、公平性和效率，类似于美国标准与技术研究所的人工智能风险管理框架。

斯坦福大学团队表示，欧盟人工智能法案还应迫使提供商披露使用模式，以反映在线平台的透明度报告。对于全球政策制定者来说，他们应该优先考虑模型的透明度。社交媒体监管的经验是一个明显的教训，即平台透明度不足导致了许多危害。

模型提供商合规性最差的领域是受版权保护的训练数据的披露。研究人员呼吁立法者澄清版权与生成模型的训练和输出的关系，包括机器生成内容侵犯内容创作者权利的条件。

对于模型提供商来说，斯坦福大学的研究人员建议他们从“容易实现的成果”开始，例如为基于基础模型构建的下游开发人员改进文档。他们还应该与学术界和公众合作制定行业标准，以提高整个生态系统的透明度和问责制。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
CS25官网体验入口斯坦福大学深度学习AI课程免费在线使用地址

CS25是斯坦福大学提供的一门课程，主要探讨深度学习模型Transformers，该模型在全球范围内产生了巨大影响。课程邀请了Transformers研究领域的前沿人物，讨论从GPT和Gemini等LLM架构到创造性应用在内的最新突破。要了解更多关于CS25课程的信息，以及开始您的深度学习之旅，请访问CS25官方网站。

CS25
斯坦福团队大模型Octopus v2火了：手机就能运行准确性超越GPT-4

斯坦福大学研究人员发布的Octopusv2模型引起了开发者社区的极大关注，其20亿参数的模型一夜下载量超过2k。这一模型可以在智能手机、汽车、个人电脑等端侧设备上运行，并在准确性和延迟方面表现超越了GPT-4，同时将上下文长度减少了95%。设备端AI智能体时代即将到来，Octopusv2的发布为这一趋势注入了新的活力。

Octopusv2 AI头条
斯坦福推可以在手机端跑的大模型 Octopusv2超越GPT-4一夜爆火

斯坦福大学的研究团队近日推出了一款名为Octopusv2的新型人工智能模型，这款模型以其在端侧设备上的强大运行能力受到广泛关注。论文:Octopusv2:On-devicelanguagemodelforsuperagent论文地址:https://arxiv.org/abs/2404.01744模型主页:https://huggingface.co/NexaAIDev/Octopus-v2Octopusv2的推出，标志着设备端AI智能体时代的来临。对于那些对AI技术充满热情的开发者和企业来说，Octopusv2无疑提供了一个全新的�

Octopusv2
多模态语言模型Reka Core：可分析图片、视频、音频评测得分与GPT-4接近

RekaAI近日宣布推出其最新力作——RekaCore，这是一款前沿的多模态语言模型，拥有强大的性能和灵活的部署方式。该模型像Gemini一样可以直接分析图片、视频、音频，评测得分与GPT-4和Gemini-Ultra接近。通过Edge、Flash和Core等系列模型的全面支持，Reka已经准备好迎接更广泛的挑战，展望未来，我们期待着与更多愿意加入我们的伙伴共同探索多模态世界的无限可能。

RekaCore AI头条
斯坦福大学发布2024年人工智能指数报告:十大要点解析

在2024年4月19日，斯坦福大学以人为中心的人工智能研究所发布了其备受瞩目的2024年人工智能指数报告。这份全面的研究报告深入分析了人工智能的现状，探讨了主要趋势、进步和挑战。这份报告的见解可以作为导航AI领域的宝贵资源，帮助我们为实现一个更加公平、可持续和有益的AI驱动未来制定路线。
苹果AI放大招！声称其设备端模型性能优于GPT-4

在最近的一篇论文中，苹果的研究团队宣称，他们提出了一个可以在设备端运行的模型ReALM，这个模型在某些方面可以超过GPT-4。ReALM的参数量分别为80M、250M、1B和3B，体积都非常小，适合在手机、平板电脑等设备端运行。这项研究有望用来改进苹果设备上的Siri助手，帮助Siri更好地理解和处理用户询问中的上下文。

苹果 ReALM AI
荐奥特曼斯坦福演讲：专注当前AI局限性没用，GPT-5让一切努力过时

黄仁勋亲自为OpenAI送来了全球第一台NvidiaDGXH200超级计算机，三人合影引得大家津津乐道。奥特曼也没闲着，现身斯坦福大学的Nvidia礼堂发表演讲，大约超过1000名学生排起了长队。奥特曼表示一年前他们推出的GPT-4曾引发了人们两周的恐慌，人们认为这是一件疯狂的事，世界被永远改变了。

GPT-5
3车被困河道引围观商家现场拉广告：不符合社会道德

湖南省新化县发生了一起钓友驾车进河道钓鱼被困的事件。由于上游涨水，三辆车被困在河道中间，其中有三台车被水淹泡。商家在现场拉广告不违法，但可能违反直播平台管理规定，且不符合社会道德。

新化县钓鱼车辆被困
商汤发布日日新5.0大模型综合能力全面对标GPT-4

4月23日下午，商汤科技发布了一项重磅更新——全新升级的日日新SenseNova5.0大模型。这款大模型采用了先进的MOE混合专家架构，经过超过10TBtokens的训练，其推理上下文窗口达到了惊人的200K，展现出了与GPT-4Turbo全面对标的能力。此次日日新SenseNova5.0大模型的发布，无疑将进一步推动商汤科技在人工智能领域的发展，同时也为整个产业带来了更多的可能性与机遇。
GPT-4 Turbo 击败 Claude 3，重新夺回 “最佳AI模型” 称号

OpenAI最新推出的更新版GPT-4Turbo上周已经面向开发人员和付费ChatGPT订阅者提供。当推出这一模型时，OpenAI表示新的GPT-4Turbo从前作中进行了多项改进用户们也发现这一点确实如此。如果您想要跳过测试，直接使用gpt-4-turbo-2024-04-09在ChatGPT中，需要成为ChatGPTPlus订阅者，费用为每月20美元。

GPT-4 Claude3 AI头条

今日大家都在搜的词：

热文

3 天
7天

斯坦福大学：大多数大语言模型不符合欧盟AI法案 GPT-4仅排第四

今日大家都在搜的词：

热文

站长商机