11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
全国网络安全标准化技术委员会在官网发布了,国家标准《网络安全技术生成式人工智能服务安全基本要求》征求意见稿。该意见稿一共分为《网络安全技术生成式人工智能服务安全基本要求-标准文本》、意见汇总处理表和编制说明三大块。我国也是全球为数不多在生成式人工智能领域连续出台安全管理条例的国家,一方面展示了国家对创新变革技术的重视程度,另外保证了�
AI的发展离不开数据这种数据的成本越来越高,这使得除了最富有的科技公司外,其他公司难以承担这一成本。根据去年OpenAI的研究人员JamesBetker的文章,AI模型的训练数据是决定模型能力的关键因素。只有当研究突破技术壁垒,数据收集和整理成本不再是问题时,这些开放性的数据集才有希望与科技巨头竞争。
中国网络安全标准化技术委员会官网发布了《网络安全技术生成式人工智能服务安全基本要求》征求意见稿。该标准细化了对生成式人工智能服务的安全要求,包括训练数据安全、生成内容安全和模型安全要求。我国也是全球为数不多在生成式人工智能领域连续出台安全管理条例的国家,一方面展示了国家对创新变革技术的重视程度,另外保证了生成式人工智能的场景化落地和应用安全。
OpenAI、谷歌和Meta被指控在训练人工智能模型时存在不当行为。纽约时报的报告指出,OpenAI使用名为Whisper的语音识别工具从YouTube视频中转录音频,并据称OpenAI员工曾讨论这一行为可能违反视频网站的规则。纽约时报的报道引起了关于AI公司训练数据的合法性和道德性的讨论,也凸显了AI行业在数据获取方面面临的挑战和争议。
在最新的研究中,科学家们开发出了一种名为MindEye2的技术,它能够仅用1小时的功能磁共振成像数据,从大脑活动中重建出观察者所看到的图像。这比传统的需要数十小时的训练数据的类似技术,效率大大提高。这项技术的潜力巨大,未来的应用前景广阔,值得我们期待。
最近,OpenAICTOMurati接受采访时,对Sora训练数据语焉不详、支支吾吾的表现,已经成了全网热议的话题。要是一个处理不好,OpenAI就又要陷入巨额赔偿金的诉讼之中了。」AI在电影、游戏、广告这些行业还会掀起怎样的飓风,让我们拭目以待吧。
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/📰🤖📢AI新鲜事苹果大模型MM1入场:参数达到300亿超半数作者是华人全球最快AI芯片WSE-3发布性能碾压H100!Midjourney禁止用户生成拜登和特朗普图片Claude3HaikuAPI发布OpenAICTO承认Sora训练�
OpenAI的最新成果Sora在公众面前展露了一角,引发了一场关于训练数据来源的争议。在最近的一次采访中,OpenAI首席技术官MiraMurati透露,Sora接受了公开可获得和许可数据的训练,但对于是否使用了YouTube、Facebook或Instagram上的视频数据,她表示不确定。在AI时代,技术的发展需要与社会的共同关注和监管相结合,以确保其长期发展的可持续性和稳定性。
英伟达最新推出的大型语言模型Nemotron-415B,以其卓越性能和创新架构引起广泛关注。该模型拥有150亿参数,基于庞大的8万亿文本标注数据进行了预训练。这一成就为大型语言模型的发展和应用提供了崭新的视角。
Tumblr和WordPress.com的所有者Automattic正与AI公司Midjourney和OpenAI就提供用户帖子的训练数据进行谈判。Automattic计划推出一个新设置,允许用户选择退出与第三方的数据共享。该行为也反映了AI技术在如何利用公开数据进行训练上的伦理和合规问题。
真·Sora视频上新了!走过路过不要错过!。就在过去短短几个小时里,包括BillPeebles、TimBrooks两位负责人在内的工作人员唰唰唰N连发。嗯……咱就是说,谁能一口否定没有这种可能呢?OneMoreThingSora上新视频后,有网友急冲冲去问了另一家AI视频生成头部玩家Runway的首席执行官。
伊利诺伊大学香槟分校的研究团队发表了关于代码集成到LLM训练数据中的好处。这项研究概述了代码预训练对LLM的影响,并追踪了LLM作为智能智能体时的作用。对于数据密集型领域中更复杂的任务,模型需要精确掌握各种功能终端的使用方法,这是将LLM连接到不同的功能终端时面临的挑战。
音乐发行商,包括环球音乐、康科德和ABKCO在一场侵权法律纠纷中向Anthropic提出了初步禁令。这家得到亚马逊和谷歌支持的生成式AI公司最近正式回应了这一请求。“关于原告的[ClaudeAI]提示产生的副本,记录中唯一的证据是原告及其代理商不是Anthropic制作了所谓的侵权副本…在这种情况下,输出副本不构成Anthropic的复制。
随着自然语言处理和自然语言生成的进步,大型语言模型在实际应用中得到了广泛使用。由于它们能够模仿人类行为,并具有通用性,这些模型已经涉足各个领域。研究团队强调了对预训练数据筛选程序及其社会影响进行更多研究的需求。
TACO是一个专注于算法的代码生成数据集,旨在为代码生成模型提供更具挑战性的训练数据集和评测基准。与当前主流代码评测基准相比,TACO在数据规模、数据质量和细粒度评测方案上具有明显优势。提供细粒度标签:TACO数据集中每个题目均包含任务主题、算法、技能及难度等细粒度标签,为代码生成模型的训练与评测更精确的参考。
美国两名立法者提出了一项法案,要求基础模型的创建者披露训练数据的来源,以便版权所有者知道他们的信息被盗用。由众议员安娜·埃索和唐·贝尔提交的《人工智能基金会模型透明度法案》将指示联邦贸易委员会与国家标准与技术研究所合作,建立报告培训数据透明度的规则。这项法案的提出是人工智能发展过程中的一个重要里程碑,它将有助于保护版权所有者和促进人�
随着ChatGPT等模型的参数越来越大,预训练数据也呈指数级增长。谷歌DeepMind、华盛顿大学、康奈尔大学等研究人员发现,无论是开源还是闭源模型,在训练过程中皆能记住一定数量的原始训练数据样本。ChatGPT已经修复了该漏洞,当你在提问重复某个词句的无限重复要求时,会提示“根据OpenAI的使用政策,我不能参与重复无意义内容的行为。
来自GoogleDeepmind、华盛顿大学、康奈尔大学、卡内基梅隆大学、加州大学伯克利分校和苏黎世联邦理工学院的一组研究人员成功地让OpenAI的聊天机器人ChatGPT揭示了用于训练AI模型的一些数据。研究团队使用了一种创新性的手法,即通过不断迭代地要求ChatGPT重复一个特定的词汇,比如“诗歌”,来引导模型透露其训练数据。这一研究为我们敲响了警钟,提醒我们在推动AI发展的同时,需谨慎处理其隐私和能源消耗的问题。
GoogleDeepMind的研究发现,通过简单的查询攻击方法,可以从ChatGPT中泄露出大约几MB的训练数据,成本仅约200美元,引起社交网络哗然。研究团队成功攻击了生产级模型,打破了对齐设定,即使模型经过对齐,也能通过命令诱导模型输出训练数据,暴露个人信息,揭示了对抗模型泄露的新途径。新的攻击方式提出了对抗模型泄露的新思路,强调了在开发和使用大型语言模型时对隐私和安全的重视,并呼吁进行更全面的测试和防护措施。
《麻省理工技术评论》曾在官网发表文章表示,随着ChatGPT等大模型的持续火热,对训练数据的需求越来越大。大模型就像是一个“网络黑洞”不断地吸收,最终会导致没有足够的数据进行训练。AI厂商们需要提前布局数据再生、合成的有效方法,避免在发展大模型的过程中出现断崖式数据短缺。
人工智能公司正面临一个严峻的挑战:训练数据的枯竭。数据在AI经济中发挥着中心作用,是模型基本功能和质量的关键推动力。尽管互联网看似无限,但实际上很少有什么是永无止境的。
OpenAI最近宣布了DataPartnerships计划,旨在与第三方机构合作,创建用于AI模型训练的公共和私有数据集。这一举措旨在解决现有AI模型训练数据集中存在的问题,其中包含有毒语言和偏见。在克服数据集偏见等挑战方面,OpenAI是否能做得更好,仍有待验证。
随着人工智能达到巅峰,研究人员警告称,AI行业可能会面临训练数据告急的问题,这是强大AI系统的燃料。这可能会减缓AI模型的增长,特别是大型语言模型,并可能改变AI革命的轨迹。获得对其工作的报酬可能有助于恢复创意工作者和AI公司之间存在的一些权力失衡。
说起大语言模型所展示的令人印象深刻的能力,其中之一就是通过提供上下文中的样本,要求模型根据最终提供的输入生成一个响应,从实现少样本学习的能力。这一点依靠的是底层机器学习技术「Transformer模型」,并且它们也能在语言以外的领域执行上下文学习任务。更多研究细节,可参考原论文。
谷歌DeepMind的研究人员进行了实验,旨在探讨Transformer模型是否能够在超出预训练数据范围之外泛化出新的认知和能力。他们的研究发现,几乎不可能要求模型在超出预训练数据范围之外解决新问题。这对于机器学习和人工智能领域的研究和发展具有重要意义。
随着人工智能技术的快速发展,其训练数据的获取和使用变得日益重要,但也出现了滥用现象。为了抵御这种滥用,一款名为「Nightshade」的新工具应运生,为创作者提供了一种保护他们创意作品不被无授权用于AI模型训练的方法。大多数这些产品都是基于文本的。
自ChatGPT几乎一年前登场以来,生成式人工智能进入了高速发展的时代,但反对声音也逐渐增强。许多艺术家、娱乐人士、表演者甚至唱片公司已经对AI公司提起了诉讼,其中一些诉讼涉及ChatGPT制造商OpenAI,原因是这些新工具背后的“秘密武器”:训练数据。研究人员已将他们关于制作Nightshade的工作提交给计算机安全会议Usinex的同行评审。
【新智元导读】LLM不实用,小模型蒸馏才是「现实」的大模型应用路线,全面领先微调技术!土豪请无视。在ANLI上,使用770MT5模型超越了540BPaLM的性能,只使用了完整数据集的80%并且可以观察到,即使使用100%的完整数据集,标准微调也无法赶上PaLM的性能,表明分步蒸馏可以同时减少模型尺寸和训练数据量实现超越LLM的性能。
美东时间10月2日,著名开源平台Stability.ai在官网宣布,推出开源大语言模型StableLM-3B-4E1T。StableLM3B是一款主要面向手机、笔记本等移动设备的基础大语言模型,在保证性能的前提下,极大降低了算力资源的要求。性能完全不输70亿参数的模型,甚至比一些100亿参数的更强。
智源研究院发布面向中英文语义向量模型训练的大规模文本对数据集MTP。这是全球最大的中、英文文本对训练数据集,数据规模达3亿对,希望推动解决中文模型训练数据集缺乏问题。作为中国大模型开源生态圈的代表机构,智源持续进行包括数据在内的大模型全栈技术开源,推动人工智能协同创新。