11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
IBM近日申请了一项名为“LAB”的专利,旨在利用合成数据来训练LLM模型,以加速企业AI技术的发展。AI模型对数据有着巨大的需求提供大量、质量高、相关性强的数据常常成为一项挑战。IBM可能会利用这一专利来支持那些正在构建自己AI模型的企业,提供一种相对于收集真实用户数据言更少资源密集的方法。
美国开放人工智能研究中心的首席技术官米拉.穆拉蒂表示,对于OpenAI是否采用了社交媒体平台的数据,她本人并不具备确切的信息。OpenAI在数据选择上严格遵守使用公开可获取的数据或是已经获得相应许可的数据”的原则。围绕人工智能训练是否符合版权法所规定的合理使用”这一关键问题,美国相关法院尚未作出裁决。
OpenAI的Sora在今年2月横空出世,把文生视频带向了新阶段。它能够根据文字提示生成超现实场景。OpenAI在储备了众多人才的同时,该如何解决数据问题需要时间给出答案。
伴随着生成式深度学习模型的飞速发展,自然语言处理和计算机视觉已经经历了根本性的转变,从有监督训练的专门模型,转变为只需有限的明确指令就能完成各种任务的通用模型。在语音处理和文本到语音领域,这样的转变也正在发生,模型能够利用数千小时的数据,使合成结果越来越接近类人语音。使用扩散解码器的十亿参数SpeechGPT需要69.1秒才能完成合成使用语音编码解码器的相同SpeechGPT只需要17.8秒。
隐私导向的浏览器Brave最近推出了名为Leo的本地AI助手,该公司声称相比其他AI聊天机器人服务,Leo提供了“无与伦比的隐私”。经过数月的测试,Leo现在可供所有运行浏览器版本1.60的Brave桌面用户免费使用将在未来几个月内分阶段推出到Android和iOS平台。我们相信随着时间的推移将提供更多的模型供用户选择。
X公司更新了其服务条款,明确规定从9月29日起,任何第三方未经书面许可不得在X平台上获取数据用于训练AI模型。埃隆·马斯克一直反对第三方利用X平台上的数据来训练AI模型。马斯克对此进行了解释,他说X只会使用公开的信息来训练AI模型,不会涉及任何私密内容。
新西兰媒体公司Stuff采取了一项重大举措,禁止人工智能引擎ChatGPT等使用其新闻内容来训练AI如何回答问题和生成内容。Stuff首席执行官LauraMaxwell在一份声明中表示,他们已加入越来越多的新闻机构,封锁了OpenAI旗下的ChatGPT,不允许其软件“爬取”他们网站上的信息。虽然商业协议并不普遍,但OpenAI已与美国的一些新闻机构进行了谈判,以许可其内容来训练ChatGPT,其中AssociatedPress是一个例子。
X突然更新了隐私政策,在2.1条例中,X明确写道:Wemayusetheinformationwecollectandpubliclyavailableinformationtohelptrainourmachinelearningorartificialintelligencemodelsforthepurposesoutlinedinthispolicy.我们可能会使用收集到的信息和公开可用的信息来帮助训练我们的机器学习或人工智能模型。这意味着一旦在X上发帖创作内容,就意味着同意了马斯克可以将内容拿去喂AI。xAI除了和推特合作外,马斯克称x.AI将会�
马斯克终于忍不住,开始用X的数据喂AI了!这两天,大伙儿发现X悄悄更新了一版隐私政策,里面表示会使用社交媒体数据来训练机器学习或AI模型。马斯克前不久还威胁微软,要起诉它用X的数据训练AI。嗯,听起来离马斯克的微信APP梦又近了一步比微信业务范围更广。
马斯克旗下的社交平台X最近更新了隐私条款,明确表示X可能会使用收集到的信息和公开信息来训练其AI模型。这个更新引发了一些关于隐私和数据使用的担忧。他还曾经指责微软非法使用推特数据来训练AI,并威胁将提起诉讼。
微软是否在使用个人数据来训练人工智能?Mozilla公司认为是这样。如果你不确定,请阅读整个微软服务协议书;但你应该知道它是篇很长的文章,并且有些部分你无法完全理解。
AI动力客户智能平台Dialpad近日宣布推出DialpadGPT,这是最新一例在专有数据上训练小型领域特定大型语言模型的趋势的例证。DialpadGPT是首个专为客户服务、销售和招聘等功能设计和优化的LLM,能够自动化总结销售、客户服务和团队活动等任务。很少有团队能够做到这一点。
新加坡发布了关于如何管理个人数据用于训练人工智能模型和系统的指南草案。该指南旨在解释企业使用个人数据训练AI模型和系统时新加坡法律的适用情况,包括研究和业务改进的例外情况。”PDPC正在征求公众对指南草案的反馈,该草案应于8月31日之前提交。
人工智能公司Cohere的首席执行官AidenGomez表示,合成数据已经被用来训练人工智能模型。由于Reddit和Twitter等公司对于其他公司抓取其数据收费高昂,微软、OpenAI和Cohere等AI公司正在转向合成数据。再加上OpenAI和Anthropic等公司正在开发的用于减少人工智能幻觉的chain-of-thoughttechniques,合成数据可能会帮助人工智能帮助我们解决更多挑战。
受到大型语言模型的微调的启发,研究人员现在正试图使用强化学习来微调生成AI模型以实现特定目标,例如提高图像的美学质量,从干预这一过程。伯克利人工智能研究中心的研究人员使用强化学习来进一步优化生成式人工智能模型用于改善图像生成的效果。与强化学习中常见的一样,DDPO也表现出奖励过度优化的现象:该模型在某个节点之后破坏所有任务中所有有意义的图像�
谷歌面临一项广泛的侵权诉讼,指控这家科技巨头未经用户同意,窃取了数百万用户的数据,并违反版权法来训练和开发其人工智能产品。这起对谷歌、其母公司Alphabet和其人工智能子公司DeepMind的集体诉讼于周二在加利福尼亚州的联邦法院提起,由克拉克森律师事务所提出。该律所合伙人瑞安克拉克森表示,谷歌需要“为人们提供拒绝的机会”,即不让他们的数据用于训练人�
加利福尼亚一家律师事务所对OpenAI提起了一项集体诉讼,指控其「窃取」个人数据用于训练ChatGPT。Clarkson律师事务所在周三向加利福尼亚北区法院提起诉讼,声称ChatGPT和Dall-E「使用窃取的私人信息,包括可识别个人身份的信息,来自数亿互联网用户,包括各个年龄段的儿童这些用户并未给予知情同意。「我们无法承担像社交媒体或核技术一样的负面后果的代价,作为一个社会�
尽皆知:过去的科幻文学家预言了潜艇、卫星、人工智能等后世科技里程碑。然科幻文学家们的预言中,其实应验的乌鸦嘴不比正面成就少,比如DDOS网络攻击、个人生物信息盗窃、和人工智能模型的退化。虽然商洽还在早期阶段,但信源透露出的信息是AI巨头企业们愿意为作为AI模型训练数据的新闻内容向媒体巨头们支付定期订阅费用,媒体巨头们开出的价位是年均500-2000万美元
当地时间5月5日,美国人工智能公司OpenAI的CEO阿尔特曼表示,已经有一段时间不再使用付费客户的数据来训练人工智能大语言模型。阿尔特曼表示:“用户希望我们不要使用他们的数据进行训练,因此我们已经改变了计划,并将来不再这样做。ChatGPT+Business计划在未来几个月内推出。
打不过就加入!继去年12月+Stack+Overflow+++称+ChatGPT+生成的答案正确率非常低并决定宣布临时封禁+ChatGPT+++之后,其开始以另一种身份加入这场+AI+竞赛中。据外媒+++Wired+报道,开发运行+ChatGPT+和+DeLL-E+等“病毒式”+AI+工具系统可能会使得背后的公司如+OpenAI+花费数十亿美元+StackOverflow+正计划让这笔费用变得更高一些,其希望对使用自己平台数据进行训练的+AI+公司收费。这一场围绕�
加州大学圣地亚哥分校医学院的研究人员使用一种人工智能(AI)算法筛选了数千兆字节的基因表达数据,确定在感染期间哪些基因是 "开启"或 "关闭"的,以寻找过去病毒大流行感染患者的共同模式,包括SARS、MERS和猪流感。2021年6月11日发表在《eBiomedicine》上的这项研究指出了两个明显的特征。其一,一组166个基因,揭示了人类免疫系统如何对病毒感染做出反应。第二组是20个签名基因,预测了病人疾病的严重程度。例如,是否需要住院
据国外媒体报道,电动汽车制造商特斯拉申请了一项专利,该专利涉及如何从其庞大的客户车队中获取训练数据,以训练其自动驾驶神经网络。
在生成式人工智能蓬勃发展的时代,数据被称为新的"石油"。数据的创造者和所有者往往无法从中获益。尽管Reddit对此表示不满,但Vana认为这是让用户收回对数据的控制权的重要一步。
OpenAI、谷歌和Meta被指控在训练人工智能模型时存在不当行为。纽约时报的报告指出,OpenAI使用名为Whisper的语音识别工具从YouTube视频中转录音频,并据称OpenAI员工曾讨论这一行为可能违反视频网站的规则。纽约时报的报道引起了关于AI公司训练数据的合法性和道德性的讨论,也凸显了AI行业在数据获取方面面临的挑战和争议。
在最新的研究中,科学家们开发出了一种名为MindEye2的技术,它能够仅用1小时的功能磁共振成像数据,从大脑活动中重建出观察者所看到的图像。这比传统的需要数十小时的训练数据的类似技术,效率大大提高。这项技术的潜力巨大,未来的应用前景广阔,值得我们期待。
最近,OpenAICTOMurati接受采访时,对Sora训练数据语焉不详、支支吾吾的表现,已经成了全网热议的话题。要是一个处理不好,OpenAI就又要陷入巨额赔偿金的诉讼之中了。」AI在电影、游戏、广告这些行业还会掀起怎样的飓风,让我们拭目以待吧。
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/📰🤖📢AI新鲜事苹果大模型MM1入场:参数达到300亿超半数作者是华人全球最快AI芯片WSE-3发布性能碾压H100!Midjourney禁止用户生成拜登和特朗普图片Claude3HaikuAPI发布OpenAICTO承认Sora训练�
OpenAI的最新成果Sora在公众面前展露了一角,引发了一场关于训练数据来源的争议。在最近的一次采访中,OpenAI首席技术官MiraMurati透露,Sora接受了公开可获得和许可数据的训练,但对于是否使用了YouTube、Facebook或Instagram上的视频数据,她表示不确定。在AI时代,技术的发展需要与社会的共同关注和监管相结合,以确保其长期发展的可持续性和稳定性。
英伟达最新推出的大型语言模型Nemotron-415B,以其卓越性能和创新架构引起广泛关注。该模型拥有150亿参数,基于庞大的8万亿文本标注数据进行了预训练。这一成就为大型语言模型的发展和应用提供了崭新的视角。
Reddit最近宣布与一家未透露的公司签署了一份价值6000万美元的合作协议,允许对Reddit用户内容进行访问以训练AI模型。揭晓这家神秘公司正是谷歌。Reddit与谷歌的合作将为AI发展和数据资源利用提供新的契机,也展现出社交媒体平台在AI时代的重要性。