11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里对口型项目EMO开启内测可将照片转为唱歌视频阿里推出的对口型项目EMO开启内测,用户只需提供一张照片和语音模型即可定制数字人像,实现低成本高效率的数字人出镜体�
大模型不是AI的唯一出路,把模型做小也是本事。AI模型界是真的热闹,新的模型不断涌现,不管是开源还是闭源,都在刷新成绩。谁能在将模型做小的同时能实现性能的增长,也是实力的体现。
微软研究团队引领着教育技术领域的不断创新,近日推出了一款名为Orca-Math的前沿工具,它是一款小语言模型,拥有7亿参数,并基于Mistral-7B架构微调来。这一创新方法重新定义了传统数学单词问题教学的策略,彻底改变了学生参与和掌握这一学科的方式。通过利用SLM通过合成数据集和迭代反馈来解锁学习工具的全新时代,Orca-Math为技术和学习手牵手走向解锁全球学生的全部潜力的未来提供了一瞥。
智源研究院近期提出了一项新技术,通过数据浓缩技术获得高质量训练数据,从提升多模态小模型的性能。他们将LAION-2B压缩成2M核心集,得到更丰富的预训练数据,同时精选数据集进行指令微调,训练出性能强劲的小模型。通过数据浓缩技术获得高质量训练数据,Bunny系列小模型在多模态任务上表现优异,将促进大模型技术的发展和普及。
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
对模型参数量的迷信、执念也许可以放下了,混合多个小模型也是未来构造对话型AI的一个光明的方向。在对话型人工智能研究中,存在趋势即朝着开发参数更多的模型方向发展,如ChatGPT等为代表的模型。混合模型通过协作多个较小的对话型人工智能,在提供比单个更大的对话型人工智能更高质量的对话方面是有效的。
大模型之战进入到今日,许多开发者都面临着一个共同的挑战:如何在保证高性能的同时,降低资源和算力的需求?这一困境在端侧应用尤为明显,因为许多设备和应用场景对计算能力和存储空间有严格的限制。这无疑大大制约了大模型在各种设备和场景中的普及。对一线研究者言,唯有自由地践行自己的技术构想,在初期不过多地被资本干涉与左右,才更有可能做出亮眼的成果
HuggingFace技术负责人PhilippSchmid表示:“代码自动补全工具,如GitHubCopilot,已被超过一百万开发者使用,帮助他们的编码速度提高了55%。看到像Magicoder和OSS-INSTRUCT这样的开源创新超越了OpenAI的GPT-3.5和GoogleDeepMind的GeminiUltra,真是令人振奋。张令明老师现任UIUC计算机系副教授,主要从事软件工程、机器学习、代码大模型的相关研究,更多详细信息请见张老师的个人主页:https://lingming.cs.illinois.edu/。
人工智能的超级对齐问题在未来AI系统超越人类智能的情境下变得尤为复杂。研究小模型是否能够有效监督大模型成为关键问题。期待研究者在这一领域取得更多的突破。
对于2023年的计算机视觉领域来说,「分割一切」是备受关注的一项研究进展。Meta四月份发布的「分割一切模型」效果,它能很好地自动分割图像中的所有内容SegmentAnything的关键特征是基于提示的视觉Transformer模型,该模型是在一个包含来自1100万张图像的超过10亿个掩码的视觉数据集SA-1B上训练的,可以分割给定图像上的任何目标。图3、4、5提供了一些定性结果,以便读者对Effic
2023年11月1日,英国奢侈手机品牌VERTU在香港举办了新品发布会,推出全球首款双模型AI手机——METAVERTU2。VERTU在去年发布了全球首款Web3手机,今年又将Web3与AI相结合,通过AI模型标记数据,AIAgent处理任务的方式,将METAVERTU2打造成更懂你的PERSONALAI。METAVERTU2的发布不仅体现在其产品技术的精益求精,更展现在对奢侈品与手机行业的深入理解和不断赋予的新定义。
微软对大语言模型的道德推理能力进行了测试,但在电车问题中大尺寸的模型表现反比小模型差。但最强大语言模型GPT-4的道德得分依旧是最高的。这与研究最初的假设:大型模型总是比小型模型具有更强的能力相反,说明利用这些较小的模型开发道德系统具有很大的潜力。
2022年3月,DeepMind一篇论文《TrainingCompute-OptimalLargeLanguageModels》通过构建的Chinchilla模型得出了一个结论:大模型存在训练不足的缺陷,模型大小和训练token的数量应该以相等的比例扩展。也就是说模型越大,所使用的训练token也应该越多。如果学习率遵循分配给更少训练步骤的余弦调度,其在同等训练时间下的损失会更低。
GPT-4太吃算力,微软被爆内部制定了PlanB,训练更小、成本更低的模型,进摆脱OpenAI。GPT-4太吃算力,连微软也顶不住了!今年,无数场微软AI大会上,CEO纳德拉台前激动地官宣,将GPT-4、DALL·E3整合到微软「全家桶」。毕竟后者对哪些公司可以将其开源LLM进行商业化是有所限制的。
在Create2024百度AI开发者大会上,百度创始人、董事长兼首席执行官李彦宏分享了他对于AI技术发展趋势的独特见解。他明确指出,开源模型在当前的AI发展中正逐渐显露出其局限性,预示着其可能逐渐落后于时代。通过灵活应用文心4.0等基础模型,百度正致力于推动AI技术的更广泛应用,以满足不同场景下的多元化需求。
【新智元导读】国内首个音乐ChatGPT来了!提前试用「天工SkyMusic」后,整个编辑部暴风式哭泣:它改编的周杰伦和凤凰传奇简直封神。团队选择了一条少有人走的路,他们赌赢了:比OpenAI提前押中了Sora架构,并且首次在业内公开技术图。昆仑万维接下来所做的,便是让AI降低人类创作门槛,让我们每个人都加入这股AI音乐大潮。
研究人员提出了一种名为Garment3DGen的方法,旨在实现3D服装的风格化和纹理生成。该方法通过结合先进的计算机视觉技术和人工智能算法,为用户提供了一个简单高效的工具,用于实现服装设计的个性化风格化。随着这一技术的不断完善和推广,我们有理由相信,未来的服装设计将更加多样化和个性化。
微软开源了多模态模型LLaVA-1.5,继承LLaVA架构并引入新特性。研究人员对其在视觉问答、自然语言处理、图像生成等进行了测试显示,LLaVA-1.5达到了开源模型中的最高水平,可媲美GPT-4V效果。LLaVA-1.5在多模态领域取得显著进展,通过开源促进了其在视觉问答、自然语言处理、图像生成等方面的广泛应用。
##划重点:1.🚀**创新模型介绍:**MistralAI的研究团队推出了基于SparseMixtureofExperts模型的Mixtral8x7B语言模型,采用开放权重。2.🌐**性能突出:**Mixtral8x7B在多语言数据的预训练中表现优异,与Llama270B和GPT-3.5相比,性能不逊色甚至更好。通过添加MegablocksCUDA内核以实现有效的推理,团队还修改了vLLM项目。
【新智元导读】谷歌全新视频生成模型VideoPoet再次引领世界!十秒超长视频生成效果碾压Gen-2可进行音频生成,风格转化。AI视频生成,或许就是2024年下一个最前沿的领域。对于未来的研究方向,谷歌研究人员表示,VideoPoet框架将会实现「any-to-any」的生成,比如扩展文本到音频、音频到视频,以及视频字幕等等。
腾讯近期发布了一款名为AnimateZero的视频生成模型,据称,该模型的效果比Animatediff要好得多,并且能够更好地兼容现有的SD生态,并采用了社区SD模型进行演示。项目地址:https://vvictoryuki.github.io/animatezero.github.io/AnimateZero是一种基于视频扩散模型的零样本图像动画生成器。AnimateZero还展示了对真实图像的动画生成潜力,尽管仍受到T2I模型域的限制。
【新智元导读】Adobe的AIGC生图平台Firefly最近升级为Firefly2,提升了图像质量、引入了矢量图生成功能,并增加了多项新功能,极大改善了用户体验,为创作和设计工作提供更出色的工具。Adobe的AIGC生图平台Firefly最近进行了一次大更新。它不仅提高了图像质量,引入了矢量图生成功能新增了多项功能,大幅改善了用户体验,为创作者和设计师提供了更卓越的工具。
最强中文版LLaMA-2来了!15小时训练,仅需数千元算力,性能碾压同级中文汉化模型,开源可商用。LLaMA-2相较于LLaMA-1,引入了更多且高质量的语料,实现了显著的性能提升,全面允许商用,进一步激发了开源社区的繁荣,拓展了大型模型的应用想象空间。ColossalAI云平台现已开启公测,注册即可获得代金券,欢迎参与并提出反馈。
英伟达推出全新的AI模型NVIDIADLSS3.5。该模型采用了光线重建技术,能为密集型光追游戏和应用程序,创建更高质量的光追图像。它代表了实时光线追踪技术向前迈进了一大步,为游戏和创作应用带来更逼真的视觉效果。
ChatGPT能力解禁是加入插件功能后,性能得到了强化。所有大模型皆是如此。BMTools工具包也已集成最近爆火的Auto-GPT与BabyAGI。
7月6日,2023世界人工智能大会在上海世博中心开幕,在会上,百度首席技术官王海峰透露,截至目前飞桨已凝聚750万名开发者,这也是百度2023年以来首次对外披露飞桨生态最新数据。经过飞桨与文心大模型的协同优化,最新升级的文心大模型3.5的模型效果提升50%,训练速度提升2倍,推理速度提升30倍。
近日,知名AI绘图模型Midjourney推出了新的5.2版本更新,加入了新的Zoomout”功能。该功能能够模拟相机的超广角与中长焦功能,为图像增加不同焦段下的透视细节。用户还可以使用stylize参数来简单对生成的图片画风进行修改,并可以分析提示词,让用户得知哪些提示词不会对输出图像产生任何作用,哪些提示词可以主导输出图像效果。
国内自研大模型迎来新面孔发布即开源!最新消息,多模态大语言模型TigerBot正式亮相,包含70亿参数和1800亿参数两个版本,均对外开源。由该模型支持的对话AI同步上线。或许就是趋势轰轰烈烈演进过程中,最迷人之处了。
Stable+Diffusion插件、“AI绘画细节控制大师”ControlNet迎来重磅更新:只需使用文本提示词,就能在保持图像主体特征的前提下,任意修改图像细节。比如给美女从头发到衣服都换身造型,表情更亲和一点:抑或是让模特从甜美邻家女孩切换到高冷御姐,身体和头部的朝向、背景都换个花样儿:——不管细节怎么修改,原图的“灵魂”都还在。有人称这是ControlNet迄今为止最棒的一个功
无需文字标签,完全自监督的Meta视觉大模型来了!小扎亲自官宣,发布即收获大量关注度——在语义分割、实例分割、深度估计和图像检索等任务中,这个名叫DINOv2的视觉大模型均取得了非常不错的效果。甚至有超过当前最好的开源视觉模型OpenCLIP之势。官网上给出的图片效果还是挺不错的,输入铁塔照片,可以生成不少含铁塔的相似艺术图片:这里我们也试了试,输入一张华强买瓜,给出来的艺术图片大多数与西瓜有关:那么,这样的自监督视觉大模型可以用在哪里?从Meta给出的视频来看,目前有一些比较环保的用途,例如用于估计全球各地的树木高度:除此之外,如同扎克伯格所说,DINOv2还能被用于改善医学成像、粮食作物生长等。