11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
【新智元导读】号称不可能轻易被击败的AGI基准ARC-AGI被GPT-4o撼动,GPT-4o以在公共测试集50%、在训练集71%的准确率成为了新的SOTA!ARC-AGI是唯一可以用来衡量通用人工智能进展的基准,创造者FrançoisChollets曾经掷下豪言——「它不可能轻易被击败!」为了测试这一点,他于2020年在Kaggle上主办了首届ARC-AGI竞赛。获胜团队icecuber在测试集上仅取得了21%的成功率,这个成绩强有力地证明了François的断言是正确的。「我的观点并不是说GPT-4o相对于人类来说是聪明的,但我确实认为它是具有『智能』的。
高质量图像编辑的方法有很多,但都很难准确表达出真实的物理世界。EdittheWorld试试。最终可以看到,团队的方法可以很好地实现world-instructedimageediting。
【新智元导读】OpenAI半小时的发布会让很多人第一反应是直呼「失望」,但随着官网放出更多demo以及更多网友开始试用,大家才发现GPT-4o真的不可小觑,不仅在各种基准测试中稳拿第一有很多发布会从未提及的惊艳功能。OpenAI在发布会上官宣GPT-4o之后,各路大神也开始了对这个新模型的测评,结果就是,GPT-4o在多项基准测试上都展现了SOTA的实力。随着大模型之战愈演愈烈,相信对于开源和闭源的激烈讨论依旧会持续下去。
【新智元导读】GPT-4o发布不到一周,首个敢于挑战王者的新模型诞生!最近,Meta团队发布了「混合模态」Chameleon,可以在单一神经网络无缝处理文本和图像。10万亿token训练的34B参数模型性能接近GPT-4V,刷新SOTA。*表示共同一作,†表示关键贡献者,‡表示工作流程负责人,♯表示项目负责人。
开源大模型,已经开启大卷特卷模式。太平洋两岸,双雄格局正在呼之欲出。自研大模型的必要性和竞争力,正在不断被开源卷王们卷没了。
视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。字节提出新基础模型——ViTamin,专为视觉语言时代设计。更多大模型算法相关岗位开放中。
2024年4月17日,在「天工」大模型一周年之际,昆仑万维重磅宣布,「天工3.0」基座大模型与「天工SkyMusic」音乐大模型正式开启公测!一年前的今天,第一版天工大模型正式对外发布上线,一年来我们不断迭代模型,迭代应用产品,模型和应用都越做越好,以此回报广大用户的支持。「天工」系列大模型已集成了AI音乐、AI搜索、AI写作、AI长文本阅读、AI画图、AI语音合成、AI漫画创作、AI图片识别、AI代码写作、AI表格生成等多项能力,并将在未来加入AI视频功能,对标“超级应用”,成为人工智能时代的“超级大模型”。在“实现通用人工智能,让每个人更好地塑造和表达自我”的公司使命驱动下,昆仑万维将始终致力于AI技术与产品的创新开拓,不断提高AI产品的用户体验,与用户、研究人员、开发者们携手,共创国产大模型的未来。
【新智元导读】秒懂视频的AI诞生了!KAUST和哈佛大学研究团队提出MiniGPT4-Video框架,不仅能理解复杂视频,甚至还能作诗配文。OpenAI官方账号发布了第一支由Sora制作的MV——Worldweight,引全网围观。下一步研究将模型能力扩展到处理更长视频的能力。
由阿里、复旦大学、南京大学联合发布的可控人体视频生成工作Champ火爆全网。该模型仅开源5天GitHub即收获1k星,在Twitter更是「火出圈」,吸引了大量博主二创,浏览量总量达到300K。更多技术细节以及实验结果请参阅Champ原论文与代码,也可在HuggingFace或下载官方源码动手体验。
【新智元导读】谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新ScreenAI视觉语言模型,能够完成各种屏幕QA问答、总结摘要等任务。谷歌研究人员表示,ScreenAI模型还需要在一些任务上进行更多研究,以缩小与GPT-4和Gemini等更大模型的差距。
【新智元导读】谷歌团队推出「通用视觉编码器」VideoPrism,在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了训练,性能刷新30项SOTA。AI视频模型Sora爆火之后,Meta、谷歌等大厂纷纷下场做研究,追赶OpenAI的步伐。尽管对比基线已经在K400上取得了有竞争力的结果,但所提出的全局蒸馏和token洗牌进一步提高了准确性。
【新智元导读】近日,北大、斯坦福、以及PikaLabs发布了新的开源文生图框架,利用多模态LLM的能力成功解决文生图两大难题,表现超越SDXL和DALL·E3近日,北大、斯坦福、以及爆火的PikaLabs联合发表了一项研究,将大模型文生图的能力提升到了新的高度。论文地址:https://arxiv.org/pdf/2401.11708.pdf代码地址:https://github.com/YangLing0818/RPG-DiffusionMaster论文作者提出了一个全新的免训练文本�
划重点:1.🌐**RAGatouille简介:**一款旨在简化最先进检索方法集成的机器学习库,专注于使ColBERT更易用。2.🧩**关键功能:**提供强大的默认设置和可定制的模块,使ColBERT模型的训练和微调过程更易于访问。RAGatouille旨在使先进的检索方法更易于访问,弥合研究发现与信息检索实际应用之间的差距。
过去一年扩散模型风头正劲,彻底改变了文生图领域!那么,扩散模型能否处理视觉感知任务?字节跳动和复旦大学技术团队在最新研究中提出了一个简单有效的方案。扩散模型在生成高清晰度图像方面显示出了卓越的能力,这一成就得益于其在大规模图像-文本对上的预训练。随着技术的进步,这些方法可能会进一步完善。
只需两分钟,玩转图片转3D!还是高纹理质量、多视角高一致性的那种。不管是什么物种,输入时的单视图图像还是这样婶儿的:两分钟后,3D版大功告成:△上,Repaint123;下,Repaint123新方法名为Repaint123,核心思想是将2D扩散模型的强大图像生成能力与再绘策略的纹理对齐能力相结合,来生成高质量、多视角一致的图像。作者也对论文使用的每个模块的有效性以及视角转动增量进行�
只需一句话描述,就能在一大段视频中定位到对应片段!比如描述“一个人一边下楼梯一边喝水”,通过视频画面和脚步声的匹配,新方法一下子就能揪出对应起止时间戳:就连“大笑”这种语义难理解型的,也能准确定位:方法名为自适应双分支促进网络,由清华大学研究团队提出。ADPN是用来完成一个叫做视频片段定位的视觉-语言跨模态任务,也就是根据查询文本从视频中定位
清华大学刘永进教授课题组在文生3D领域取得了重大突破,提出的TICD模型在SOTA水平上取得了显著的成绩。本文将介绍TICD的创新之处以及其在3D图形生成领域的应用。TICD有望在更广泛的应用中发挥重要作用,为文本生成3D领域的发展提供新的思路与可能性。
【新智元导读】最强的全能多模态模型来了!就在近日,智源研究院重磅发布了开源界的「Gemini」——Emu2,一口气刷新多项SOTA。过去的18个月里,我们见证了AI领域许多重要的时刻。相比Emu1,Emu2使用了更简单的建模框架、训练了更好的从特征重建原图的解码器、并把模型规模化到37B参数。
最近,来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA,使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能,并在图片、视频的13个基准上达到先进的性能。这些结果证明了联合图片和视频一起训练能够促进LLM理解视觉表示。
AI能理解搞笑视频笑点在哪里了。北大等团队开源视觉语言大模型Video-LLaVA,将图像和视频表示对齐到统一的视觉特征空间,在13个图片和视频基准上达到先进的性能。在视频理解方面,联合训练的也得到了明显的提升。
【新智元导读】谷歌DeepMind再次在科学细分领域——天气预报迈出重要的一步。全新AI模型GraphCast可在1分钟内,精准预测10天全球天气,甚至还可以预测极端天气事件。在看了研究介绍之后,网友表示,谷歌你快出个应用啊!对于天气预报的能力,很多网友表示,现在已经可以期望预报的精细度到不同街道,并且精确到分钟了。
堪称改变游戏规则的视觉语言模型PaLI-3问世,引得大量科研人员关注。PaLI-3是谷歌最新推出的视觉语言模型,以更小的体量,更快的推理速度,达到了更强的性能。PaLI-3还未完全开源,但是开发人员已经发布了多语言和英文SigLIPBase、Large和So400M模型。
谷歌最新发布的PaLI-3视觉语言模型在小体量下实现了SOTA性能,引起广泛关注。这款模型以更小的体量和更快的推理速度实现更强大的性能,是谷歌去年推出的多模态大模型PaLI的升级版。这一创新有望影响视觉语言模型的未来发展方向,提供更高效的解决方案。
陈丹琦团队近期发布了一项重要的研究成果,他们开发了一种名为LLM-Shearing的大模型剪枝法。这项技术允许将庞大的预训练模型剪枝至仅需3%的计算量和5%的成本,同时保持着SOTA水平的性能。这有望在大规模深度学习模型的研究和应用中产生广泛的影响。
阿里云通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat正式开源,免费可商用。Qwen-14B在多个权威评测中超越同等规模模型,部分指标甚至接近Llama2-70B。过去两个月内,魔搭社区的模型下载量从4500万飙升到8500万,增幅接近100%。
开源软件开发助手SoTaNa引起广泛关注。SoTaNa旨在利用人工智能功能改进软件开发流程。10.文档优质-自述文件编写详细,可以快速上手使用。
国内首个数学大模型MathGPT开放内测了,不上手试试怎么行?第一印象上,最明显的就是:啪的一下,很快啊~题目识别到对话框,结果不光答案准确就给出了具体的公式步骤、详细解析。并且支持公式输入和修改。MathGPT,一定只是开始。
【新智元导读】打「排位赛」的大模型们背后秘密武器曝光!UC伯克利重磅开源神级LLM推理系统——vLLM,利用PagedAttention,比HuggingFace/Transformers快24倍,GPU数量减半。过去2个月,来自UC伯克利的研究人员给大语言模型们安排了一个擂台——ChatbotArena。团队的大部分成员同时也是LMSYS成员。
音乐 每一个人的每一天,都伴随着各种各样的声音。从早上起床的闹铃声音开始,到洗漱间清洗的声音,到厨房中做饭的咔嚓声,到喝水时的咕噜声,到上班时一路的车鸣声,人来人往说话的声音......各种各样的声音此起彼伏,但总有那么一种声音,会叫醒我们的耳朵,触动我们的心灵,让我们为之哭泣伤心,为之愉悦动容。这,就是音乐! 魅力 01 升级车型//奥迪A8 奥迪A8 是奥迪车系中最高档的豪华车 率先使用了全铝车身 不仅坚固耐用,?
快科技7月24日消息,小米汽车官方称已开始推送OTA1.2.3,此次主要包含3大方面:小米智能驾驶功能升级、澎湃智能座舱功能升级和人车家全生态”升级。小米智能驾驶功能升级:城市领航辅助舒适性与效率性功能升级,主要进行了多方面优化,可更从容处理闪烁绿灯和黄灯场景、弯道速度控制更舒适了,同时还优化了绕行能力,支持借路绕行、近距离临停绕行。此次新增了识�