11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。字节提出新基础模型——ViTamin,专为视觉语言时代设计。更多大模型算法相关岗位开放中。
2024年4月17日,在「天工」大模型一周年之际,昆仑万维重磅宣布,「天工3.0」基座大模型与「天工SkyMusic」音乐大模型正式开启公测!一年前的今天,第一版天工大模型正式对外发布上线,一年来我们不断迭代模型,迭代应用产品,模型和应用都越做越好,以此回报广大用户的支持。「天工」系列大模型已集成了AI音乐、AI搜索、AI写作、AI长文本阅读、AI画图、AI语音合成、AI漫画创作、AI图片识别、AI代码写作、AI表格生成等多项能力,并将在未来加入AI视频功能,对标“超级应用”,成为人工智能时代的“超级大模型”。在“实现通用人工智能,让每个人更好地塑造和表达自我”的公司使命驱动下,昆仑万维将始终致力于AI技术与产品的创新开拓,不断提高AI产品的用户体验,与用户、研究人员、开发者们携手,共创国产大模型的未来。
【新智元导读】秒懂视频的AI诞生了!KAUST和哈佛大学研究团队提出MiniGPT4-Video框架,不仅能理解复杂视频,甚至还能作诗配文。OpenAI官方账号发布了第一支由Sora制作的MV——Worldweight,引全网围观。下一步研究将模型能力扩展到处理更长视频的能力。
由阿里、复旦大学、南京大学联合发布的可控人体视频生成工作Champ火爆全网。该模型仅开源5天GitHub即收获1k星,在Twitter更是「火出圈」,吸引了大量博主二创,浏览量总量达到300K。更多技术细节以及实验结果请参阅Champ原论文与代码,也可在HuggingFace或下载官方源码动手体验。
【新智元导读】谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新ScreenAI视觉语言模型,能够完成各种屏幕QA问答、总结摘要等任务。谷歌研究人员表示,ScreenAI模型还需要在一些任务上进行更多研究,以缩小与GPT-4和Gemini等更大模型的差距。
【新智元导读】谷歌团队推出「通用视觉编码器」VideoPrism,在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了训练,性能刷新30项SOTA。AI视频模型Sora爆火之后,Meta、谷歌等大厂纷纷下场做研究,追赶OpenAI的步伐。尽管对比基线已经在K400上取得了有竞争力的结果,但所提出的全局蒸馏和token洗牌进一步提高了准确性。
【新智元导读】近日,北大、斯坦福、以及PikaLabs发布了新的开源文生图框架,利用多模态LLM的能力成功解决文生图两大难题,表现超越SDXL和DALL·E3近日,北大、斯坦福、以及爆火的PikaLabs联合发表了一项研究,将大模型文生图的能力提升到了新的高度。论文地址:https://arxiv.org/pdf/2401.11708.pdf代码地址:https://github.com/YangLing0818/RPG-DiffusionMaster论文作者提出了一个全新的免训练文本�
划重点:1.🌐**RAGatouille简介:**一款旨在简化最先进检索方法集成的机器学习库,专注于使ColBERT更易用。2.🧩**关键功能:**提供强大的默认设置和可定制的模块,使ColBERT模型的训练和微调过程更易于访问。RAGatouille旨在使先进的检索方法更易于访问,弥合研究发现与信息检索实际应用之间的差距。
过去一年扩散模型风头正劲,彻底改变了文生图领域!那么,扩散模型能否处理视觉感知任务?字节跳动和复旦大学技术团队在最新研究中提出了一个简单有效的方案。扩散模型在生成高清晰度图像方面显示出了卓越的能力,这一成就得益于其在大规模图像-文本对上的预训练。随着技术的进步,这些方法可能会进一步完善。
只需两分钟,玩转图片转3D!还是高纹理质量、多视角高一致性的那种。不管是什么物种,输入时的单视图图像还是这样婶儿的:两分钟后,3D版大功告成:△上,Repaint123;下,Repaint123新方法名为Repaint123,核心思想是将2D扩散模型的强大图像生成能力与再绘策略的纹理对齐能力相结合,来生成高质量、多视角一致的图像。作者也对论文使用的每个模块的有效性以及视角转动增量进行�
只需一句话描述,就能在一大段视频中定位到对应片段!比如描述“一个人一边下楼梯一边喝水”,通过视频画面和脚步声的匹配,新方法一下子就能揪出对应起止时间戳:就连“大笑”这种语义难理解型的,也能准确定位:方法名为自适应双分支促进网络,由清华大学研究团队提出。ADPN是用来完成一个叫做视频片段定位的视觉-语言跨模态任务,也就是根据查询文本从视频中定位
清华大学刘永进教授课题组在文生3D领域取得了重大突破,提出的TICD模型在SOTA水平上取得了显著的成绩。本文将介绍TICD的创新之处以及其在3D图形生成领域的应用。TICD有望在更广泛的应用中发挥重要作用,为文本生成3D领域的发展提供新的思路与可能性。
【新智元导读】最强的全能多模态模型来了!就在近日,智源研究院重磅发布了开源界的「Gemini」——Emu2,一口气刷新多项SOTA。过去的18个月里,我们见证了AI领域许多重要的时刻。相比Emu1,Emu2使用了更简单的建模框架、训练了更好的从特征重建原图的解码器、并把模型规模化到37B参数。
最近,来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA,使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能,并在图片、视频的13个基准上达到先进的性能。这些结果证明了联合图片和视频一起训练能够促进LLM理解视觉表示。
AI能理解搞笑视频笑点在哪里了。北大等团队开源视觉语言大模型Video-LLaVA,将图像和视频表示对齐到统一的视觉特征空间,在13个图片和视频基准上达到先进的性能。在视频理解方面,联合训练的也得到了明显的提升。
【新智元导读】谷歌DeepMind再次在科学细分领域——天气预报迈出重要的一步。全新AI模型GraphCast可在1分钟内,精准预测10天全球天气,甚至还可以预测极端天气事件。在看了研究介绍之后,网友表示,谷歌你快出个应用啊!对于天气预报的能力,很多网友表示,现在已经可以期望预报的精细度到不同街道,并且精确到分钟了。
堪称改变游戏规则的视觉语言模型PaLI-3问世,引得大量科研人员关注。PaLI-3是谷歌最新推出的视觉语言模型,以更小的体量,更快的推理速度,达到了更强的性能。PaLI-3还未完全开源,但是开发人员已经发布了多语言和英文SigLIPBase、Large和So400M模型。
谷歌最新发布的PaLI-3视觉语言模型在小体量下实现了SOTA性能,引起广泛关注。这款模型以更小的体量和更快的推理速度实现更强大的性能,是谷歌去年推出的多模态大模型PaLI的升级版。这一创新有望影响视觉语言模型的未来发展方向,提供更高效的解决方案。
陈丹琦团队近期发布了一项重要的研究成果,他们开发了一种名为LLM-Shearing的大模型剪枝法。这项技术允许将庞大的预训练模型剪枝至仅需3%的计算量和5%的成本,同时保持着SOTA水平的性能。这有望在大规模深度学习模型的研究和应用中产生广泛的影响。
阿里云通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat正式开源,免费可商用。Qwen-14B在多个权威评测中超越同等规模模型,部分指标甚至接近Llama2-70B。过去两个月内,魔搭社区的模型下载量从4500万飙升到8500万,增幅接近100%。
开源软件开发助手SoTaNa引起广泛关注。SoTaNa旨在利用人工智能功能改进软件开发流程。10.文档优质-自述文件编写详细,可以快速上手使用。
国内首个数学大模型MathGPT开放内测了,不上手试试怎么行?第一印象上,最明显的就是:啪的一下,很快啊~题目识别到对话框,结果不光答案准确就给出了具体的公式步骤、详细解析。并且支持公式输入和修改。MathGPT,一定只是开始。
【新智元导读】打「排位赛」的大模型们背后秘密武器曝光!UC伯克利重磅开源神级LLM推理系统——vLLM,利用PagedAttention,比HuggingFace/Transformers快24倍,GPU数量减半。过去2个月,来自UC伯克利的研究人员给大语言模型们安排了一个擂台——ChatbotArena。团队的大部分成员同时也是LMSYS成员。
音乐 每一个人的每一天,都伴随着各种各样的声音。从早上起床的闹铃声音开始,到洗漱间清洗的声音,到厨房中做饭的咔嚓声,到喝水时的咕噜声,到上班时一路的车鸣声,人来人往说话的声音......各种各样的声音此起彼伏,但总有那么一种声音,会叫醒我们的耳朵,触动我们的心灵,让我们为之哭泣伤心,为之愉悦动容。这,就是音乐! 魅力 01 升级车型//奥迪A8 奥迪A8 是奥迪车系中最高档的豪华车 率先使用了全铝车身 不仅坚固耐用,?
雷军在今天上午的小米汽车北京车展发布会上透露,小米SU7计划5月进行发布后的首次OTA1.1。将上线大家期待已久的无线CarPlay功能、端到端代客泊车等智驾体验。小米SU7还将在5月底计划进行第二次OTA,1.2版本将正式发布城市领航功能,开通10城。
今天在北京车展上,雷军公布了小米SU7的最新OTA计划。小米SU7计划在5月初进行第一次OTA,新增支持无线CarPlay;5月底计划第二次OTA,城市NOA开通10城。小米汽车还将不断扩充销售门店和服务中心,目标2024年底销售门店覆盖46城219家、服务中心覆盖86城143家。
快科技4月21日消息,我们从仰望汽车官方获悉,旗下仰望U8正式开启推送V1.4.0版本OTA升级。此次升级将新增包括双速泊车(极速和舒适模式)、HUD调节以及电动脚踏调节在内的10项功能,同时对15项功能进行优化。详细来看,此次升级包括:1、新增自动泊车「极速模式」与「舒适模式」选择;2、新增自动泊车系统控车前溜车预警;3、新增HUD投屏功能,可在「多屏联播」中使用;4、新增HUD角度调节,可在「车辆设置-抬头显示」中设置;5、新增电动脚踏板自动、伸出、收回设置项;6、新增仪表全场景环境模拟显示;7、新增全民K歌语音点歌及控制;8?
今晚,小米汽车发布最新一期SU7答网友问,回答了SU7标准版代客泊车、运动声浪能否自行调节声音大小等网友关心的问题。小米SU7各车型版本均支持代客泊车辅助AVP功能。到达目标车位后,如果被占用,小米SU7也能自主选择旁边空余车位,适合新手司机或不想自己停车的用户。
快科技4月12日消息,在今天的小米汽车问答中,官方解答了盲区监测的疑问。小米表示,SU7全系标配BSD盲区监测功能。当SU7在并线打灯时,目标车道侧向来车,BSD盲区监测系统会在仪表屏、中控屏和HUD上做动态警示。小米还表示会不断加强这一警示功能,将在后续OTA中增加盲区影像显示”,当驾驶员打转向灯时,在中控屏上会显示侧向来车画面,并叠加红色警示提醒。值得注意的是,前不久理想还在HUD上实现了盲区影像显示,小米暂未表示是否会推出类似功能。小米官方还专门提醒大家,盲区监测功能并不能完全代替驾驶员控制车辆,请驾驶员在驾驶过
在美东时间4月8日这一交易日结束时,备受瞩目的特斯拉公司在这一天实现了显著的增长,其股价上涨了4.9%,市值因此增加了257亿美元,换算成人民币约为1860亿元。这一涨幅引起了市场的广泛关注,并成为了当天的热门话题。特斯拉的市值一夜之间飙升超过1800亿元人民币,这背后离不开公司近期的积极动向和战略部署。特斯拉的CEO马斯克近期�