首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

2023-11-21 08:57 · 稿源: ​量子位公众号

AI能理解搞笑视频笑点在哪里了。AI回答:这个视频之所以搞笑,在于一个小宝宝正坐在床上努力读书,但他显然还不会真正读书。他只是不停地指着书页上的各处,而摄影者则在背后笑他。小宝宝的这种尝试很有趣,因为他在尝试阅读一本对他而言过大的书,也看不懂里面的文字。北大等团队开

......

本文由站长之家合作伙伴自媒体作者“​量子位公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 大家在看
  • 中国首个音乐SOTA模型「天工音乐大模型」今日公测

    2024年4月17日,在「天工」大模型一周年之际,昆仑万维重磅宣布,「天工3.0」基座大模型与「天工SkyMusic」音乐大模型正式开启公测!一年前的今天,第一版天工大模型正式对外发布上线,一年来我们不断迭代模型,迭代应用产品,模型和应用都越做越好,以此回报广大用户的支持。「天工」系列大模型已集成了AI音乐、AI搜索、AI写作、AI长文本阅读、AI画图、AI语音合成、AI漫画创作、AI图片识别、AI代码写作、AI表格生成等多项能力,并将在未来加入AI视频功能,对标“超级应用”,成为人工智能时代的“超级大模型”。在“实现通用人工智能,让每个人更好地塑造和表达自我”的公司使命驱动下,昆仑万维将始终致力于AI技术与产品的创新开拓,不断提高AI产品的用户体验,与用户、研究人员、开发者们携手,共创国产大模型的未来。

  • 清华团队发布视频大模型Vidu 可生成16 、1080P 视频

    生数科技与清华大学在中关村论坛未来人工智能先锋论坛上共同发布了中国首个长时长、高一致性、高动态性视频大模型——Vidu。这款模型是国内首个达到Sora级别的视频大模型,标志着中国在视频生成技术领域的重要进展。开源成就:2023年3月,团队开源了基于U-ViT架构的多模态扩散模型UniDiffuser,这是全球首个此类模型,验证了U-ViT架构的大规模可扩展性。

  • 清华团队国产“Sora”火了:生数科技发布视频大模型「Vidu」

    在中关村论坛的未来人工智能先锋论坛中,生数科技与清华大学携手,正式推出了中国首个具备长时长、高一致性及高动态性的视频大模型——“Vidu”。这款引领时代的视频大模型,其核心在于团队原创的Diffusion与Transformer融合的U-ViT架构。作为通用视觉模型,Vidu能够生成更加多样化、更长时长的视频内容,其灵活的架构也将为未来兼容更广泛的模态、拓展多模态通用能力的�

  • 国际顶尖水平!首个Sora级国产自研视频大模型Vidu发布

    在2024中关村论坛年会未来人工智能先锋论坛上,生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型Vidu。这也是自Sora发布之后全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平在加速迭代提升中。除了在时长方面突破,Vidu在视频效果方面也实现了显著提升,主要包括:能够生成细节复杂的场景,且符合真实的物理规律;能够生成真实世界不存在的虚构画面,创造出具有深度和复杂性的超现实主义内容;能够生成复杂的动态镜头,不再局限于简单的推、拉、移等固定镜头是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换;在16秒的时长上保持连贯流畅,随着镜头的移动,人物和场景在时间、空间中能够保持一致;能够生成特有的中国元素,例如熊猫、龙等。

  • AI视频理解天花板,全MiniGPT4-Video刷爆SOTA!宝格丽宣传片配文一绝

    【新智元导读】秒懂视频的AI诞生了!KAUST和哈佛大学研究团队提出MiniGPT4-Video框架,不仅能理解复杂视频,甚至还能作诗配文。OpenAI官方账号发布了第一支由Sora制作的MV——Worldweight,引全网围观。下一步研究将模型能力扩展到处理更长视频的能力。

  • Meta AI推MA-LMM:用于长视频理解的记忆增强多模态大模型

    MetaAI近日推出了一种名为MA-LMM的新型模型,旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力,但在处理视频输入方面存在一些限制,例如上下文长度限制和GPU内存限制。其创新性的设计以及利用长期记忆库和顺序处理的方法使得该模型能够在各种复杂场景下取得显著成果,证明了其在多模态视频理解应用中的有效性和多功能性。

  • AI大模型搜索之战开启,胜出黑马竟是ta

    【新智元导读】距离AI「杀死」搜索引擎,到底还差几步?几天前,ChatGPT突然官宣免注册,让网友直呼AI取代搜索引擎的宏伟蓝图已经拉开帷幕。就像搜索引擎在2000年后逐渐成为了全世界互联网的大门一样,如今LLM的迅猛发展似乎也标志着互联网即将进入GenAI时代。我们搜索时会出现的,不仅仅再是简单的链接罗列是一个开门见山的准确答案。

  • 剑指Sora!120超长AI视频模型免费开玩

    近日,PicsartAIResarch等团队联合发布了StreamingT2V,可以生成长达1200帧、时长为2分钟的视频,一举超越Sora。作为开源世界的强大组件,StreamingT2V可以无缝兼容SVD和animatediff等模型。也许未来的某一天,那里也会是我们人类的生存空间。

  • 发布几小时,微软删媲美GPT-4开源大模型!竟因忘记投毒测试

    【新智元导读】前段时间,微软公布并开源了最新一代大模型WizardLM-2,号称性能堪比GPT-4。还未上线一天,模型权重和公告全被删除了,原因竟是......上周,微软空降了一个堪称GPT-4级别的开源模型WizardLM-2。开发者们还需要耐心等待,微软团队承诺,会在测试完成后重新上线。

  • 腾讯会议发布腾讯天籁inside3.0,为厂商提供AI音视频算法解决方案

    AI时代,会议室的良好拾音和区分说话人技术,是实现语音转文字、字幕翻译和智能纪要等能力的前提。4月17日,腾讯会议天籁实验室发布腾讯天籁inside3.0升级,在腾讯AILab多项技术加持下,推出16mic多模态人像分割解决方案,具备智能音幕功能,能够精准区分和定位会议室里的发言人,并升级了去混响效果。腾讯会议已经广泛服务金融、互联网、教育、医药、工业制造等行业,包括中国人民银行、清华大学、国家电网、中国交建、中国银行、美的、卫龙、国泰君安证券、北京朝阳医院等众多企事业单位,在多个行业的头部客户渗透率超过50%。

今日大家都在搜的词: