11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、Anthropic旗下ClaudeAI推出桌面客户端Anthropic公司推出了AI聊天机器人Claude的桌面应用程序,提升用户体验,使用户能更便捷地与Claude互动。12、谷歌地图终于开挂!Gemini加持解锁多项神
国产大模型,多模态能力都开始超越GPT-4-Turbo了??权威榜单,中文多模态大模型测评基准SuperCLUE-V,新鲜出炉:特别是腾讯的hunyuan-vision、上海AILab的InternVL2-40B,分别成为国内闭源和开源界两大领跑者,甚至超过Claude-3.5-Sonnet和谷歌王牌Gemini-1.5-Pro。虽然这次都还是被GPT-4o压过,差距也确确实实缩小了很多。在多模态“图生文”场景下,腾讯又能整出什么实用好活,就非常值得期待了。
OpenAI和谷歌接连两场发布会,把AI视频推理卷到新高度。但业界还缺少可以全面评估大模型视频推理能力的基准。综合实验结果可以看出,当前的多模态大模型在视频理解,尤其是长视频理解方向仍然有很长进步空间,一方面是要提升模型的多模态长上下文理解能力,Gemini1.5Pro最高支持百万长度的上下文窗口,这是其表现优异的依仗,另一方面也亟需构建相应的高质量长视频理解数据集,这方面当下仍处于空白。
LLama3-V模型正式发布,这是一种全新的SOTA开源VLM模型。LLama3-V不仅优于LLaVA在与GPT4-V、GeminiUltra、ClaudeOpus相比的性能表现上也不逊色,同时模型体积只有它们的1/100。这一消息让人兴奋不已,相信随着LLama3-V的问世,将会给人工智能领域带来全新的发展和突破。
【新智元导读】OpenAI半小时的发布会让很多人第一反应是直呼「失望」,但随着官网放出更多demo以及更多网友开始试用,大家才发现GPT-4o真的不可小觑,不仅在各种基准测试中稳拿第一有很多发布会从未提及的惊艳功能。OpenAI在发布会上官宣GPT-4o之后,各路大神也开始了对这个新模型的测评,结果就是,GPT-4o在多项基准测试上都展现了SOTA的实力。随着大模型之战愈演愈烈,相信对于开源和闭源的激烈讨论依旧会持续下去。
MiniGPT4-Video是什么?MiniGPT4-Video是为视频理解设计的多模态大模型,能处理时态视觉数据和文本数据,配标题、宣传语,适用于视频问答。用户可以上传视频,让模型生成标题与宣传语,理解特效处理,或作超美抒情诗。
【新智元导读】秒懂视频的AI诞生了!KAUST和哈佛大学研究团队提出MiniGPT4-Video框架,不仅能理解复杂视频,甚至还能作诗配文。OpenAI官方账号发布了第一支由Sora制作的MV——Worldweight,引全网围观。下一步研究将模型能力扩展到处理更长视频的能力。
ComfyUI最新推出的Lora训练节点使用户能够在ComfyUI平台上轻松训练Lora模型,设置简单,训练完成后模型保存在ComfyUILora文件夹中。InseRF技术:在图片中通过文本提示生成逼真的3D物体瑞士苏黎世联邦理工学院和Google苏黎世联合提出的InseRF技术,通过文本提示和2D边界框成功在3D场景中生成一致的物体,为生成式AI领域带来新突破。
Topazlabs最新推出了一款名为TopazVideoAI4的工具,可以将视频分辨率提升到4K/8K甚至16K分辨率。该软件使用了24种时序感知AI模型,经过训练,专门用于升级、增强、稳定和平滑视频画面。虽然功能强大,但该工具的价格也相对较高。
MagicVideo-V2是一种革命性的视频生成技术,集成了文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块,用于生成外观美观、高分辨率的视频,提供出色的保真度和平滑性。📰🤖📢AI新鲜事OpenAI推出自定义GPT商店OpenAI在官网正式发布了自定义GPT商店,用户可以分享和寻找最流行、最好用的自定义ChatGPT助手。Amphion音频生成工具包开源上海AI实验室、香港中文大学�