首页 > 业界 > 关键词  > Vimi最新资讯  > 正文

AI日报:商汤Vimi视频生成大模型开放内测;腾讯智影上线AI视频功能;可直接生成6k图像的生成器UltraPixel

2024-07-09 15:02 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、商汤科技推出Vimi视频生成大模型 C端应用Vimi相机开放内测

商汤科技在2024年世界人工智能大会(WAIC)上推出了Vimi视频生成大模型,为用户提供精准的表情和肢体控制,支持多种驱动方式,稳定性突出且能生成高一致性的视频内容。Vimi相机作为首款C端应用,满足广大女性用户的娱乐创作需求,支持多样化的生成风格和个性化创作。

image.png

【AiBase提要:】

👩‍💻 Vimi模型利用商汤先进的大模型技术,能够生成与目标动作一致的人物视频,具有多年积累的面部跟踪技术和精确控制能力。

🎥 Vimi能生成长达1分钟以上的单镜头人物视频,且画面效果不会随时间劣化,支持环境场景调整和逼真的视觉效果模拟。

📸 Vimi相机支持用户上传高清人物图片生成数字分身和写真视频,提供多样化的生成风格和趣味人物表情包。

2、限时免费!腾讯智影小程序上线「AI视频」功能

智影小程序推出了名为「AI视频」的新功能,允许用户一键转换普通视频为风格化视频,特别是动漫风格,提升视频的吸引力。该功能目前限时免费,旨在帮助用户提升视频美感和趣味性。

image.png

【AiBase提要:】

🎥 一键式操作:快速上手,即使初学者也能制作专业级风格化视频。

🎨 多种风格模板:提供多样化模板,增强视频美观度和故事性。

🚀 提升视频传播力:风格化视频易分享,吸引更多观众关注。

3、UltraPixel:超大分辨率图像生成神器

UltraPixel是一款能够生成超高分辨率图像的黑科技,为设计师和创作者带来福音。通过Stable cascade训练和微调,支持直接生成1K到6K分辨率的图片。其技术手段包括隐式神经表示和尺度感知归一化层,保持高度细节和真实感。同时,在最小空间内高效处理,参数利用率高达97%,提高训练和推理效率。

QQ截图20240709110659.jpg

【AiBase提要:】

🔍 UltraPixel支持直接生成1K到6K分辨率的图片,细节精细到毛孔,清晰纤毫。

🚀 基于Stable cascade训练和微调,即将开源,让更多人体验这份科技的魅力。

💡 通过低分辨率图像中的丰富语义信息指导高分辨率图像生成,降低复杂性,保持高度细节和真实感。

详情链接:https://top.aibase.com/tool/ultrapixel

4、Groq推出闪电般快速的LLM引擎,仅四个月吸引28万开发者

Groq公司最近推出了闪电般快速的LLM引擎,引起了广泛关注。这款引擎每秒处理1256.54个标记,远超GPU速度,展示了LLM聊天机器人的快速和灵活性。Groq提供免费的LLM工作负载服务,已有超过28万开发者使用。CEO Ross预计到明年,全球一半推理计算将在Groq的芯片上运行。

image.png

【AiBase提要:】

🚀 Groq的LLM引擎每秒处理1256.54个标记,速度远超GPU

🤖 Groq的引擎展示了LLM聊天机器人的快速和灵活性,吸引开发者和非开发者关注

💻 Groq提供免费的LLM工作负载服务,已有超过28万开发者使用,预计全球一半推理计算将在其芯片上运行

5、无人车团队推出电影级视觉AI特效Odyssey

无人车团队跨足好莱坞,推出革命性电影级视觉AI特效Odyssey,颠覆电影、电视节目和视频游戏制作方式。Odyssey能生成好莱坞级别的故事镜头,突破视频AI障碍,实现完全掌控视觉叙事核心层。灵感源自皮克斯,目标是用AI制作影视作品,解决AI可控性难题。

【AiBase提要:】

🎬 Odyssey实现完全控制视觉叙事核心层,生成高质量场景元素和方面

🌟 提出更强大的生成模型,训练四个模型实现精细配置场景细节

🚗 团队与自动驾驶汽车紧密相关,创始人在自动驾驶领域有丰富经验

详情链接:https://top.aibase.com/tool/odyssey

6、报道称OpenAI内部论坛曾遭黑客入侵,机密被盗

近日,知名人工智能公司OpenAI的内部论坛遭到黑客攻击,引发安全问题,员工担忧安全漏洞可能被利用。公司发布更新加密聊天记录以提升数据安全性,成立安全与保安委员会加强安全措施。全球合作应对AI带来的挑战变得尤为重要。

【AiBase提要:】

💡 OpenAI内部论坛遭黑客攻击,公司安全性受到质疑,员工担忧安全漏洞可能被利用。

💡 发现ChatGPT macOS应用程序存在安全漏洞,公司发布更新加密聊天记录以提升数据安全性。

💡 OpenAI成功阻止多起来自俄罗斯、以色列的秘密影响行动,成立安全与保安委员会加强安全措施。

7、Meta AI为移动设备开发紧凑型语言模型MobileLLM

Meta AI研究团队推出了MobileLLM,这是为智能手机和其他资源受限的设备设计高效语言模型的新方法。该研究挑战了有关有效AI模型规模的假设,取得了2.7%到4.3%的性能提升。MobileLLM的开发符合人们对更高效AI模型的需求,尚未向公众开放,但已开源预训练代码。

image.png

【AiBase提要:】

🔑 MobileLLM是为资源受限设备设计的高效语言模型,挑战了大型模型的必要性。

🚀 MobileLLM的创新包括优先考虑模型深度、利用嵌入共享和分组查询注意、采用直接块权重共享技术。

💡 MobileLLM在基准测试任务上表现优异,3.5亿参数版本在某些任务上与70亿参数模型相当。

8、Poe社交平台推出Previews功能

Poe社交平台推出了名为Previews的创新功能,为用户带来前所未有的交互体验,标志着AI社交互动进入新纪元。Previews功能直观易用,让用户在聊天界面中实时查看AI生成的Web应用并进行即时交互,提升了用户与AI之间的互动质量。

image.png

【AiBase提要:】

🚀 AI社交互动进入新纪元,Previews功能让用户直观操作AI生成的Web应用。

💡 Previews功能易用直观,用户轻松自然与AI进行即时交互。

💻 适用于大型语言模型,提供普通用户接触高级AI编程应用的机会,增加Poe平台吸引力。

9、Xinsir开源Controlnet++模型 支持Openpose、Canny等十多种条件控制

Xinsir最新发布的Controlnet++开源模型具有多种控制条件,能够生成高质量图像,特别适用于需要精细编辑的设计师。该模型基于ControlNet架构,新增模块支持超过十种不同的控制类型,提供了多种控制条件下的图像生成示例。虽然目前无法在Web UI和Comfyui上使用,但其多功能性和高质量输出使其成为文本到图像生成领域的一个重要突破。

image.png

【AiBase提要:】

🔧 Controlnet++支持Openpose和Canny等输入,避免频繁更换模型。

🧩 模型设计特点多种控制,使用相同网络参数实现不同条件的图像生成。

🚀 Controlnet++在SDXL实验中表现优异,提供多种控制条件下的图像生成示例。

详情链接:https://top.aibase.com/tool/controlnet-

10、支付宝医疗大模型亮相 中英文考试超GPT-4水平

支付宝的医疗大模型在中英文考试中表现超越了GPT-4,已在江浙沪一线医院落地。该模型具备多模态能力,准确率达90%以上,可提供智能问答、病历结构化和检索等服务。支付宝联合多家机构发起AI医疗共建计划,致力于提升医疗效率和数据安全。

【AiBase提要:】

🏥 支付宝医疗大模型在中英文考试中超越GPT-4水平,已在一线医院落地。

💡 模型具备多模态能力,准确率达90%以上,可提供智能问答、病历结构化和检索服务。

🔒 支付宝采取多项措施保障技术可靠和数据隐私安全,推动人工智能规模化落地。

举报

  • 相关推荐
  • 必应引入OpenAI的Sora视频生成器,完全免费使用

    微软表示:“Bing 视频生成器体现了我们让 AI 视频创作变得全民可及的努力。我们相信,创造力应当轻松且人人可用,从而助力你的探索与表达。”

  • AI日报:Midjourney重磅推出视频生成模型V1;OpenAI将在今年夏季发布GPT-5;谷歌推Search Live语音搜索功能

    本期AI日报聚焦多项AI领域重要进展:1) Midjourney推出首款视频生成模型V1,支持21秒视频生成;2) OpenAI CEO确认GPT-5将于今夏发布;3) Google上线语音对话搜索功能Search Live;4) OpenAI开源客户服务代理框架;5) MiniMax发布智能代理Agent;6) 恶意工具WormGPT出现新变种;7) OpenAI推出企业版ChatGPT折扣;8) DeepSite V2支持3D网页动画生成;9) AI工具可秒变PPT;10) 比亚迪与字节跳动合作开发动力电池技术;11) 马斯克否认xAI巨额亏损传闻。

  • AI日报:MiniMax推视频生成模型Hailuo 02;Cursor Pro取消500次请求限制;谷歌发布AI模型 Gemini 2.5 Flash-Lite

    本文汇总了AI领域最新动态:1)Cursor Pro取消500次请求限制;2)稀宇科技推出视频生成模型Hailuo02;3)谷歌发布轻量级AI模型Gemini2.5Flash-Lite;4)科大讯飞星火X1升级版7月上线;5)腾讯元宝推出AI编程模式;6)OpenAI将下架GPT-4.5 API;7)苹果Speech API转录速度超Whisper 55%;8)百度推出数字人互动直播间;9)Meta曾试图高薪挖角OpenAI人才;10)Krea1公测开放,解决"AI感"问题;11)特斯拉Grok车载AI助手即将上线;12)谷歌Gemini新增视频分析功能。

  • AI日报:ChatGPT支持MCP和会议记录功能;Cursor 1.0 版本重磅发布;Midjourney视频功能将在本月上线

    本期AI日报聚焦多项AI领域突破:1)OpenAI为ChatGPT新增企业数据连接和会议记录功能;2)Cursor 1.0发布集成BugBot等开发工具;3)Midjourney即将推出视频生成功能;4)秘塔AI搜索新增PPT导出功能;5)Manus推出文本生成视频工具挑战Sora;6)法国Mistral发布企业级编程助手;7)英伟达推出文档处理专用AI模型;8)腾讯公益引入大模型提升互动体验;9)Firecrawl推出网页抓取API工具;10)Bland AI实现超真实语音克隆;11)报告显示AI训练成本逼近百亿美元;12)开源设计工具Jaaz支持批量图像生成;13)《逆水寒》手游接入AI实现图片动效玩法。

  • iQOO 15 Ultra首曝:首款骁龙8 Elite 2 Ultra旗舰

    iQOO将于年底推出iQOO 15系列旗舰手机,包含标准版和Ultra版。iQOO 15 Ultra将采用2K LIPO直屏,首批搭载骁龙8 Elite 2平台,配备潜望长焦镜头,支持无线充电和IP68防尘防水。相比上代,Ultra版回归直屏设计,新增主动散热风扇和潜望长焦,影像和性能大幅提升。采用全新LIPO封装工艺,通过优化显示驱动芯片和电路布局,大幅收窄边框。LIPO技术采用高密度连接设计,减少信号传输通道数量和长度,在保证信号稳定性的同时缩小边框宽度。iQOO 15 Pro预计10月亮相,将成为行业首款骁龙8 Elite 2 Ultra旗舰机型。

  • Meta AI新增生成式AI视频编辑功能:秒换服装、场景

    Meta 宣布,将在Meta AI应用、Meta.AI网站和Edits应用上推出一项生成式AI视频编辑功能。 用户可通过50多种预设AI提示词,一键实现视频中服装、场景、光影等元素的智能变换。 Meta称,全新的AI视频编辑功能直观易用,用户无需任何视频编辑专业知识即可制作高质量的视频。首先,用户可将视频上传到Meta AI应用、Meta.AI网站或

  • 快手可灵AI上线2.1系列模型:生成5秒视频不到1分钟

    快手旗下可灵AI发布2.1系列模型,包含720p标准版和1080p高品质版,在性价比、生成速度和质量三大维度实现突破。新模型生成5秒视频仅需20-35灵感值,与上代保持相同成本;1080p视频生成时间不到1分钟,快于行业同级产品2-3倍。模型在动态表现、物理模拟和语义理解方面均有优化,人物动作更真实自然。可灵AI自发布以来发展迅猛,全球用户突破2200万,月活增长25倍,累计生成1.68亿视频和3.44亿图片。商业化进程加速,2025年Q1营收超1.5亿元人民币,展现强劲市场潜力。

  • 如何用即梦AI的音乐功能生成冥想放松音乐?

    即梦AI是一款强大的音乐生成工具,能轻松创作适合冥想放松的专属音乐。用户只需简单操作:1.访问官网进入音乐生成界面;2.选择"纯音乐"类型;3.输入具体需求描述(如舒缓钢琴曲搭配自然音效);4.选择古典/民谣等舒缓曲风;5.设置时长后点击生成。该工具特别适合需要助眠、冥想或放松的场景,能根据个性化需求快速生成专业级音乐作品,支持试听满意后直接下载使用。

  • AI日报:美团No Code平台免费开放;豆包App升级“一句话P图”功能;苹果Xcode 26内置ChatGPT等AI功能

    本文介绍了AI领域多项重要进展:1)美团推出No Code平台和1680个AI应用;2)豆包App升级"一句话P图"功能;3)苹果发布内置ChatGPT的Xcode26开发工具;4)iOS26新增视觉智能功能;5)讯飞星火X1升级版即将发布;6)比亚迪接入阿里通义大模型;7)DeepSeek支持本地工具调用;8)开源框架Rowboat支持快速构建智能助手;9)X平台整合Grok AI优化内容推荐;10)港科大开发进化搜索技术提升小模型图像生成能力;11)硅基流动完成数亿元融资;12)港大与英伟达合作开发新型视觉注意力机制。这些创新展示了AI技术在各领域的快速发展和应用突破。

  • 多模态2025:技术路线“神仙打架”,视频生成冲上云霄

    一场大会,聚集了中国多模态大模型的“半壁江山”。 智源大会2025为期两天的论坛中,汇集了学界、创业公司和大厂等三方的热门选手,关于多模态的集中讨论达到了前所未有的热度。其中,创业公司就有爱诗科技、生数科技、Sand.ai、智象未来、Luma AI、智谱等六家公司创始人、CEO分享心得;隶属大厂队的字节、腾讯、百度的多模态技术负责人,以及学术界的人大和MIT(麻省�