首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:阶跃星辰内测视频大模型Step-Video;即梦AI图片2.1模型支持生成文字;腾讯发布混元视频生成大模型

2024-12-03 15:28 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用

新鲜AI产品点击了解:https://top.aibase.com/

1、阶跃星辰视频生成大模型Step-Video开启内测 可在跃问视频申请

阶跃星辰的Step-Video模型正式开启内测,用户可以通过跃问视频官网申请资格。该模型支持从文本生成高达1080P分辨率、最长10秒的视频,展现出在自动优化提示词、美学风格和运动控制方面的显著优势。

image.png

【AiBase提要:】

🎬 Step-Video模型支持从文本生成高清视频,分辨率高达1080P,最长可达10秒。

🌟 在美学风格上,Step-Video对中国风题材的理解和生成尤为精准,符合古诗意境。

⚙️ 该模型在运动控制方面表现优异,能够生成符合物理规律的视频,处理复杂的空间关系。

详情链接:https://top.aibase.com/tool/yuewenshipin

2、Luma发布全新图像生成模型Luma Photon,速度更快,成本更低!

Luma Labs推出的Luma Photon和Photon Flash是两款革命性的图像生成模型,具有超高的生成速度和低成本优势。Luma Photon在多项测试中表现出色,能够生成高质量的图像,适用于广告、影视、艺术等多个领域。

【AiBase提要:】

🚀 Luma Photon生成图像速度是市场上其他模型的10倍,成本低至0.2美分每张1080p图片。

🎨 支持多轮自然语言指令,用户可逐步优化生成内容,适合复杂创意任务。

📈 在质量、创造力和理解力方面,Luma Photon在双盲评估中超越市场上所有模型。

详情链接:https://lumalabs.ai/photon

3、可灵AI导演共创计划作品12月6日上线 将发布9部电影级AI视频

快手科技宣布将于12月6日正式上线中国首个AIGC导演共创计划——“可灵AI导演共创计划”。此计划由快手自研的视频生成大模型“可灵AI”联合多位知名导演共同发起,旨在通过AI技术拓宽影视创作的边界。

image.png

【AiBase提要:】

🎥 计划由快手科技与9位知名导演共同发起,涵盖多元题材。

🤖 所有短片将使用可灵AI进行视频生成,推动AI技术在影视创作中的应用。

📈 可灵AI自发布以来已服务超500万用户,生成5100万个视频和1.5亿张图片。

4、字节旗下即梦AI灰测图片2.1模型 AI生图终于可以出中文字体了!

字节跳动旗下的即梦AI最近推出了图片2.1模型,解决了AI图像生成中文字体的问题。用户只需简单输入文字描述,便可快速生成个性化海报,极大提高了设计师的工作效率。新模型的应用场景广泛,包括海报制作、书籍封面设计和社交媒体配图。

image.png

【AiBase提要:】

🎨 新模型支持中文字体生成,提升海报设计效率。

📚 用户可通过文字描述创建个性化海报和封面。

🌌 模型应用场景广泛,适用于社交媒体、故事创作等。

详情链接:https://top.aibase.com/tool/jimeng

5、秘塔AI搜索:「学术搜索」数据增加7倍 新增”解释“功能

上海秘塔网络科技有限公司最近对其AI秘塔学术搜索功能进行了重大升级,数据量增加了7倍,用户现在可以更全面地检索到数千万篇Open Access论文,包括40%的SCI论文及顶级期刊如《Nature》和《Science》。此次更新还新增了“解释”功能,帮助用户理解复杂的文献内容。

微信截图_20241203091022.png

【AiBase提要:】

📈 数据量增加7倍,覆盖数千万篇Open Access论文,提升检索能力。

📝 新增“解释”功能,帮助用户理解文献中复杂的句子。

🌍 支持44种语言的翻译模型,消除小语种论文的阅读障碍。

6、李飞飞创业首秀:一张图生成交互式3D 世界,AIGC 进入全新时代!

李飞飞的最新创业项目World Labs,带来了颠覆性的3D生成技术。用户只需提供一张图片或一句话,就能创造出互动的3D场景,标志着AIGC进入全新的沉浸式时代。这项技术不仅能精准还原细节,还能模拟各种相机效果,赋予用户导演般的控制感。

【AiBase提要:】

🖼️ 只需一张图片或一句话,即可生成栩栩如生的3D场景,开启全新交互体验。

🎥 该技术支持模拟多种相机效果,让用户在3D世界中自由掌控镜头。

🚀 World Labs计划持续提升3D世界的规模和精度,探索更多用户互动方式。

详情链接:https://www.worldlabs.ai/blog

7、告别语音克隆侵权!Hume AI推出语音控制功能,可创建个性化AI语音

Hume AI最近推出了一项名为“语音控制”的实验性功能,使用户能够轻松创建个性化的AI声音,无需任何编码技能。该功能允许用户通过滑块调整声音特征,提供多种维度的定制选项,旨在满足多样化的应用需求。

image.png

【AiBase提要:】

🔊 Hume AI推出“语音控制”功能,用户可轻松创建个性化AI声音。

🛠️ 该功能无须编码技能,用户可以通过滑块调整声音特征。

🌐 Hume旨在通过个性化和情感智能的语音AI来满足多样化的应用需求。

详情链接:https://www.hume.ai/blog/introducing-voice-control

8、Cohere推新的搜索模型 Rerank3.5:可处理100多种语言精准查询

Cohere最近推出的Rerank3.5搜索模型,标志着企业数据检索的重大进步。该模型支持超过100种语言的查询,尤其在阿拉伯语、日语和韩语等主要商业语言中表现出色,帮助跨国公司打破语言障碍。内部测试显示,Rerank3.5在金融服务领域的表现显著提升,能够节省成本并降低风险。

image.png

【AiBase提要:】

📊 Rerank3.5能够处理100多种语言的查询,帮助全球企业打破语言障碍。

💡 内部测试显示,该模型在金融服务领域的搜索表现大幅提升,能节省成本和降低风险。

🚀 Cohere 通过主流云平台的部署,力求成为企业搜索的行业标准,同时企业需随时适应快速变化的 AI 环境。

详情链接:https://cohere.com/blog/rerank-3pt5

9、OpenAI CFO 回应广告传闻:当前不考虑引入广告模式

OpenAI的首席财务官Sarah Friar在接受采访时表示,当前公司并无计划引入广告,尽管广告收入对盈利公司来说是一个诱人的选择。Friar提到,OpenAI正在快速增长,并在现有商业模式中发现了机会,未来可能会探索其他收入来源。

【AiBase提要:】

🌟 OpenAI CFO Sarah Friar 表示当前无意引入广告,未来有可能探索其他收入来源。

💼 OpenAI 招聘了多位广告和市场营销领域的专家,表明未来或将考虑广告模式。

🚪 公司高管频繁变动,创始人 Sam Altman 依然在努力推动公司愿景。

10、提到 “David Mayer”一词ChatGPT就崩溃,这是什么神秘力量?

最近,社交媒体上出现了一个让人困惑的现象:OpenAI的聊天机器人ChatGPT在提到“David Mayer”时无法正常回应,并强制结束对话。这一现象引发了网友们的广泛讨论与猜测,许多人尝试询问ChatGPT有关“David Mayer”的信息,却都遭遇了同样的结局。

image.png

【AiBase提要:】

🌐 ChatGPT在提到“David Mayer”时无法回应,并强制结束对话。

🔍 “David Mayer”可能与法律问题有关,涉及GDPR被遗忘权。

🤔 其他姓名同样会导致ChatGPT出现故障,凸显AI模型的复杂性。

11.WPS Office 推出 AI 语音速记功能

WPS Office 近期发布了 AI 语音速记功能,增强了语音转文字的体验,支持实时录音和多语言互译。该功能通过声纹识别和 AI 自动总结提升准确性,并与 WPS 云文档深度整合,确保用户在录音过程中能顺利继续录音。用户可在最新版本的 WPS Office 中轻松找到并使用此功能。

微信截图_20241203150637.png

【AiBase 提要:】

🗣️ 语音速记功能实现实时录音与音频转文字。

🌐 支持中英等多种语言的互译功能。

🔒 提供安全的文档协作体验,提升用户便利性。

12.腾讯发布混元视频生成大模型: 130 亿参数全面开源

腾讯推出了混元视频生成模型,拥有 130 亿参数,是当前最大开源视频生成模型。该模型支持高清、真实感视频生成,适用于广告和创意视频等商业应用。用户可通过腾讯元宝 APP 和腾讯云接口进行试用或对接,降低了视频生成的技术门槛,促进了 AI 技术的普及。

【AiBase 提要:】

🎥 混元视频生成模型具备超写实质感,适合多种商业场景使用。

🔧 模型允许用户细致刻画生成内容,提供高度语义遵循。

🌐 开源模式推动了 AI 视频生成技术的民主化,鼓励创意与开发者创新。

官网:https://aivideo.hunyuan.tencent.com

模型:https://huggingface.co/tencent/HunyuanVideo

举报

  • 相关推荐
  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • A日报:B站升级动漫视频生成模型AniSora V3;字节开源4D视频生成框架EX-4D;DeepSWE开源AI Agent系统强势登顶

    AI日报栏目汇总了近期AI领域的重要进展:1)字节跳动开源EX-4D框架,可将单目视频转换为多视角4D视频;2)B站开源动漫视频生成模型AniSora V3,支持多种风格;3)DeepSWE+开源基于Qwen3-32B的AI Agent系统;4)字节开源3亿参数图像编辑模型VINCIE-3B;5)Stability AI推出移动端音频生成模型Stable Audio Open Small;6)谷歌发布免费教育AI工具套件Gemini for Education;7)Topview推出革命性AI数字人带货技术Avatar

  • 可灵AI推出可图2.1模型 多维能力跃升、会员限时7天免费

    可灵AI于7月10日上线可图2.1模型,图片生成能力全面升级:1)指令遵循能力显著提升,可精准捕捉复杂提示细节;2)新增180多种风格响应,支持特殊材质、数字艺术等创作需求;3)人像美感大幅优化,肌肤纹理与光影效果更自然;4)增强电影质感生成,能呈现大片级层次氛围;5)文字生成效果提升,支持中英文营销海报等设计。即日起面向会员免费开放7天,实测显示该模型在复杂场景还原和细节表现上达到新高度,累计已生成超3亿张图片。

  • AI日报:腾讯元宝升级一句话搜索图片视频;微信支付MCP上线;谷歌在全球推出 Veo 3

    【AI日报】今日AI领域重要动态:1)腾讯元宝升级,支持一句话搜索呈现图文视频;2)微信支付MCP上线,AI与支付结合开启商业新纪元;3)谷歌Veo3视频生成模型向Pro/Ultra会员开放,新增"照片生成视频"功能;4)开源DeepSeek R1增强版推理效率提升200%;5)美图WHEE推出"一句话修图"功能;6)芯片公司Ambiq申请美国IPO,受益生成式AI需求;7)昆仑万维开源奖励模型Skywork-Reward-V2;8)Kyutai发布超低延迟开源语音合成技术;9)Figma拟以200亿美元估值登陆纽交所;10)字节跳动开源Trae-Agent智能开发工具。

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。

  • AI日报:xAI 震撼发布Grok4;微软开源全新Phi-4-mini版本;上海累计82款大模型通过备案

    AI日报栏目聚焦人工智能领域最新动态:1)xAI发布旗舰模型Grok4,在数学推理和代码生成表现突出,同时推出开发者专用Grok4Code;2)微软开源Phi-4-mini模型,推理效率提升10倍,适合边缘设备;3)上海82款大模型完成备案,垂直领域应用取得突破;4)Hugging Face推出开源桌面机器人Reachy Mini,支持Python编程;5)Perplexity发布AI浏览器Comet挑战Chrome;6)OpenAI将首次发布开放权重模型,打破闭源惯例;7)谷歌医疗AI模型MedGemma系列上新,单个GPU即可运行;8)OpenAI以约65亿美元收购AI硬件公司io Products,正式进军硬件市场。

  • 国内有哪些ai大模型?一文看懂中国核心AI大模型全景

    近两年中国AI大模型发展迅猛,已形成"通用+行业"双轨并进的生态格局。百度文心一言、阿里通义千问等通用大模型在中文理解、多模态生成等方面表现突出;深度求索DeepSeek以1/10参数实现GPT-4级推理能力;月之暗面Kimi以20万汉字上下文窗口领跑长文本处理;智谱AI的GLM-4成为首个支持视频对话的国产千亿模型。医疗、金融等垂直领域涌现出百川智能等专业模型,覆盖超1000家医院。开源生态加速国产芯片适配,15家厂商完成深度优化。行业应用方面,工程文档效率提升60%,24小时拟人化客服等案例凸显价值。未来趋势呈现模型蒸馏、端侧部署和开源生态三大方向,中国AI正从实验室走向产业变革前沿。

  • 文生图大模型有哪些?探索AI绘画的核心引擎与选择利器

    本文探讨了当前主流的AI文生图技术及其应用场景。国际阵营中,OpenAI的DALL·E3擅长复杂语义理解,MidJourney以艺术风格见长,Stable Diffusion则以开源生态支持深度定制。中国力量方面,百度文心一格在中文语义和国风创作表现突出,阿里通义万相侧重商业化应用,昆仑万维天工支持长文本生成连贯图像。垂直领域工具如Adobe Firefly深度集成设计流程,Runway ML革新视频创作。文章建议通过聚合平台高效对比模型特性,并指出下一代技术将突破分辨率限制,实现跨模态生成。从精准语义到无限可能,AI文生图正在重塑视觉创作边界。