首页 > 业界 > 关键词  > 可灵最新资讯  > 正文

AI日报:​更稳更高清!可灵AI发布1.5版本;字节推音乐生成神器;阿里通义万相视频生成模型正式上线

2024-09-19 15:19 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、可灵AI发布1.5版本 视频更稳更高清 人飞了脸都没崩

可灵AI最新发布的1.5版本带来了令人印象深刻的新功能和改进,显著提升了视频生成的数量和质量,拓宽了AI在创意媒体领域的应用边界。画质大幅提升,支持10秒1080p高清视频,文本响应度提升,审美提升,人物一致性加强,物体一致性改善。

【AiBase提要:】

🚀1.5版本视频生成能力大幅提升,支持一次性生成最多4个视频,图生视频功能支持生成长达10秒的1080p高清视频。

🎨1.0版本新增了“运动笔刷”功能,提供更精确的运动控制和更生动的运动表现,拓展了视频创作者的创意空间。

💡 文本理解能力显著提升,1.5版本在画面质量、动态表现和文本指令遵从效果等方面都有了显著的效果提升,整体效果提升了95%。

详情链接:https://top.aibase.com/tool/keling-ai

2、字节推音乐生成神器 Seed-Music 支持多样化输入和精确控制

最近,字节跳动推出了音乐创作新工具 Seed-Music,让用户通过多种方式生成音乐,如文字描述、音频参考、乐谱甚至语音提示。这一神奇模型结合自回归语言模型和扩散模型,生成高质量音乐作品,同时提供精确控制。用户可配乐歌词、改编旋律,甚至上传语音片段转化为歌声,功能强大且高效。

【AiBase提要:】

🎵 Seed-Music结合自回归语言模型和扩散模型,生成高质量音乐作品,让用户精确控制音乐细节。

🎶 功能包括声乐和器乐生成、歌声合成、歌声转换和音乐编辑,满足不同用户需求。

🎼 Seed-Music架构分为表示学习、生成和渲染模块,通过多模态输入生成高质量音乐。

详情链接:https://team.doubao.com/en/special/seed-music

3、阿里通义千问开源Qwen2.5系列模型:Qwen2-VL-72B媲美GPT-4

通义千问团队宣布开源Qwen2.5系列模型,包括通用语言模型Qwen2.5、Qwen2.5-Coder和Qwen2.5-Math,预训练在18T tokens数据集上,提升知识获取、编程和数学能力。支持长文本处理,生成最多8K tokens内容,保持对29种以上语言的支持。提供多种规模版本,采用Apache2.0许可证。Qwen2-VL-72B模型性能媲美GPT-4,在指令执行、长文本生成、数据理解和结构化输出方面有显著改进。

image.png

【AiBase提要:】

🚀 Qwen2.5系列模型开源,包括通用语言模型和专业领域模型,提升知识获取、编程和数学能力。

💡 模型支持长文本处理,生成最多8K tokens内容,对29种以上语言提供支持。

💻 Qwen2-VL-72B模型取得显著改进,在指令执行、长文本生成、数据理解和结构化输出方面表现优异。

详情链接:https://modelscope.cn/studios/qwen/Qwen2.5

4、阿里通义万相视频生成模型“AI生视频”功能正式上线

阿里巴巴旗下通义推出的通义万相AI生视频模型正式上线,具有强大的画面视觉动态生成能力,支持多种艺术风格和影视级质感的视频内容生成。该模型优化了中式元素表现,支持多语言输入和可变分辨率生成,应用场景广泛,提供免费服务并具有音频生成功能,简化视频制作流程。

image.png

【AiBase提要:】

⚙️ 通义万相AI生视频模型具有强大的画面视觉动态生成能力,支持多种艺术风格和影视级质感的视频内容生成。

🌟 优化了中式元素表现,在生成国风内容方面具有独特优势,支持多语言输入和可变分辨率生成,满足不同用户需求。

🎬 提供免费服务,支持视频内容的音频生成,简化视频制作流程,实现音画同步,提高创作效率。

详情链接:https://tongyi.aliyun.com/wanxiang/wanxvideo

5、腾讯出品!AI音频模型 EzAudio AI,让文本秒变逼真声音

近日,约翰霍普金斯大学与腾讯 AI 实验室联合推出的 EzAudio 模型标志着音频技术的重大进步。该模型通过创新的架构和技术生成高质量音频样本,具备广泛的应用潜力。随着技术的发展,伦理和责任使用问题逐渐突显,EzAudio 的公开研究代码也为未来的风险与收益提供了广泛的检验机会。

image.png

【AiBase提要:】

🌟 EzAudio 是由约翰霍普金斯大学与腾讯合作推出的新型文本转音频生成模型,标志着音频技术的一次重大进步。

🎧 该模型通过创新的架构和技术,生成的音频样本在质量上优于现有开源模型,具备广泛的应用潜力。

⚖️ 随着技术的发展,伦理和责任使用的问题逐渐突显,EzAudio 的公开研究代码也为未来的风险与收益提供了广泛的检验机会。

详情链接:https://huggingface.co/spaces/OpenSound/EzAudio

6、巨人网络发布自研角色大模型GiantGPT、语音大模型BaiLing-TTS

巨人网络在2024年云栖大会开幕式上展示了其在“游戏+AI”领域的最新成果,包括GiantGPT和BaiLing-TTS等大模型应用,以及AI数字人和AI绘画平台巨人摹境等新技术。公司展示了高度优化的游戏业务大模型和支持多种方言的语音大模型,同时发布了全新品牌标识,开启了AI绘画平台内测申请。巨人网络还展示了高精度实时交互数字人技术,表达了持续深耕“游戏+AI”领域的决心。

【AiBase提要:】

🎮 GiantGPT是专注于游戏业务的垂直大模型,结合自有数据和互联网公共数据进行训练,深度优化基础能力。

🗣 BaiLing-TTS是语音大模型,支持多种普通话方言混说,能生成多种方言语音。

🖌 巨人摹境AI绘画平台是一站式云端平台,支持团队协作和美术内容批量化处理。

7、ChatGPT 高级语音模式或将于9月24日全面上线

ChatGPT的高级语音模式即将于9月24日全面发布,为用户带来前所未有的交互体验。该功能生成逼真音频响应,提升人机交互自然度和沉浸感。更新信息可靠性得到佐证,部分移动用户或将在9月24日体验升级后的语音模式。macOS版ChatGPT应用界面有变化,语音模式界面更丰富,新增便捷按钮。部分用户可与ChatGPT共享更多上下文信息,实现更连贯和个性化对话体验。

【AiBase提要:】

⚙️ 高级语音模式将于9月24日全面发布,提升交互体验。

🔊 生成逼真音频响应,增强人机交互自然度和沉浸感。

🌌 macOS版ChatGPT应用界面有变化,新增便捷按钮,提供更丰富的视觉体验。

8、YouTube引入DeepMind Veo模型 为创作者想象插上翅膀

YouTube正式宣布将Google DeepMind的Veo模型整合到其短视频平台YouTube Shorts中,开启了短视频创作的全新AI驱动时代。这一举措不仅为创作者提供了前所未有的创意工具,还彻底改变了用户与平台的互动方式。

【AiBase提要:】

✨ Dream Screen功能结合Imagen3和Veo模型,为创作者打造智能创作环境。

🌟 YouTube通过SynthID技术保证AI生成内容的透明度和可信度。

💡 Made on YouTube2024计划推出AI驱动的创作工具,如灵感助手和智能自动配音工具,支持内容创作者全方位。

9、2024AI智能体应用洞察半年报:AI类APP月活超6600万

2024年AI智能体应用半年报显示,AI类应用月活跃用户数超过6600万,展示了AI技术在应用层面的快速发展和普及。报告指出AI应用已形成八大玩法门类,商业化路径已开启。智能体服务解决用户需求,微信生态重要渠道,智能体商业模式探索中。智能体在教育学习场景成熟,头部智能体使用热度较高。AI智能体应用成为移动互联网重要分支,为用户带来丰富便捷体验,为行业发展提供新动力和方向。预计未来AI智能体应用将发挥更重要作用。

image.png

【AiBase提要:】

📊 AI类应用月活跃用户数超过6600万,展示AI技术快速发展和普及。

🎮 AI应用形成八大玩法门类,商业化路径开启。

📈 智能体服务解决用户需求,微信生态重要渠道,商业模式探索中。

10、LinkedIn 悄然使用用户数据训练 AI,需双重选择退出

最近,LinkedIn被曝出在未事先通知用户的情况下开始将用户数据用于训练生成式人工智能模型。用户需在账户设置中关闭相关选项才能选择退出,但仅影响未来数据使用。LinkedIn还提到其他机器学习工具需填写额外表单才能完全退出数据使用。

【AiBase提要:】

🔒 LinkedIn默认将用户数据用于训练AI模型,用户需主动选择退出

✋ 用户需在账户设置中关闭选项,仅影响未来数据使用

📄 除生成式AI外,LinkedIn还有其他机器学习工具,需填写额外表单以完全退出数据使用

11、2300万美元融资!Fal.ai让50万开发者疯狂,每天生成5000万媒体内容

Fal.ai是一家专注于AI生成音频、视频和图像的云平台,最近成功融资2300万美元。该平台吸引了知名投资者和众多开发者、企业客户,展现出巨大潜力和市场需求。未来,Fal.ai将加强内容审核和模型优化工作,以更好地应对生成技术带来的挑战。

image.png

【AiBase提要:】

🚀 Fal.ai成功融资2300万美元,吸引多位投资者,展现出巨大市场潜力。

💡 该平台专注于为企业提供高效的AI生成媒体解决方案,吸引了众多开发者和企业客户。

🔍 Fal.ai将加强内容审核和模型优化工作,以更好地面对生成技术的风险和挑战。

12、办公软件的超级英雄?金山WPS AI会员人数破百万,鸿蒙版全面开跑

金山办公的WPS AI会员和大会员的年度付费用户数量突破100万,展示了人工智能在办公领域的潜力和用户认可度。与华为合作推出WPS鸿蒙版本,跨平台表现出色,提升用户办公体验。AI会员服务布局精心,推出AI助手和Linux12个人版,不断提高用户工作效率和拓展平台覆盖范围。

【AiBase提要:】

🚀 WPS AI会员和大会员付费用户数量突破100万,彰显人工智能在办公领域的潜力和用户认可度。

💡 与华为合作推出WPS鸿蒙版本,实现多平台账号统一、跨端调用、跨屏协同等先进功能,提升用户办公体验。

🔥 推出AI助手和Linux12个人版,引入多项AI驱动功能,如AI帮我写、AI帮我改、AI写公式和AI生成PPT,提高用户工作效率。

13、开发者福音!Anthropic将推出Claude AI桌面应用

Anthropic即将推出全新的Claude AI桌面应用,为开发者带来更便捷的AI助手体验。这将极大提高开发效率和创新可能。

【AiBase提要:】

🚀 Anthropic即将推出全新的Claude AI桌面应用,为用户带来更便捷的AI助手体验。

💡 Anthropic还在开发针对artifacts的创新功能,有望让用户直接将artifacts导出到VSCode编辑器中。

⚙️ 新功能操作方式类似于artifact remixing,通过生成深度链接的URL,简化开发流程,提高工作效率。

14、阿里CEO称AI最大想象力不在于手机:通义千问API调用价格下降97%

吴泳铭在2024云栖大会开幕式上分享了对人工智能发展的见解,强调AI技术的快速迭代和生成式AI的潜力。

【AiBase提要:】

🔑 通义千问API调用价格大幅下降97%,调用费用仅需0.5元,阿里云致力于降低成本。

🚀 AI技术在多模态能力、推理成本、技术可用性等方面取得巨大进步,超越摩尔定律。

💡 生成式AI的潜力在于创造新价值、提升全球生产力水平,可能比移动互联网连接创造价值更大十到几十倍。

15、Runway进军好莱坞!与狮门影业达成合作

Runway与著名电影制作公司Lionsgate达成合作,开发定制AI视频模型,引发影视行业震动。这次合作将为影视制作领域带来新突破,提升制作效率和创意发挥空间。

【AiBase提要:】

🌟 首个大型电影公司与AI视频模型供应商直接签订协议,标志着行业合作新纪元的到来。

🎬 Runway将利用Lionsgate两万部影视作品创建定制AI视频制作模型,应用于故事板和特效制作。

🚀 Runway推出新API支持第三方开发者使用AI视频功能,并举办短片创作比赛,展示对创作者的支持。

举报

  • 相关推荐
  • 大家在看
  • Yaelokre OC Maker:在线创作个性化原创角色的平台

    Yaelokre OC Maker是一个在线平台,允许用户轻松创建和个性化他们的原创角色。该平台强调定制化、用户友好的设计和社区参与,用户可以创建反映个人风格的特色角色。它提供了逼真的视觉效果、用户友好的界面、角色多样性、社区参与和24/7客户支持等特点。此外,它还提供了快速开始的模板,同时保留了定制每个细节的灵活性。

  • 投资策略模拟器:模拟不同投资策略的表现,辅助投资决策。

    投资策略模拟器是一个在线工具,它通过模拟不同的股价模型和投资策略,帮助用户理解各种投资策略在不同市场条件下的表现。该产品使用几何布朗运动模型来模拟股价的连续随机波动,适合相对稳定的大盘股。用户可以设置不同的投资周期和策略,比如买入持有、定投等,来观察投资收益的变化。这个工具的主要优点是简单易懂,能够帮助投资者在不承担实际风险的情况下,学习和比较不同的投资策略。它适合心态平和、不为短期波动所动的长线投资者。目前,该产品是免费的,主要面向教育和娱乐目的,不构成实际的投资建议。

  • Kolors Virtual Try On.org:免费在线AI服装试穿体验

    Kolors Virtual Try On是一个利用先进AI技术提供在线虚拟试衣服务的平台。它通过虚拟建模帮助用户在真实环境中可视化服装产品,减少因尺码不合或款式不满意导致的退换货成本。用户可以随时随地试穿服装,做出更明智的购物选择。该平台兼容多个平台,提供个性化推荐,并且支持移动设备使用。Kolors Virtual Try On的隐私政策确保用户数据安全,所有上传的照片在处理后会被安全删除。

  • Easy Sticker Maker:在线AI贴纸生成器,快速创建个性化贴纸

    Easy Sticker Maker是一个基于人工智能的在线贴纸生成器,它利用深度学习和生成对抗网络等技术,根据用户的文字描述生成具有视觉吸引力的定制贴纸。该产品支持多语言,易于使用,无需专业技能,适合个人和商业项目使用。它提供了一个免费试用,并有多种定价计划供用户选择。

  • Hot Tattoo AI:AI纹身生成器,创造个性化纹身设计

    Hot Tattoo AI是一个革命性的AI纹身生成器,它允许用户轻松创建自定义纹身设计。无论是为男性还是女性寻找完美的纹身设计,该平台都能激发独特且个性化的艺术作品,满足您的个人风格和偏好。该技术的主要优点包括直观易用、设计丰富多样、能够快速生成纹身设计,并且支持与纹身艺术家的协作创作。此外,它还提供了对当前流行趋势的洞察,帮助用户和艺术家保持最新。

  • Pic Pic AI:一体化AI照片编辑器,创造惊艳照片。

    Pic Pic AI编辑器是一个强大的AI图片编辑工具,它提供了多种功能,如照片增强、背景去除、物体移除等,使用户能够轻松地对照片进行专业级别的编辑。该产品以用户友好的界面和高效的AI技术为依托,旨在简化图片编辑流程,提高编辑效率,同时保证输出的图像质量。Pic Pic AI编辑器适合各种水平的用户,无论是社交媒体用户、电商卖家还是专业摄影师,都能通过这个平台提升他们的图像处理能力。

  • AI论文助手:智能论文写作辅助工具,助力学术创作。

    AI论文助手是一个专注于学术写作的在线平台,它利用人工智能技术帮助用户快速生成论文大纲和初稿,支持多种论文类型和学科领域。该产品通过简化论文写作流程,提高写作效率,降低学术写作的难度,特别适合需要撰写毕业论文、期刊论文等学术文档的用户。产品背景基于当前学术界对高效写作工具的需求,定位于教育和学术研究领域,价格方面提供了免费试用和付费服务。

  • Image Describer:AI工具,自动生成图像详细描述

    Image Describer图像描述生成器是一款利用人工智能技术,通过上传图像并根据用户需求输出图像描述的工具。它能够理解图像内容,并生成详细的描述或解释,帮助用户更好地理解图片含义。这款工具不仅适用于普通用户,还能辅助视障人士通过文本转语音功能了解图片内容。图像描述生成器的重要性在于它能够提升图像内容的可访问性,增强信息的传播效率。

  • 算了么suanleme:探索AI解卦,开启心灵之旅

    算了么是一个结合了AI技术与传统文化的趣味网站,它通过AI算法为用户提供卦象解读,旨在为用户带来心灵上的指导和慰藉。产品背景信息显示,算了么旨在通过现代科技与传统智慧的结合,为用户提供一种新颖的探索自我和世界的方式。目前产品提供免费试用,具体价格信息未在页面中给出。

  • WPS Office:AI驱动的免费办公套件,兼容MS Office

    WPS Office是一款集成了文字处理、表格计算、演示制作和PDF阅读功能的办公软件。它以轻量级、兼容性强、操作简便和智能化为特点,提供了包括AI拼写检查、AI翻译、AI内容生成和智能图片编辑在内的多种智能功能。WPS Office支持多平台使用,包括Windows、Mac、Android、iOS和Linux系统,满足不同用户在不同设备上的办公需求。作为一款免费且功能全面的办公软件,WPS Office在全球拥有超过2亿用户,是微软Office软件的有力竞争者。

  • GitHub Readme Generator:一键生成个性化GitHub个人资料README

    GitHub Readme Generator是一个在线工具,它允许用户快速生成个性化的GitHub个人资料README文件。这个工具的重要性在于它简化了创建README的过程,使得用户可以轻松地展示他们的项目、技能和个人成就。它主要面向开发者和开源贡献者,帮助他们更有效地在GitHub上展示自己。该工具是免费的,易于使用,并且可以自定义多种样式和颜色。

  • Sparrow:API管理的得力助手,简化API测试与开发流程。

    Sparrow是一个全面的API管理解决方案,提供了一整套工具来促进整个API生命周期,引导研发团队在API设计优先开发中追求卓越。它支持API请求、WebSocket、API测试流程和AI支持,是一个协作的开源解决方案,旨在简化API开发的复杂性。Sparrow提供了强大的工具来保护和管理API数据,并提供自托管能力,使用户能够完全控制他们的测试环境。

  • AiQArt by LockChain:使用AI技术生成个性化QR码

    AI Qr Codes是LockChain推出的一款应用程序,它利用人工智能技术将QR像素与艺术无缝融合,生成功能性的QR码,同时将背景图样融入其中,为品牌提供个性化的二维码设计。该产品不仅支持无水印、无订阅的低成本生成方式,还为新用户提供免费积分,用户可以根据自己的需求购买积分,使用自己的URL短链接,享受所有功能解锁且无额外费用的服务。此外,LockChain还提供定制化的AI功能和视频编辑服务,满足用户的独特需求。

  • 3D Mesh Generation:使用AI生成任何3D模型

    3D Mesh Generation是Anything World推出的一款在线3D模型生成工具,它利用人工智能技术,允许用户通过简单的文字描述或上传图片来快速生成3D模型。这项技术的重要性在于它极大地简化了3D模型的创建过程,使得没有专业3D建模技能的用户也能轻松创建出高质量的3D内容。产品背景信息显示,Anything World致力于通过其平台提供创新的3D内容创建解决方案,而3D Mesh Generation是其产品线中的重要组成部分。关于价格,用户可以在注册后查看具体的定价方案。

  • AutoDAN-Turbo:突破大型语言模型限制的自动化框架

    AutoDAN-Turbo是一个自动化的、无需人为干预的框架,旨在自动发现并实施多种策略,以突破大型语言模型(LLMs)的限制。该框架能够自动开发出多样的攻击策略,显著提高了攻击成功率,并且可以作为一个统一的框架整合现有的人为设计的越狱策略。AutoDAN-Turbo的重要性在于其能够提升LLMs在对抗环境中的安全性和可靠性,为红队评估工具提供了一种新的自动化方法。

  • ml-retreat:AI进阶学习路径的个人学习笔记库

    ml-retreat 是一个关于人工智能进阶学习的个人学习笔记库。它包含了对机器学习基础的深入理解,以及对于更细微主题的必读/必看资源。这个项目的目标是学习Ilya Sutskever推荐的30篇必读研究论文、Distilled AI的博客、多个AI/ML的视频播放列表,以及深入理解/实现Transformers、LLMs和相关主题。

  • INTELLECT-1:全球首个去中心化的10B参数模型训练平台

    INTELLECT-1是基于Llama-3架构的10B参数模型,它通过去中心化的方式允许任何人贡献计算资源并参与模型训练。这一创新的模式不仅降低了大型AI模型训练的门槛,还促进了全球范围内的协作和资源共享。产品背景信息显示,INTELLECT-1致力于推动AI技术的民主化,让更多人能够参与到先进的AI模型训练中来。目前,该平台提供免费试用,用户可以通过贡献计算资源来参与训练,并获得相应的回报。

  • FLUX.1-dev-Controlnet-Inpainting-Beta:阿里妈妈创意团队开发的图像修复模型

    FLUX.1-dev-Controlnet-Inpainting-Beta是由阿里妈妈创意团队开发的一个图像修复模型,该模型在图像修复领域具有显著的改进,支持1024x1024分辨率的直接处理和生成,无需额外的放大步骤,提供更高质量和更详细的输出结果。模型经过微调,能够捕捉和再现修复区域的更多细节,并通过增强的提示解释提供对生成内容的更精确控制。

  • MakerLab:一个提供3D模型创作和打印的平台

    MakerLab是一个在线平台,提供多种3D模型设计工具,包括花瓶生成器、标牌定制器等,用户可以根据自己的需求快速轻松地创建个性化的3D模型。该平台支持用户使用模板创作作品,也提供了创意试验场,让用户可以尝试使用AI扫描仪等前沿技术。MakerLab的背景信息显示,它是由BamBam Lab运营的,旨在为用户提供一个自由创作和分享创意的空间。目前,该平台提供免费和付费的服务,用户可以根据自己的需求选择合适的服务。

  • FLUX.1-Turbo-Alpha:基于FLUX.1-dev模型的8步蒸馏Lora,用于文本到图像生成。

    FLUX.1-Turbo-Alpha是一个基于FLUX.1-dev模型的8步蒸馏Lora,由AlimamaCreative Team发布。该模型使用多头鉴别器来提高蒸馏质量,可以用于文本到图像(T2I)、修复控制网络等FLUX相关模型。推荐使用指导比例为3.5,Lora比例为1。该模型在1M开源和内部源图像上进行训练,采用对抗性训练提高质量,固定原始FLUX.1-dev变换器作为鉴别器主干,并在每层变换器上添加多头。

今日大家都在搜的词: