首页 > 业界 > 关键词  > 可灵最新资讯  > 正文

AI日报:快手上线可灵网页端并开源可图Kolors;达摩院AI视频平台“寻光”炸场;月之暗面推Kimi浏览器插件

2024-07-08 15:01 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、可灵AI又放大招:上线Web端,增加首尾帧控制、运镜控制等功能

可灵AI最近发布了重磅新功能,包括Web端上线、画质提升、首尾帧和镜头控制功能加入,文生视频时长延长至10秒。更新内容涵盖基础模型升级、首尾帧控制、镜头控制、文生视频时长增加、图生视频功能增强和Web端上线。可灵AI能生成高清视频,支持1080p分辨率,提供个性化视频控制选项,让用户创作更丰富多彩的内容。网页端服务免费上线,未来还将支持语音唇形同步等功能。

1.jpg

【AiBase提要:】

🚀 基础模型升级,支持1080p分辨率,画质达到电影级水准。

💡 首尾帧控制,用户可定制视频起始和结束画面,提升个性化创作体验。

🎥 镜头控制功能增加,包括横移、摇镜头等,让视频更生动有趣。

详情链接:https://top.aibase.com/tool/keling-ai

2、快手开源图像生成模型可图Kolors

快手今天放出了一项重磅消息,开源了自家的图像生成模型“可图 Kolors”,这一模型经过数十亿的文本图像对训练,搭载了通用语言模型(GLM)作为文本编码器,支持中英双语提示词,具有长文本处理能力和海量数据训练。可图 Kolors 还特别优化了中国文化元素,支持中文文字生成,展现出强大的技术支撑和文化传承。

QQ截图20240708111705.jpg

【AiBase提要:】

🌟 中英双语支持: 采用通用语言模型(GLM)作为文本编码器,支持中英文提示词,能处理长达256个token的上下文。

🚀 长文本处理能力: 支持长达256个token的上下文长度,让创作者能够细致描绘心中所想,无论是复杂场景还是丰富故事。

💡 海量数据训练: 在数十亿个文本图像对上进行训练,模型拥有庞大的知识库,能够生成多样化且精准的图像。

可图入口:https://top.aibase.com/tool/kuaishouketudamoxingkolors

详细内容介绍:https://www.aibase.com/news/10085

3、快手推出AIGC微短剧《山海奇镜之劈波斩浪》

快手推出国内首部AIGC原创奇幻微短剧《山海奇镜之劈波斩浪》,结合传统魅力与现代科技,为观众带来震撼的观看体验。通过大模型技术支持,呈现升级后的视觉效果,推动微短剧行业发展,引领“AIGC+微短剧”新潮流。

【AiBase提要:】

🎬 快手推出国内首部AIGC原创奇幻微短剧《山海奇镜之劈波斩浪》

💡 微短剧以《山海经》为灵感来源,赛博风格复现上古神话世界中的神怪异兽和奇花异草

🌟 快手推出“星芒短剧×可灵大模型”创作者孵化计划,支持AIGC微短剧的创作

详细内容:https://www.aibase.com/news/10075

4、月之暗面推出 Kimi 浏览器插件 支持点问笔、总结器等功能

Moonshot AI推出的Kimi浏览器插件为用户提供了点问笔和总结器两大功能,优化了用户在网页和应用中的体验。插件支持全局浮窗和侧边栏模式,方便用户在写作时进行持续对话和搜索。同时,Kimi还进行了体验优化,包括支持PDF文件打开、搜索引用溯源、内容复制等功能。双端同步更新还增加了计算器和问题推荐功能。

image.png

【AiBase提要:】

🖊️ 点问笔功能让用户通过划选文字获取即时解释和答疑

📝 总结器位于网页右下角,帮助用户快速总结全文内容

🔗 支持快捷键召唤Kimi,提供便捷操作和功能推荐

详情链接:https://kimi.moonshot.cn/extension/download

5、达摩院“寻光”炸场!可控编辑,轻松搞定AI视频工作流

AI视频创作领域迎来了一场革命性的变革,阿里达摩院推出的"寻光"平台在WAIC上震撼亮相,为创作者提供一站式AI视频创作解决方案,极大提高创作效率,重塑视频创作工作流。

【AiBase提要:】

✨ 一站式AI视频创作平台"寻光"推出,集剧本创作、分镜图设计、视频素材编辑于一体,简单高效

🔥 AI技术应用实现镜头角度调整、目标消除修改等一键完成,提升创作效率

💡 寻光平台支持剧本创作辅助、AI编辑功能、运镜控制、目标新增/消除/修改等多项强大功能

详情链接:https://top.aibase.com/tool/xunguangshipinchuangzuopingtai

6、书⽣·浦语2.5——InternLM2.5-7B模型宣布开源

2024年7月3日,上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式发布新一代大语言模型InternLM2.5-7B。该模型在推理能力、长文本支持和自主规划与工具调用方面有显著提升。

image.png

【AiBase提要:】

🚀 InternLM2.5-7B模型在推理能力方面表现出色,特别在数学评测集MATH上实现了100%的性能提升,准确率达到60%。

💬 模型支持处理高达1M tokens的上下文,优化了长文档理解与智能体交互。

🔍 具备搜索和整合上百个网页信息的能力,通过MindSearch多智能体框架,有效整合网络信息。

详情链接:https://github.com/InternLM/InternLM

7、阿里通义音频生成大模型 FunAudioLLM 开源 支持情绪语音对话、有声读物等场景

阿里通义实验室最近开源了名为FunAudioLLM的音频生成大模型项目,旨在提升人类与大型语言模型(LLMs)间的自然语音交互体验。该项目包括两个核心模型: SenseVoice和CosyVoice,分别致力于语音生成和语音识别。FunAudioLLM支持多种人机交互应用场景,如多语言翻译、情绪语音对话、互动播客和有声读物等。

image.png

【AiBase提要:】

🔊 CosyVoice专注于自然语音生成,支持多语言、音色和情感控制,表现出色。

🔍 SenseVoice致力于高精度多语言语音识别和情感辨识,支持超过50种语言。

🔗 FunAudioLLM项目结合SenseVoice、LLMs和CosyVoice,支持无缝的语音到语音翻译和情感语音聊天应用程序。

详情链接:https://github.com/FunAudioLLM

8、清华大学开源CodeGeeX4-ALL-9B:多语言代码生成模型 超越主要竞争对手

清华大学知识工程组和数据挖掘团队推出的CodeGeeX4-ALL-9B标志着代码生成模型发展的里程碑,具有无与伦比的性能、全面的功能和用户友好的集成,将推动软件开发的效率和创新。

image.png

【AiBase提要:】

🚀 CodeGeeX4-ALL-9B是CodeGeeX系列的最新创新成果,代表了多语言代码生成的巅峰,设定了新的性能和效率标准。

💡 模型拥有9.4亿个参数,在其类别中是最强大的之一,表现出色且具备仓库级别的代码问答功能,提高开发人员与代码库交互效率。

🔗 CodeGeeX4-ALL-9B在性能基准测试中表现卓越,超越了更大的模型,确立了自己作为领先模型的地位。

详情链接:https://huggingface.co/THUDM/codegeex4-all-9b

9、反AI图像盗窃工具Glaze需求量剧增 吸引大批艺术家

Glaze工具应运而生,旨在保护艺术家的风格不被AI图像生成器抄袭。随着Meta计划利用用户数据进行AI训练,Glaze需求量急剧上升。然而,安全研究人员发现了绕过Glaze保护的方法,引发了对其有效性的质疑。

image.png

【AiBase提要:】

🖼️ 艺术家追捧的Glaze工具用于防范AI图像盗窃。

🔒 Glaze需求激增,因Meta计划利用用户数据进行AI训练。

⚙️ 安全研究人员发现绕过Glaze保护的方法,对其有效性产生质疑。

详情链接:https://top.aibase.com/tool/glaze

10、科幻照进现实?Open-TeleVision支持远程操控机器人

这篇文章介绍了加州大学圣地亚哥分校和麻省理工学院研究员们开发的Open-TeleVision项目,该项目实现了远程操控机器人的高科技场景,让人仿佛置身于电影《阿凡达》中。系统支持多种设备,提供沉浸式体验,通过VR头显实现隔空操控,极大地提升了操作的便捷性和真实感。

【AiBase提要:】

🌟 开源远程操作系统,支持多设备轻松上手,实时立体视频流让操控更精准。

🤖 通过VR头显模拟人类视觉和颈部活动,实现沉浸式体验,告别传统2D视频平庸。

🔧 使用逆运动学算法和Web平台实现高效远程操作,解决人形机器人自由度匹配问题,数据采集训练机器人自主完成任务。

详情链接:https://github.com/Improbable-AI/VisionProTeleop

11、中国AI论文数量全球第一,清华成论文发表热门之地

中国在全球人工智能研究领域以惊人速度崛起,论文数量占全球总量25%,位居世界第一,展现出在AI科技人才素质和技术创新能力上的重大突破。学术机构如中国科学院和清华大学超越世界顶尖学府,企业如谷歌、微软、腾讯、阿里巴巴在AI研究领域贡献突出,彰显中国AI研究的多元化和活力。

image.png

【AiBase提要:】

🌟 中国AI论文数量全球领先,占全球总量的25%,位居世界第一

🏫 学术机构表现卓越,中国科学院和清华大学在AI论文被引用次数上超越了世界顶尖学府。

📈 企业贡献显著,谷歌、微软、腾讯、阿里巴巴等企业在AI研究领域贡献突出,展现了中国AI研究的多元化和活力。

12、AI 模型训练成本暴涨,2027 年或达 1000 亿美元!

据Anthropic首席执行官表示,当前AI模型训练成本高达10亿美元,未来三年有可能上升到100亿美元甚至1000亿美元。这一预测引发了人们对AI泡沫是否即将破裂的担忧。硬件和能源消耗成为训练成本的主要驱动因素,随着AI模型的发展,这两方面的支出将急剧增加。人力资源、数据采集和运行维护等方面也将耗费大量成本,如果这些问题不得到解决,2027年的AI训练成本有可能达到1000亿美元。

【AiBase提要:】

⭐ 当前AI模型训练成本高达10亿美元,未来三年有可能上升到100亿美元甚至1000亿美元。

⭐ 硬件和能源消耗成为训练成本的主要驱动因素,随着AI模型的发展,这两方面的支出将急剧增加。

⭐ 人力资源、数据采集和运行维护等方面也将耗费大量成本,如果这些问题不得到解决,2027年的AI训练成本有可能达到1000亿美元。

举报

  • 相关推荐
  • 央视网首场AI晚会七夕“AI心动夜”即将开启 联合可灵AI打造视听盛宴

    8月28日晚8点,央视频与快手可灵AI联合打造的七夕晚会“AI心动夜”正式开启。晚会以“AI视频叙事+传统文化”为核心,通过AI技术融合文化传承、艺术创作与情感表达,呈现跨越虚拟与现实、科技与文化交融的七夕盛典。节目包括《星河告白》《千年婚服秀》等,展现不同时代的爱情故事与中华婚服之美,同时通过《与妻书》《许愿吧》等作品探讨革命年代的深情与当代浪漫。晚会将在央视频、快手等平台同步直播,带领观众体验科技与文化的精彩碰撞。

  • 可灵2.1最强首尾帧上线 生成效果提升235%

    8月22日,可灵AI推出基于2.1模型的首尾帧功能,通过端到端多模态语义推理升级,视频生成效果提升235%。核心突破包括解决转场难题、强化视觉冲击、支持专业运镜及创意营销。测试显示,在人物动态衔接、风格切换及复杂镜头调度上表现突出,显著优于Midjourney等竞品,适用于广告、影视等创意制作场景,巩固了其在AI视频生成领域的领先地位。

  • AI日报:即梦上线智能多帧功能;可灵2.1首尾帧升级;钉钉推语音识别大模型Fun-ASR

    AI日报栏目汇总近期AI领域重要进展:腾讯元宝接入DeepSeek V3.1提升智能助手能力;即梦AI推出多帧功能简化视频制作;可灵AI首尾帧功能升级效果提升235%;钉钉与通义实验室联合发布Fun-ASR语音识别大模型;腾讯CodeBuddy IDE国内版公测;Vercel发布AI Gateway简化模型调用;Anthropic整合Claude Code强化企业开发;阿里发布Mobile-Agent-v3突破GUI自动化;Qoder平台革新编程模式;清华团队GUAVA框架实现0.1秒3D化身生成;谷歌搜索新增AI Agent功能;VAST推出Tripo 3.0推动3D内容创作。

  • 国产AI视频平台最全比价:万兴天幕2.0超高性价比,可灵PixVerse瞄准高价高品质

    2025年第三季度,中国AI视频生成赛道迎来定价体系的分水岭时刻。国际巨头谷歌Veo以每秒0.75美元(约5.4元人民币)的"好莱坞级定价"筑高技术壁垒,而国内市场呈现双轨制格局:万兴科技旗下万兴天幕2.0以"0.25元/条"的颠覆性价格突入大众市场,可灵与PixVerse则以1.56-1.79元/条的价格坚守品质溢价路线。国产玩家根据技术禀赋与市场定位分化出两条路径:普惠下沉派通过错峰无限权益降低算力成本;专业精耕派依托影视级运镜模板支撑高价策略。当技术参数差距收窄至毫厘之间,这场围绕"毛票"与"元角"的定价博弈,正在重划内容生产工具的普及边界。

  • AI日报:可灵2.1推出全新首尾帧功能;昆仑万维上线AI音乐模型Mureka V7.5;腾讯云推出AI开发工具CloudBase AI CLI

    本文介绍了AI领域最新动态:1)快手可灵2.1推出首尾帧功能,提升视频生成效果;2)昆仑万维发布Mureka V7.5音乐模型,优化人声表现;3)腾讯云推出AI开发工具CloudBase AI CLI,可减少80%编码量;4)海外新品MuleRun通过虚拟机和AI Agent带来创新游戏体验;5)Meta开源DINOv3视觉模型,无需标注即可实现卓越性能;6)宇树科技人形机器人H1获1500米赛跑金牌;7)谷歌Gemini新增记忆功能和隐私聊天模式;8)香港大学开源OpenCUA框架,打造个性化电脑助手;9)OpenAI考虑在ChatGPT引入广告;10)谷歌发布超小型开源模型Gemma 3 270M,支持手机端运行。

  • 《新世界加载中》收官,可灵AI拓宽影像边界

    “AI是人类文明进步的产物,也是我们跨越未来的重要助力。”通用人工智能时代,著名人工智能研究学家肖博士,在某项目出现重大突破后,向全世界发布了含有上述内容的AGI时代宣言。 “您觉得在大势所趋的当下,这个世界还有人工智能尚未普及的地区吗?”面对记者的这一疑问,肖博士开了一个玩笑,“也许,银河系之外”。 可在他脑海中出现的画面,却是破败的村庄�

  • 普思可灵提醒辐射污染让人烦躁紧张

    你是不是很久没有呼吸过新鲜空气了?你是不是在空调房间里呆得焦躁不安?你是不是很想住进刚装修好的房间,而又疑虑重重?人一生70%的时间是在室内度过的,室内空气质量的好坏直接决定了人体健康。可是,看不见的污染却无处不在。装饰材料和家具释放对人体非常有害的甲醛、苯等化学污染物质始终弥散在空气里。肉眼看不到它们,可是当它们一旦带上正电,随着空气中飘浮的灰尘成为正离子就能对人体造成损伤。正离子摄入人体就会削弱细胞

  • 华为公开虚拟现实交互专利,用户可灵活操控VR场景

    近日,华为技术有限公司公开“虚拟现实场景中的交互方法、装置及系统”专利,公开号CN112835445A,申请日期为2019年11月。

  • 医疗大模型Med-PaLM M:可灵活地编码和解释生物医学数据

    由谷歌旗下多家研究所组成的专家团队近日发布论文,公布了一款名为Med-PaLMM的多模态模型。Med-PaLMM是一个大型多模态生成模型,可以灵活地编码和解释生物医学数据。这项研究对于未来基于人工智能的医疗解决方案具有积极的前景。

  • 可灵,快手复仇的决心

    “5毛钱一条视频,买不了吃亏,买不了上当。上来就送66灵感值。Sora、可灵的价值才能作为生产流程一环释放出来。

今日大家都在搜的词: