AI日报：快手上线可灵网页端并开源可图Kolors；达摩院AI视频平台“寻光”炸场；月之暗面推Kimi浏览器插件

2024-07-08 15:01 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

1、可灵AI又放大招：上线Web端，增加首尾帧控制、运镜控制等功能

可灵AI最近发布了重磅新功能，包括Web端上线、画质提升、首尾帧和镜头控制功能加入，文生视频时长延长至10秒。更新内容涵盖基础模型升级、首尾帧控制、镜头控制、文生视频时长增加、图生视频功能增强和Web端上线。可灵AI能生成高清视频，支持1080p分辨率，提供个性化视频控制选项，让用户创作更丰富多彩的内容。网页端服务免费上线，未来还将支持语音唇形同步等功能。

【AiBase提要:】
🚀 基础模型升级，支持1080p分辨率，画质达到电影级水准。
💡 首尾帧控制，用户可定制视频起始和结束画面，提升个性化创作体验。
🎥 镜头控制功能增加，包括横移、摇镜头等，让视频更生动有趣。
详情链接:https://top.aibase.com/tool/keling-ai

2、快手开源图像生成模型可图Kolors

快手今天放出了一项重磅消息，开源了自家的图像生成模型“可图 Kolors”，这一模型经过数十亿的文本图像对训练，搭载了通用语言模型（GLM）作为文本编码器，支持中英双语提示词，具有长文本处理能力和海量数据训练。可图 Kolors 还特别优化了中国文化元素，支持中文文字生成，展现出强大的技术支撑和文化传承。

QQ截图20240708111705.jpg

【AiBase提要:】
🌟 中英双语支持: 采用通用语言模型（GLM）作为文本编码器，支持中英文提示词，能处理长达256个token的上下文。
🚀 长文本处理能力: 支持长达256个token的上下文长度，让创作者能够细致描绘心中所想，无论是复杂场景还是丰富故事。
💡 海量数据训练: 在数十亿个文本图像对上进行训练，模型拥有庞大的知识库，能够生成多样化且精准的图像。
可图入口:https://top.aibase.com/tool/kuaishouketudamoxingkolors
详细内容介绍：https://www.aibase.com/news/10085

3、快手推出AIGC微短剧《山海奇镜之劈波斩浪》

快手推出国内首部AIGC原创奇幻微短剧《山海奇镜之劈波斩浪》，结合传统魅力与现代科技，为观众带来震撼的观看体验。通过大模型技术支持，呈现升级后的视觉效果，推动微短剧行业发展，引领“AIGC+微短剧”新潮流。

【AiBase提要:】
🎬 快手推出国内首部AIGC原创奇幻微短剧《山海奇镜之劈波斩浪》
💡 微短剧以《山海经》为灵感来源，赛博风格复现上古神话世界中的神怪异兽和奇花异草
🌟 快手推出“星芒短剧×可灵大模型”创作者孵化计划，支持AIGC微短剧的创作
详细内容：https://www.aibase.com/news/10075

4、月之暗面推出 Kimi 浏览器插件支持点问笔、总结器等功能

Moonshot AI推出的Kimi浏览器插件为用户提供了点问笔和总结器两大功能，优化了用户在网页和应用中的体验。插件支持全局浮窗和侧边栏模式，方便用户在写作时进行持续对话和搜索。同时，Kimi还进行了体验优化，包括支持PDF文件打开、搜索引用溯源、内容复制等功能。双端同步更新还增加了计算器和问题推荐功能。

【AiBase提要:】
🖊️ 点问笔功能让用户通过划选文字获取即时解释和答疑
📝 总结器位于网页右下角，帮助用户快速总结全文内容
🔗 支持快捷键召唤Kimi，提供便捷操作和功能推荐
详情链接:https://kimi.moonshot.cn/extension/download

5、达摩院“寻光”炸场！可控编辑，轻松搞定AI视频工作流

AI视频创作领域迎来了一场革命性的变革，阿里达摩院推出的"寻光"平台在WAIC上震撼亮相，为创作者提供一站式AI视频创作解决方案，极大提高创作效率，重塑视频创作工作流。

【AiBase提要:】
✨ 一站式AI视频创作平台"寻光"推出，集剧本创作、分镜图设计、视频素材编辑于一体，简单高效
🔥 AI技术应用实现镜头角度调整、目标消除修改等一键完成，提升创作效率
💡 寻光平台支持剧本创作辅助、AI编辑功能、运镜控制、目标新增/消除/修改等多项强大功能
详情链接:https://top.aibase.com/tool/xunguangshipinchuangzuopingtai

6、书⽣·浦语2.5——InternLM2.5-7B模型宣布开源

2024年7月3日，上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式发布新一代大语言模型InternLM2.5-7B。该模型在推理能力、长文本支持和自主规划与工具调用方面有显著提升。

【AiBase提要:】
🚀 InternLM2.5-7B模型在推理能力方面表现出色，特别在数学评测集MATH上实现了100%的性能提升，准确率达到60%。
💬 模型支持处理高达1M tokens的上下文，优化了长文档理解与智能体交互。
🔍 具备搜索和整合上百个网页信息的能力，通过MindSearch多智能体框架，有效整合网络信息。
详情链接:https://github.com/InternLM/InternLM

7、阿里通义音频生成大模型 FunAudioLLM 开源支持情绪语音对话、有声读物等场景

阿里通义实验室最近开源了名为FunAudioLLM的音频生成大模型项目，旨在提升人类与大型语言模型（LLMs）间的自然语音交互体验。该项目包括两个核心模型: SenseVoice和CosyVoice，分别致力于语音生成和语音识别。FunAudioLLM支持多种人机交互应用场景，如多语言翻译、情绪语音对话、互动播客和有声读物等。

【AiBase提要:】
🔊 CosyVoice专注于自然语音生成，支持多语言、音色和情感控制，表现出色。
🔍 SenseVoice致力于高精度多语言语音识别和情感辨识，支持超过50种语言。
🔗 FunAudioLLM项目结合SenseVoice、LLMs和CosyVoice，支持无缝的语音到语音翻译和情感语音聊天应用程序。
详情链接:https://github.com/FunAudioLLM

8、清华大学开源CodeGeeX4-ALL-9B：多语言代码生成模型超越主要竞争对手

清华大学知识工程组和数据挖掘团队推出的CodeGeeX4-ALL-9B标志着代码生成模型发展的里程碑，具有无与伦比的性能、全面的功能和用户友好的集成，将推动软件开发的效率和创新。

【AiBase提要:】
🚀 CodeGeeX4-ALL-9B是CodeGeeX系列的最新创新成果，代表了多语言代码生成的巅峰，设定了新的性能和效率标准。
💡 模型拥有9.4亿个参数，在其类别中是最强大的之一，表现出色且具备仓库级别的代码问答功能，提高开发人员与代码库交互效率。
🔗 CodeGeeX4-ALL-9B在性能基准测试中表现卓越，超越了更大的模型，确立了自己作为领先模型的地位。
详情链接:https://huggingface.co/THUDM/codegeex4-all-9b

9、反AI图像盗窃工具Glaze需求量剧增吸引大批艺术家

Glaze工具应运而生，旨在保护艺术家的风格不被AI图像生成器抄袭。随着Meta计划利用用户数据进行AI训练，Glaze需求量急剧上升。然而，安全研究人员发现了绕过Glaze保护的方法，引发了对其有效性的质疑。

【AiBase提要:】
🖼️ 艺术家追捧的Glaze工具用于防范AI图像盗窃。
🔒 Glaze需求激增，因Meta计划利用用户数据进行AI训练。
⚙️ 安全研究人员发现绕过Glaze保护的方法，对其有效性产生质疑。
详情链接:https://top.aibase.com/tool/glaze

10、科幻照进现实？Open-TeleVision支持远程操控机器人

这篇文章介绍了加州大学圣地亚哥分校和麻省理工学院研究员们开发的Open-TeleVision项目，该项目实现了远程操控机器人的高科技场景，让人仿佛置身于电影《阿凡达》中。系统支持多种设备，提供沉浸式体验，通过VR头显实现隔空操控，极大地提升了操作的便捷性和真实感。

【AiBase提要:】
🌟 开源远程操作系统，支持多设备轻松上手，实时立体视频流让操控更精准。
🤖 通过VR头显模拟人类视觉和颈部活动，实现沉浸式体验，告别传统2D视频平庸。
🔧 使用逆运动学算法和Web平台实现高效远程操作，解决人形机器人自由度匹配问题，数据采集训练机器人自主完成任务。
详情链接:https://github.com/Improbable-AI/VisionProTeleop

11、中国AI论文数量全球第一，清华成论文发表热门之地

中国在全球人工智能研究领域以惊人速度崛起，论文数量占全球总量25%，位居世界第一，展现出在AI科技人才素质和技术创新能力上的重大突破。学术机构如中国科学院和清华大学超越世界顶尖学府，企业如谷歌、微软、腾讯、阿里巴巴在AI研究领域贡献突出，彰显中国AI研究的多元化和活力。

【AiBase提要:】
🌟 中国AI论文数量全球领先，占全球总量的25%，位居世界第一。
🏫 学术机构表现卓越，中国科学院和清华大学在AI论文被引用次数上超越了世界顶尖学府。
📈 企业贡献显著，谷歌、微软、腾讯、阿里巴巴等企业在AI研究领域贡献突出，展现了中国AI研究的多元化和活力。

12、AI 模型训练成本暴涨，2027 年或达 1000 亿美元！

据Anthropic首席执行官表示，当前AI模型训练成本高达10亿美元，未来三年有可能上升到100亿美元甚至1000亿美元。这一预测引发了人们对AI泡沫是否即将破裂的担忧。硬件和能源消耗成为训练成本的主要驱动因素，随着AI模型的发展，这两方面的支出将急剧增加。人力资源、数据采集和运行维护等方面也将耗费大量成本，如果这些问题不得到解决，2027年的AI训练成本有可能达到1000亿美元。

【AiBase提要:】
⭐ 当前AI模型训练成本高达10亿美元，未来三年有可能上升到100亿美元甚至1000亿美元。
⭐ 硬件和能源消耗成为训练成本的主要驱动因素，随着AI模型的发展，这两方面的支出将急剧增加。
⭐ 人力资源、数据采集和运行维护等方面也将耗费大量成本，如果这些问题不得到解决，2027年的AI训练成本有可能达到1000亿美元。

（举报）

相关推荐

关键词：

可灵

即梦VS可灵，谁能「对标」Sora2？

AI视频的战争，才刚刚开始。在生成式AI的大航海时代，文字、图像、代码的疆界已相继被重绘，唯独“视频”这一最复杂、最昂贵、最具传播势能的内容形态，始终处在被技术反复叩门却未彻底攻陷的高地。这个局面，似乎终于要被OpenAI在10月1日推出的Sora2而改变。

AI视频生成式AI Sora2
荐AI日报：接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵推最新视频生成模型可灵2.5Turbo

近日AI领域迎来多项重要更新：阿里夸克发布AI创作平台“造点”，整合通义万相Wan2.5与Midjourney V7，支持音画同步视频生成；Wan2.5-Preview实现多模态输入与电影级视频同步生成，提升视觉创作能力；可灵AI推出视频生成模型2.5Turbo并降价30%，降低使用门槛；阿里通义推出Qwen3-ASR-Toolkit，实现小时级音视频转录；谷歌相册AI编辑功能扩展至安卓用户，支持语音修图；谷歌Mixboard工具助力创意设计，生成情绪板；Qwen发布Qwen3-Max模型，在代码生成与智能体能力表现突出；Figma推出MCP服务器，实现设计到代码的一键转换，提升开发效率。

AI创作平台通义万相音画同步
可灵AI亮相釜山国际电影节技术实力获韩媒高度评价

9月20日，可灵AI亮相第30届釜山国际电影节，参与亚洲内容与电影市场论坛，与AWS、Google等全球科技企业探讨AI与影视叙事的融合创新。作为首个登上国际电影节的国产AI视频生成模型，可灵AI凭借卓越技术获韩国主流媒体高度评价，现场演示仅用几张照片即生成生动视频，展现高效低成本的影视制作能力。可灵AI还宣布将参与戛纳电视节、东京国际电影节，并启动全球AI影像创作大赛，推动行业交流与人才孵化。目前其生态已覆盖149个国家地区，服务超4500万创作者，彰显中国AI在影视领域的全球影响力与赋能决心。

可灵AI 釜山国际电影节 AI视频生成
普思可灵提醒辐射污染让人烦躁紧张

你是不是很久没有呼吸过新鲜空气了?你是不是在空调房间里呆得焦躁不安?你是不是很想住进刚装修好的房间，而又疑虑重重?人一生70%的时间是在室内度过的，室内空气质量的好坏直接决定了人体健康。可是，看不见的污染却无处不在。装饰材料和家具释放对人体非常有害的甲醛、苯等化学污染物质始终弥散在空气里。肉眼看不到它们，可是当它们一旦带上正电，随着空气中飘浮的灰尘成为正离子就能对人体造成损伤。正离子摄入人体就会削弱细胞

普思可灵
华为公开虚拟现实交互专利，用户可灵活操控VR场景

近日，华为技术有限公司公开“虚拟现实场景中的交互方法、装置及系统”专利，公开号CN112835445A，申请日期为2019年11月。

华为华为专利
医疗大模型Med-PaLM M：可灵活地编码和解释生物医学数据

由谷歌旗下多家研究所组成的专家团队近日发布论文，公布了一款名为Med-PaLMM的多模态模型。Med-PaLMM是一个大型多模态生成模型，可以灵活地编码和解释生物医学数据。这项研究对于未来基于人工智能的医疗解决方案具有积极的前景。
荐可灵，快手复仇的决心

“5毛钱一条视频，买不了吃亏，买不了上当。上来就送66灵感值。Sora、可灵的价值才能作为生产流程一环释放出来。

快手可灵AI 视频应用
成精了？百万外国网友围观猫咪做陶艺原来又是可灵的手笔（附可灵详细操作教程）

可灵在外网上也被玩出了花。除了各种表情包被重新演绎，上演一出出意外的结局外，连萌宠也逃不过大家的魔掌。打开即梦官网:https://top.aibase.com/tool/jimengdreamina在图片生成中简单输入“猫咪做陶瓷，背景是作坊”，模型选择通用v1.4然后就获得了以下照片，这里AIbase制作了2张二、图生视频这一步可以使用可灵或luma来制作可灵官网地址：https://top.aibase.com/tool/keling-ai制作非常简

AI会员教程
荐激进的可灵背后是一个内敛的快手

2024年上半年的AI视频生成赛道，快手毫无疑问是最大的赢家。视频生成大模型可灵在六月推出之后，凭借更高的可用性和更快的功能迭代，风头很快超过了将这个赛道推到舞台中心的Sora，也让快手在这一轮的大模型竞争中找到了属于自己的位置。这是可灵们更能抓住的机会。

可灵快手
Fast Track新型安全网关可灵活拓展高效防护第五代网络威胁

全新FastTrack网络安全解决方案套件可为各种规模的企业提供最高的威胁防御等级、超大规模按需扩展和统一的安全性2020 年 1 月 15 日，全球领先的网络安全解决方案提供商CheckPoint? 软件技术有限公司(纳斯达克股票代码：CHKP)今天宣布推出FastTrack网络安全解决方案，这套全新的解决方案能够为分支机构、企业数据中心等提供前所未有的防护、可扩展性以及轻松部署和控制的能力。根据IBM2019 年数据泄露成本研究，恶意攻击的生命周期

安全网关

今日大家都在搜的词：

热文

3 天
7天

AI日报：快手上线可灵网页端并开源可图Kolors；达摩院AI视频平台“寻光”炸场；月之暗面推Kimi浏览器插件

即梦VS可灵，谁能「对标」Sora2？

荐AI日报：接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵推最新视频生成模型可灵2.5Turbo

可灵AI亮相釜山国际电影节技术实力获韩媒高度评价

普思可灵提醒辐射污染让人烦躁紧张

华为公开虚拟现实交互专利，用户可灵活操控VR场景

医疗大模型Med-PaLM M：可灵活地编码和解释生物医学数据

荐可灵，快手复仇的决心

成精了？百万外国网友围观猫咪做陶艺原来又是可灵的手笔（附可灵详细操作教程）

荐激进的可灵背后是一个内敛的快手

Fast Track新型安全网关可灵活拓展高效防护第五代网络威胁

今日大家都在搜的词：

热文

卢伟冰官宣REDMI K90系列下周发布：不排斥和小米竞争

AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；S

微信回应出朋友圈访客功能：可能会让用户产生焦虑重申不会推出

苹果华为OPPO将推出eSIM手机 OPPO Find X9系列已确认将支持

REDMI K90 Pro Max外观公布：后置BOSE认证扬声器

知乎崩了上热搜：网页端完全无法进入 App端也未能幸免

华为nova 14活力版、nova Flip S官宣明天发布

红米REDMI K90 Pro Max丹宁色亮相采用第三代科纳皮设计

苹果14英寸MacBook Pro发布：售价12999元起首发苹果M5芯片

AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮

微信员工回应好友互删后互动清除：并非新版本特性

AI日报：LiblibAI 2.0正式上线；通义千问、豆包开启记忆功能；

董明珠称格力向特斯拉提供服务已有近14万项专利技术

微信回应人去世了朋友圈会消失吗：长时间不使用账号已不再回收

卢伟冰调侃还有小米6钉子户：小米6机主宣布换机小米17

京东回应下场造车：不直接涉及制造三方联合推出

库克下月满65岁苹果或迎特努斯时代：有望执掌十年以上

Windows 10即将“停服”上热搜微软建议用户升级Win 11

AI日报：阿里发布紧凑型Qwen3-VL模型；科大讯飞AI翻译耳机全球

小米推出短剧App围观短剧：主打无广告免费看

站长商机