首页 > 业界 > 关键词  > CogVideoX最新资讯  > 正文

AI日报:智谱开源清影同源“兄弟”CogVideoX;阿里通义App推出角色扮演功能;即梦视频生成推动效画板功能;OpenAI领导层大动荡!

2024-08-06 16:20 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、智谱AI宣布开源「清影」同源视频生成模型——CogVideoX

智谱AI宣布开源了CogVideoX视频生成模型,旨在推动视频生成技术的发展和应用。该模型采用先进的大型模型技术,具备商业级应用需求,实现了高效的推理和微调,结合3D VAE技术和Transformer技术,生成高质量视频内容。智谱AI通过筛选高质量视频数据和处理视频字幕问题,确保模型训练数据质量。CogVideoX在性能评估方面表现优异,将继续探索视频生成领域的创新。

image.png

【AiBase提要:】

⚙️ CogVideoX模型基于大型模型技术,满足商业级应用需求,推理和微调效率高

🔍 CogVideoX采用3D VAE技术和Transformer技术,生成高质量视频内容

📈 智谱AI通过筛选高质量视频数据和解决视频字幕问题,确保模型训练数据质量,性能评估优异

详情链接:https://github.com/THUDM/CogVideo

2、阿里通义App推出角色扮演功能

阿里通义App最新推出了创新的角色扮演功能,用户可一键替换视频中的人物。这一功能源自阿里通义实验室推出的Motionshop模型,吸引全球创作者关注。Motionshop已产品化并免费集成到通义App,拓展视频创作和动画制作领域。通义App将在9月推出自定义角色功能,丰富用户创作体验。

image.png

【AiBase提要:】

🎭 角色扮演功能让用户一键替换视频人物,源自阿里通义实验室的Motionshop模型

🌐 Motionshop融合多种先进技术,允许用户在动态视频中实现现实与虚拟转换

💡 传统人物替换依赖路径追踪渲染,Motionshop提升效率并保持渲染质量

3、即梦视频生成推动效画板功能

即梦最新推出的动效画板功能让用户可以精确控制视频中物体的运动轨迹和结束状态,提升视频输出质量。这项功能支持框选或手动选择背景或主体,自动识别并节省用户时间。用户可以自由描绘运动轨迹,设置结束状态框位置,输出视频时长为4秒或6秒,创意无限。

【AiBase提要:】

✨ 动效画板功能让用户精确控制视频物体运动轨迹和结束状态,提升输出质量。

🎨 支持自由描绘运动轨迹,设置结束状态框位置,创意表现更丰富。

⏱ 视频输出时长可选4秒或6秒,满足不同创作需求。

产品入口:https://top.aibase.com/tool/jimengdreamina

详细内容点此查看:https://www.aibase.com/zh/news/10847

4、钉钉推出“AI 迎新百事通”:10分钟即可定制校园智能迎新助手

钉钉推出了名为“AI 迎新百事通”的智能化迎新解决方案,专为高校开学季设计,以提升新生入学的安全性和便捷性,并减轻教职员工的工作负担。该方案基于钉钉AI助理和知识库,能在10分钟内为学校定制一个全天候的智能迎新助手,7×24小时回答新生关于入学流程、校园生活和学习资源的问题。

image.png

【AiBase提要:】

⭐ 高校开学季定制智能迎新助手,提升新生入学安全便捷,减轻教职员工工作负担。

⭐ 覆盖新生导入期、入校前、入校中、入校后四个关键阶段,提供全面迎新服务。

⭐ 体现数智化理念,预示高校数智化管理趋势,推动高等教育管理智能化、人性化发展。

详情链接:https://alidocs.dingtalk.com/notable/share/form/v01AJdl6406WLx2qke1_dv19yqvsgs3oebp3pcjys_1qX0QQ0?dontjump=true

5、月之暗面回应腾讯参与 Kimi3亿美元融资

这篇文章报道了腾讯参与中国人工智能独角兽企业月之暗面科技有限公司的融资事件,引起了关注。月之暗面作为大模型创业公司的佼佼者,由清华大学教授创立,汇聚了全球顶级人才和技术。公司融资规模巨大,股东包括阿里巴巴、红杉中国等知名机构。Kimi智能助手在国内AI聊天机器人中表现突出,访问量持续增长。

image.png

【AiBase提要:】

🚀 月之暗面科技有限公司由清华大学教授创立,汇聚全球顶级人才和技术。

💰 公司融资规模巨大,腾讯参与的3亿美元融资引发关注,估值达到30亿美元。

🤖 Kimi智能助手在国内AI聊天机器人中表现突出,访问量持续增长,成为访问量第一的AI聊天机器人。

6、玩法升级!Runway Gen-3Alpha图生视频新增首尾帧功能

Runway在AI生成视频领域迈出重要一步,支持图像作为视频生成的首尾帧,提高艺术控制能力。这一功能解决了AI视频创作中的关键挑战,受到用户认可。Runway与其他竞争者竞争激烈,但公共可用性带来优势。新功能解决AI生成视频连贯性和艺术意图挑战,有望在商业应用中有重要价值。Runway正处关键时刻,谈判中或筹集巨额资金,技术意义深远,可能重塑行业。

【AiBase提要:】

⚙️ 图像作为视频生成首尾帧,提高艺术控制能力

🔑 解决AI视频创作关键挑战,获得用户认可

💡 新功能有望在商业应用中有重要价值

详情链接:https://top.aibase.com/tool/runwayml

7、小米14、K70等将推澎湃OS全AI功能

小米公司宣布推出全新全AI功能,用户无需申请内测资格即可体验。全AI功能涵盖小爱输入助手、AI写真、AI搜图等多个方面。灰度测试将从本月开始,逐步推送至不同机型。暂时无法体验的用户需耐心等待。

【AiBase提要:】

🚀 小米公司宣布推出全新全AI功能,用户无需申请内测资格即可体验。

🔍 全AI功能涵盖小爱输入助手、AI写真、AI搜图等多个方面。

📱 灰度测试将从本月开始,逐步推送至不同机型。暂时无法体验的用户需耐心等待。

8、ControlMM:文字、语音、音乐多模态输入生成全身动作

香港中文大学和腾讯联合推出的技术框架ControlMM实现了全身动作生成的新突破,支持多模态输入,解决了全身多模态运动生成中的诸多难题。通过创新方法和新基准的推出,ControlMM在各项标准运动生成任务中表现出色,具有优越的生成效果。

image.png

【AiBase提要:】

🔥 多模态控制: ControlMM支持文本、语音、音乐等多种模态进行全身运动生成,增强了控制能力和适应性。

⚙️ 统一框架: 采用统一的ControlMM框架,整合了多种运动生成任务,提高了生成效率。

🎯 分阶段训练策略: 通过粗到细的训练策略,确保模型在不同粒度条件下的有效性。

详情链接:https://top.aibase.com/tool/controlmm

9、三星开始大规模生产用于设备端AI的内存芯片

三星宣布量产业内最薄的LPDDR5X DRAM芯片,厚度仅相当于指甲的薄度,以满足移动设备上的AI需求。新款内存不仅薄至0.65毫米,热阻性能提升21.2%,还展现出色的性能表现。三星计划扩大低功耗DRAM市场,推出更多高性能、高密度的内存解决方案。

【AiBase提要:】

🌟 三星开始量产超薄LPDDR5X DRAM芯片,旨在满足移动设备上的AI需求。

📏 新款内存厚度仅0.65毫米,比前代产品更薄,热阻性能显著提升。

📈 三星计划扩大低功耗DRAM市场,推出更多高性能、高密度的内存解决方案。

10、英伟达被曝秘密抓取 YouTube 视频数据训练AI

英伟达近期被曝光秘密抓取大量YouTube视频数据用于训练人工智能模型,引发法律和伦理问题。管理层态度大胆自信,认为行为获得全面批准。谷歌指出未经许可使用YouTube数据违反服务条款,英伟达回应引发争议。

【AiBase提要:】

📹 英伟达秘密抓取大量 YouTube 视频数据进行 AI 训练,法律和伦理问题引发关注。

💻 内部邮件显示,英伟达高管认为这一行为获得了全面批准,态度相当大胆。

📜 谷歌指出,未经许可使用 YouTube 数据明显违反平台服务条款,英伟达的回应引发争议。

11、AI芯片创业公司Groq获6.4亿美元融资 估值28亿美元

Groq成功获得6.4亿美元融资,估值达到28亿美元,意在挑战Nvidia的市场地位。该公司专注于开发语言处理单元(LPU),具备出色的处理速度和能源效率。Groq积极拓展市场,与多家公司建立合作关系,努力成为AI芯片行业的有力竞争者。

【AiBase提要:】

🌟 Groq获得6.4亿美元融资,估值28亿美元,意在挑战Nvidia的市场地位。

⚡ Groq的语言处理单元(LPU)专为AI工作负载设计,具备出色的处理速度和能源效率。

🌍 Groq积极布局政府和国际市场,与多家公司建立合作关系,扩展市场影响力。

12、苹果AI功能指令曝光 揭示iOS和macOS未来AI助手细节

苹果公司最新开发者测试版加入多项生成式AI功能,包括邮件助手、文本重写、邮件摘要、照片回忆和消息总结。这些功能揭示了苹果未来AI助手的工作方式,但用户需谨慎探索敏感区域。iOS和macOS新版本推出后,将体验这些AI功能。

image.png

【AiBase提要:】

📧 邮件助手:AI根据邮件内容提出问题,可能智能回复一部分。

📝 文本重写:AI限制回答在50字内,禁止幻觉或编造事实。

📬 邮件摘要:AI用三句话不超过60字总结邮件内容,不回答问题。

13、OpenAI领导层大动荡!两个联合创始人一个离职、一个延长休假

OpenAI的管理层出现重大变动,总裁兼联合创始人Greg Brockman宣布休假至年底,另一联合创始人John Schulman加入竞争对手Anthropic。这一变动意味着公司经历新的调整,尤其在经历多次高管变动后。

【AiBase提要:】

🌟 Greg Brockman宣布休假至年底,Schulman转投竞争对手Anthropic。

🚀 今年以来OpenAI管理层变动频繁,已离职多名高管。

💡 Schulman被誉为ChatGPT的“设计师”,但他表示这要归功于整个团队的努力。

14、零一万物01AI旗下Yi API宣布 Function Call 功能上线

Yi API推出具有Function Call功能的Yi-Large-FC模型,实现平滑替代GPT的能力,对构建AI Agent系统至关重要,展现高性能在API调用场景中的表现。Yi系列大模型已成为企业探索新业务和验证AI-first产品的首选。零一万物持续推出新工具,如RAG和Function Call,提供更易用、更深入、更安全稳定的解决方案。

image.png

【AiBase提要:】

🚀 Yi-Large-FC模型具有Function Call功能,可根据用户输入判断何时调用外部工具,并以JSON格式响应,兼容OpenAI接口设计,实现平滑替代GPT的能力。

💡 Function Call能力对于构建AI Agent系统至关重要,特别适用于实时信息处理、专用任务处理、自动化工作流程和增强模型能力的场景。

💼 Yi-Large-FC在BFCL排名全球第六,在Exec摘要得分排行中位列世界第二,展现出在实际API调用场景中的高性能

举报

  • 相关推荐
  • 大家在看
  • ContentRadar:AI驱动的内容管理工具,提升内容营销效率。

    ContentRadar是一个AI驱动的内容管理工具,旨在帮助用户更高效地创建、管理和发布内容。它通过简化内容创作和发布流程,使个人和团队能够专注于策略而非日常操作。产品背景信息显示,ContentRadar由一群在欧盟和美国的优秀投资者、创始人和运营者支持,这为其提供了强大的背书。产品价格方面,ContentRadar提供了免费计划以及付费的Early Adopter Plan,后者提供了更多高级功能。

  • Zight AI:提升视频生产力,让视频内容更易搜索和互动。

    Zight AI 是一款旨在提高视频内容生产力和互动性的人工智能工具。它通过自动生成视频标题、视频摘要、自动转录及翻译字幕等功能,极大地节省了用户编辑视频时的时间,提高了视频的可访问性和搜索性。Zight AI Video支持50多种语言的转录和翻译,使得视频内容能够跨越语言障碍,触及更广泛的观众。此外,它还计划推出智能章节功能,自动将视频内容分割并命名,进一步提升视频的组织和导航效率。产品定价为每月5美元/用户,提供自动转录、视频标题生成、视频描述自动摘要等功能,目前仅支持英语摘要。

  • Zigma:轻松创建、管理和记录设计系统。

    Zigma是一个旨在将设计和开发工作流程紧密结合的平台,它通过提供工具来创建、管理和记录设计系统,从而简化了设计和开发的协作过程。该平台的主要优点在于其易用性,能够帮助团队更高效地工作,确保设计的一致性和可复用性。Zigma由NextUI Inc.开发,得到了Y Combinator的支持,是一个面向设计师和开发者的生产力工具。

  • SpeedNote AI:使用AI将杂乱无章的笔记转换成清晰易读的文本。

    SpeedNote AI是一款利用人工智能技术,帮助用户将打字时的错字、格式混乱的笔记快速整理成清晰、格式规范的文本。它特别适合需要快速记录和整理笔记的场景,如课堂、会议、写作等。产品通过AI技术自动识别和纠正错误,提高笔记的可读性和效率。

  • Fujiyama:AI日语对话学习应用

    Fujiyama是一款利用人工智能技术,专为日语对话学习设计的应用程序。它通过AI聊天、语音对话和视觉学习等功能,帮助用户随时随地练习实用的日语对话。Fujiyama通过AI教师反馈、短时高效学习结构、字符书写练习等功能,全面提高用户的日语听说读写能力。

  • Kitchen & Pantry Tracker:厨房管理助手,智能追踪食品库存。

    Kitchen & Pantry Tracker 是一款专为厨房管理设计的应用程序,通过智能库存管理和食品识别技术,帮助用户有效管理食品存储,减少浪费,并简化购物清单管理。该应用利用AI技术识别购物袋中的物品,并通过条形码扫描快速添加食品至库存。此外,它还提供到期提醒功能,确保食品新鲜,并优化用户体验,使其成为厨房管理的得力助手。

  • Ouro:分享数字商品和服务,发现内在价值

    Ouro是一个平台,它允许用户分享和货币化他们的数字商品和服务,包括外部API、数据集、图像、视频等。通过利用AI技术,Ouro旨在提高用户的生产力,并通过共享专业知识实现财务自由。该平台支持各种数字内容的分享和货币化,并提供了一个社交化的工作环境,以促进社区支持和协作。

  • Sparky:AI驱动的日记应用,助你专注自我成长。

    Sparky是一个AI驱动的日记应用,旨在帮助用户通过记录和反思来提高个人生产力和生活质量。通过智能引导和个性化的反馈,Sparky鼓励用户专注于自我成长,从而实现更有意义的生活。产品背景信息显示,Sparky通过AI技术,为用户的日常任务和习惯管理提供支持,同时通过个性化的反思帮助用户更好地理解自己,促进个人发展。

  • LLaMA-Omni:低延迟、高质量的端到端语音交互模型

    LLaMA-Omni是一个基于Llama-3.1-8B-Instruct构建的低延迟、高质量的端到端语音交互模型,旨在实现GPT-4o级别的语音能力。该模型支持低延迟的语音交互,能够同时生成文本和语音响应。它在不到3天的时间内使用仅4个GPU完成训练,展示了其高效的训练能力。

  • AI奇点网:AI工具箱和AI资讯平台

    AI奇点网是一个专注于AI工具测评、AI应用案例分享、AI学习资源的综合性平台。它提供了丰富的AI工具和资讯,帮助用户了解和应用最新的人工智能技术,推动AI技术的普及和应用。

  • Question:智能问答系统,提供深入见解和答案。

    Question.ai是一个智能问答系统,能够理解并回答用户的各种问题。它使用先进的自然语言处理技术,提供准确、及时的信息。该系统的主要优点是能够处理复杂的查询,并以易于理解的方式提供答案。它适合需要快速、准确信息的用户,无论是个人还是企业。目前,该产品提供免费试用,但具体的定价信息尚未提供。

  • poolside:为软件工程挑战打造的先进基础AI模型

    poolside是一个为软件工程挑战而构建的先进基础AI模型,它通过在用户代码上进行微调,学习项目的独特之处,以理解通用模型无法理解的复杂性。它建立在poolside基础之上,每天都能变得更好。除了先进的代码编写模型,poolside还构建了一个直观的编辑器助手,并提供了一个开发者可以构建的API。poolside由Jason Warner和Eiso Kant于2023年4月创立,他们之前在AI和软件工程领域有着丰富的经验。

  • DataGemma RIG:用于检索和生成结合统计数据的文本模型

    DataGemma RIG是一系列微调后的Gemma 2模型,旨在帮助大型语言模型(LLMs)访问并整合来自Data Commons的可靠公共统计数据。该模型采用检索式生成方法,通过自然语言查询Data Commons的现有自然语言接口,对响应中的统计数据进行注释。DataGemma RIG在TPUv5e上使用JAX进行训练,目前是早期版本,主要用于学术和研究目的,尚未准备好用于商业或公众使用。

  • 有道AI PPT:智能PPT创作工具,一键生成专业演示文稿。

    有道AI PPT是一款基于人工智能技术的演示文稿创作工具,它通过理解用户输入的文本内容或主题,快速生成具有专业设计的PPT幻灯片。该产品利用先进的AI算法,简化了PPT的制作流程,提高了工作效率,尤其适合需要快速制作演示文稿的用户。产品背景信息显示,有道AI PPT由网易有道推出,依托于网易在人工智能领域的深厚技术积累。目前,产品提供有限次数的免费体验,具体价格和定位信息需要登录后查询。

  • DataGemma:连接大型语言模型与谷歌数据共享平台,减少AI幻觉现象。

    DataGemma是世界上首个开放模型,旨在通过谷歌数据共享平台的大量真实世界统计数据,帮助解决AI幻觉问题。这些模型通过两种不同的方法增强了语言模型的事实性和推理能力,从而减少幻觉现象,提升AI的准确性和可靠性。DataGemma模型的推出,是AI技术在提升数据准确性和减少错误信息传播方面的重要进步,对于研究人员、决策者以及普通用户来说,都具有重要的意义。

  • 汉语新解TextHuman:AI生成汉语词汇新颖解释及图像。

    汉语新解是一个基于AI技术的项目,它使用李继刚的Prompt模板对中文名词进行二次翻译,并生成美观的图像。该项目不仅提供了智能词汇解释功能,还支持SVG图像生成,使得每个解释都配有独特的视觉化展示。此外,它还提供了预设模板、图像下载与复制功能,以及响应式设计,以适配不同设备的屏幕,提供流畅的用户体验。

  • Bossjob App:东南亚首个聊天式职业平台,直接与老板对话,快速求职。

    Bossjob是一款面向东南亚市场的聊天式求职平台,它通过直接聊天和技能匹配的方式,为求职者和雇主提供快速、高质量的求职和招聘流程。该平台特别适合那些希望简化求职流程、快速找到工作机会的专业人士,以及希望快速招聘合适人才的雇主。Bossjob的主要优点包括AI驱动的职位匹配、直接与雇主聊天、灵活的工作选择(远程、混合或现场工作)以及快速的招聘流程。

  • seed-vc:零样本声音转换技术,实现音质与音色的高保真转换。

    seed-vc 是一个基于 SEED-TTS 架构的声音转换模型,能够实现零样本的声音转换,即无需特定人的声音样本即可转换声音。该技术在音频质量和音色相似性方面表现出色,具有很高的研究和应用价值。

  • 文字卡片生成器:AI驱动的创意文字卡片生成工具

    文字卡片生成器是一款利用人工智能技术,为用户提供创意文字卡片生成服务的在线工具。用户只需输入一个词语,AI即可在几秒钟内生成一张独特的文字卡片,卡片内容包含对输入词语的幽默或深刻点评。该产品以其快速生成、高质量输出、个性化定制等特点,满足了用户在社交媒体分享、创意表达等方面的需求。

  • Zion:无代码开发平台,快速搭建个性化应用

    Zion是一个无代码开发平台,它通过提供预置的大模型和完善的生态服务体系,使得用户无需编写代码即可构建AI应用、SaaS应用和消费级应用。该平台支持高效的运维方式和多端发布,包括网页、H5、小程序等,同时提供API连接、可视化开发、数据模型管理后台等功能,以满足不同业务场景的需求。Zion的目标是降低AI应用的使用成本和复杂度,提升开发效率,帮助用户快速实现数字化转型。

今日大家都在搜的词:

热文

  • 3 天
  • 7天