首页 > 业界 > 关键词  > Krea最新资讯  > 正文

AI日报:效果炸裂!Krea Video向所有人开放;阿里花8亿入股Kimi;Arc Search可以打电话了;腾讯智影声音大模型升级

2024-05-24 15:34 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、Krea AI视频生成工具向所有人开放

Krea AI最近宣布Krea Video视频生成工具已对所有人开放,进入公测阶段。该工具结合关键帧和文本提示,提供灵活视频创作方式。用户可调整关键帧、文本提示、视频持续时间和纵横比,制作多样化视频。生成过程分为预览和增强两阶段,可随时取消。Krea Video为视频创作者提供简单高效的创作工具。

image.png

【AiBase提要:】

⏳ 灵活创作:结合关键帧和文本提示,用户可调整视频外观和内容

🔄 多样化效果:调整纵横比、移动效果,制作循环播放视频

🚀 高效生成:分预览和增强阶段,随时取消生成过程

产品入口:https://top.aibase.com/tool/krea-video

详情:https://www.chinaz.com/2024/0524/1618876.shtml

2、腾讯智影宣布声音模型大升级

腾讯智影宣布声音模型大升级,新版本声音更加自然连贯,具有更丰富的语调和情感,减少了语音瑕疵的出现概率,并能更好地适应不同文本内容和语境。智影推出两款免费新音色,适用于对话闲聊场景。声音定制效果也升级,让用户在创作配音作品时体验更加优质的声音效果。

【AiBase提要:】

🔊 更自然流畅,语调情感更丰富,减少语音瑕疵

🎙️ 推出热情似火的女声和可爱亲切的女声音色

🎧 声音定制效果升级,采样率从16K升级到24K

3、Arc Search推出全新功能CALL ARC

Arc Search最近推出了一个全新的功能——CALL ARC,允许用户通过自然语言的方式随时随地获得问题的答案。这一功能极大地方便了用户在各种场景下快速获取信息的需求。用户可以通过Arc Search随时随地获取所需信息,享受科技带来的便利和乐趣。

image.png

【AiBase提要:】

🔍 Arc Search推出CALL ARC功能,用户可以通过自然语言获得问题答案,方便快捷。

📱 CALL ARC可通过Siri Ultra进行操作,适用于Apple生态系统设备,无需额外应用。

✉️ CALL ARC功能提升了灵活性和实用性,用户可保存笔记、发送消息,改变信息获取方式。

4、阿里投资Kimi AI 开发商月之暗面8亿美元 持股36%

阿里巴巴集团在2024财年投资月之暗面(Moonshot AI)约8亿美元,持股36%,强调人工智能对业务增长和变革的核心作用。公司高层表示,AI将带来前所未有的机遇和挑战,推动企业创新和价值创造。AI不是威胁,而是驱动力,未来十年将颠覆各行业,要跟上AI的进步才能不被取代。

【AiBase提要:】

🚀 阿里首次披露对月之暗面投资情况,投资约8亿美元持股36%。

💡 阿里高层认为AI是业务增长和变革的核心力量,将为企业带来机遇和挑战。

💰 AI部署将增加计算需求,推动阿里云增长,AI作为用户体验和商业模式的驱动力将带来巨大机遇。

5、AI图案生成器Ideogram Tile

Ideogram Tile是一款AI生成的图案生成器,能够从文本提示中创建无缝重复的图案,为设计师、艺术家和企业开辟了无限可能。这一新功能的推出标志着AI驱动设计行业迈出了重要一步。

image.png

【AiBase提要:】

⭐ Ideogram Tile让用户可以轻松生成复杂的墙纸、沉浸式景观和无尽的纹理,无需专业设计技能。

⭐ Ideogram Tile的推出意味着AI驱动设计行业迈出了重要一步,激发了室内设计、时尚和游戏等多个领域的新创意方向。

⭐ Ideogram Tile的推出进一步巩固了公司在生成AI领域的先驱地位,为未来的创新奠定了基础。

详情链接:https://top.aibase.com/tool/ideogram-ai

6、Pandora:根据自然语言指令生成动作和视频的通用世界模型

Pandora是通向通用世界模型(GWM)的重要一步,通过自然语言动作和视频状态的模拟生成,实现了对未来的自主控制,为交互式内容生成、强大的推理和规划能力提供了支持。

image.png

【AiBase提要:】

🔍 Pandora实现了对未来的自主控制,用户可以通过自由文本输入动作来实时控制视频内容。

🔍 Pandora能够生成多个替代未来的视频,让用户能够自主控制未来的发展方向。

🔍 Pandora在不同领域中实现迁移学习,通过高质量数据指导和训练,模型学习有效的动作控制。

详情链接:https://top.aibase.com/tool/pandora

7、AI视频编辑方法ReVideo:可局部修改视频内容和运动轨迹

本文介绍了一种名为ReVideo的AI视频编辑方法,通过指定内容和运动实现精确的视频编辑。该方法采用三阶段训练策略和时空自适应融合模块,具有出色的编辑效果。研究人员解决了内容和运动控制之间的耦合和训练不平衡问题,提出了逐步解耦的训练策略。实验证明ReVideo在准确的视频编辑应用方面性能优秀,推动了视频编辑领域的发展。

image.png

【AiBase提要:】

🔍 新颖方法实现精确视频编辑,同时指定内容和运动

🔍 三阶段训练策略和时空自适应融合模块集成内容和运动控制

🔍 逐步解耦训练策略解决内容和运动控制耦合和训练不平衡问题

详情链接:https://top.aibase.com/tool/revideo

8、每周节省7800万工时!ChatGPT等成美国降本增效利器

本文介绍了Pearson plc发布的关于生成式AI如何帮助人们提升工作效率节省时间的深度研究报告。报告分析了美国、英国、澳大利亚、巴西和印度5个国家,在2026年前,美国将节省最多时间,达每周7800万工时。生成式AI在10个领域具有显著节省时间的应用,包括维护健康记录、专业知识学习、教育课程制定等。文章还提供了使用案例和企业员工应对生成式AI的建议。

【AiBase提要:】

🔍 生成式AI可帮助节省大量工时,美国每周可节省7800万工时,印度排名第二。

💡 10个领域中,维护健康记录、专业知识学习、教育课程制定等可节省大量工时。

🚀 企业应将生成式AI视为提升员工、企业价值的常规工具,制定明确的使用规则和指南。

9、Nvidia首席执行官Jensen Huang强调GenAI初创公司激增

Nvidia首席执行官Jensen Huang在财报电话会议中指出,有20,000家GenAI初创公司正在其加速计算平台上开发,需求激增导致供应短缺,预计持续至2024年。公司积极推进以太网网络拓展人工智能计算领域,取得数据中心和游戏领域突破性增长。

【AiBase提要:】

⭐ 20,000家GenAI初创公司在Nvidia加速计算平台上开发,需求激增导致供应短缺,预计持续至2024年。

⭐ Nvidia积极推进以太网网络,拓展人工智能计算领域,以太网是进军数据中心网络的重要机遇。

⭐ 数据中心业务是Nvidia增长的主要驱动力,第一季度营收达260亿美元,同比增长262%,游戏领域营收也有18%增长。

10、研究发现 52% 的 ChatGPT 编程问题回答错误

这篇文章揭示了人工智能 ChatGPT 在生成编程问题答案中存在的严重问题,其中有52% 的答案是错误的。尽管 ChatGPT 的回答在语言上更正式和分析性更强,但却存在信息不准确、冗长和与人类答案不一致的情况。然而,令人担忧的是,许多人类程序员更偏好使用 ChatGPT 的答案,这可能是因为其礼貌和愉快的语气给人留下更好的印象。

【AiBase提要:】

🚫 52% 的 ChatGPT 编程问题回答错误

🔍 ChatGPT 的回答语言更正式和分析性更强,但存在信息不准确、冗长和与人类答案不一致的问题

👩‍💻 许多人类程序员更偏好使用 ChatGPT 的答案

11、FCC对电话骗子罚款600万美元,利用声音克隆技术冒充拜登总统进行非法电话骚扰

文章报道了美国FCC对一名电话骗子罚款600万美元的事件,该骗子利用声音克隆技术冒充总统拜登进行非法电话骚扰,引发了关于电话骚扰与人工智能关系的讨论。FCC强调警告其他潜在高科技诈骗者遵守电话骚扰法规,尤其是使用生成式人工智能技术。

【AiBase提要:】

⭐ FCC对电话骗子罚款600万美元,利用声音克隆技术冒充拜登总统进行非法电话骚扰

⭐ FCC强调警告其他潜在高科技诈骗者,要求遵守电话骚扰法规,尤其是使用生成式人工智能技术

⭐ 骗子利用声音克隆技术在新罕布什尔州初选期间冒充总统拜登进行电话骚扰,涉案者应对多项违规行为接受指控

举报

  • 相关推荐
  • 大家在看
  • Nemotron-4-340B-Reward:多维奖励模型,助力构建自定义大型语言模型。

    Nemotron-4-340B-Reward是由NVIDIA开发的多维奖励模型,用于合成数据生成管道,帮助研究人员和开发者构建自己的大型语言模型(LLMs)。该模型由Nemotron-4-340B-Base模型和一个线性层组成,能够将响应末尾的标记转换为五个标量值,对应于HelpSteer2属性。它支持最多4096个标记的上下文长度,并能够对每个助手轮次的五个属性进行评分。

  • Nemotron-4-340B-Instruct:NVIDIA的高级语言模型,优化于英文对话场景。

    Nemotron-4-340B-Instruct是由NVIDIA开发的大型语言模型(LLM),专为英文单轮和多轮对话场景优化。该模型支持4096个token的上下文长度,经过监督式微调(SFT)、直接偏好优化(DPO)和奖励感知偏好优化(RPO)等额外的对齐步骤。模型在约20K人工标注数据的基础上,通过合成数据生成管道合成了超过98%的用于监督微调和偏好微调的数据。这使得模型在人类对话偏好、数学推理、编码和指令遵循方面表现良好,并且能够为多种用例生成高质量的合成数据。

  • BookSlice:让阅读更有趣,用游戏化的方式增加阅读量。

    BookSlice是一款面向忙碌人群的游戏化阅读应用,通过心理学原理帮助用户建立阅读习惯,并通过设置每日挑战来维持阅读连续性。它利用实施意图、习惯叠加等心理工具,使阅读变得习惯性和上瘾。此外,BookSlice还提供AI问答功能,帮助用户在阅读过程中获得上下文答案。

  • agentUniverse:基于大型语言模型的多智能体应用开发框架

    agentUniverse 是一个基于大型语言模型的多智能体应用开发框架,提供了构建单一智能体和多智能体协作机制的所有必需组件。通过模式工厂,允许开发者构建和自定义多智能体协作模式,轻松构建多智能体应用,并分享不同技术与业务领域的模式实践。

  • HunyuanDiT Distillation Acceleration:高性能图像生成模型的蒸馏加速版本

    HunyuanDiT Distillation Acceleration 是腾讯 Hunyuan 团队基于 HunyuanDiT 模型开发的蒸馏加速版本。通过渐进式蒸馏方法,在不降低性能的情况下,实现了推理速度的两倍提升。该模型支持多种GPU和推理模式,能够显著减少时间消耗,提高图像生成效率。

  • WonderWorld:从单张图片生成交互式3D场景

    WonderWorld是一个创新的3D场景扩展框架,允许用户基于单张输入图片和用户指定的文本探索和塑造虚拟环境。它通过快速高斯体素和引导扩散的深度估计方法,显著减少了计算时间,生成几何一致的扩展,使3D场景的生成时间少于10秒,支持实时用户交互和探索。这为虚拟现实、游戏和创意设计等领域提供了快速生成和导航沉浸式虚拟世界的可能性。

  • ChatTTS_Speaker:基于ERes2NetV2模型的音色稳定性评分与音色打标。

    ChatTTS_Speaker是一个基于ERes2NetV2说话人识别模型的实验性项目,旨在对音色进行稳定性评分和音色打标,帮助用户选择稳定且符合需求的音色。项目已开源,支持在线试听和下载音色样本。

  • fastc:轻量级文本分类工具,使用大型语言模型嵌入。

    fastc是一个基于大型语言模型嵌入的简单且轻量级的文本分类工具。它专注于CPU执行,使用高效的模型如deepset/tinyroberta-6l-768d生成嵌入。通过余弦相似度分类代替微调,实现文本分类。它还可以在不增加额外开销的情况下,使用相同的模型运行多个分类器。

  • MeshAnything:3D资产的自动生成工具

    MeshAnything是一个利用自回归变换器进行艺术家级网格生成的模型,它可以将任何3D表示形式的资产转换为艺术家创建的网格(AMs),这些网格可以无缝应用于3D行业。它通过较少的面数生成网格,显著提高了存储、渲染和模拟效率,同时实现了与先前方法相当的精度。

  • HunyuanDiT-v1.1:多分辨率扩散变换器,支持中英文理解

    HunyuanDiT-v1.1是由腾讯Hunyuan团队开发的一款多分辨率扩散变换模型,它具备精细的中英文理解能力。该模型通过精心设计的变换器结构、文本编码器和位置编码,结合从头开始构建的完整数据管道,实现数据的迭代优化。HunyuanDiT-v1.1能够执行多轮多模态对话,根据上下文生成和细化图像。经过50多名专业人类评估员的全面评估,HunyuanDiT-v1.1在中文到图像生成方面与其他开源模型相比,达到了新的最先进水平。

  • UniAnimate:高效生成一致性人物视频动画的模型

    UniAnimate是一个用于人物图像动画的统一视频扩散模型框架。它通过将参考图像、姿势指导和噪声视频映射到一个共同的特征空间,以减少优化难度并确保时间上的连贯性。UniAnimate能够处理长序列,支持随机噪声输入和首帧条件输入,显著提高了生成长期视频的能力。此外,它还探索了基于状态空间模型的替代时间建模架构,以替代原始的计算密集型时间Transformer。UniAnimate在定量和定性评估中都取得了优于现有最先进技术的合成结果,并且能够通过迭代使用首帧条件策略生成高度一致的一分钟视频。

  • LVBench:长视频理解基准测试

    LVBench是一个专门设计用于长视频理解的基准测试,旨在推动多模态大型语言模型在理解数小时长视频方面的能力,这对于长期决策制定、深入电影评论和讨论、现场体育解说等实际应用至关重要。

  • Mo:通过卡片式学习,轻松掌握AI科技知识。

    Mo是一款结合超现实主义艺术和堂吉诃德理想主义精神的AI科技学习APP。它通过卡片形式,以图文、动画、视频、语音等多样化内容,使AI和科技知识的学习变得生动有趣。Mo不仅覆盖了AI的基础知识,还包含了元宇宙、大数据、大模型等前沿技术,适合各种背景的学习者,旨在打造一个个性化的学习体验。

  • 开搜AI搜索:面向大众的AI问答搜索引擎

    开搜AI问答搜索引擎是一款面向大众的、直达答案的AI问答搜索引擎,它能够帮助用户从海量的文献资料中筛选出有用的信息,提供直接、精准的答案,并且能够自动总结重点、生成大纲、思维导图并下载。

  • AI Math Notes:一个交互式绘图应用,用于数学方程的绘制和计算。

    AI Math Notes 是一个开源的交互式绘图应用程序,允许用户在画布上绘制数学方程。应用程序利用多模态大型语言模型(LLM)计算并显示结果。该应用程序使用Python开发,利用Tkinter库创建图形用户界面,使用PIL进行图像处理。灵感来源于Apple在2024年全球开发者大会(WWDC)上展示的'Math Notes'。

  • VideoTetris:文本到视频生成的创新框架

    VideoTetris是一个新颖的框架,它实现了文本到视频的生成,特别适用于处理包含多个对象或对象数量动态变化的复杂视频生成场景。该框架通过空间时间组合扩散技术,精确地遵循复杂的文本语义,并通过操作和组合去噪网络的空间和时间注意力图来实现。此外,它还引入了一种新的参考帧注意力机制,以提高自回归视频生成的一致性。VideoTetris在组合文本到视频生成方面取得了令人印象深刻的定性和定量结果。

  • Visual Sketchpad:多模态语言模型的视觉推理工具

    Visual Sketchpad 是一种为多模态大型语言模型(LLMs)提供视觉草图板和绘图工具的框架。它允许模型在进行规划和推理时,根据自己绘制的视觉工件进行操作。与以往使用文本作为推理步骤的方法不同,Visual Sketchpad 使模型能够使用线条、框、标记等更接近人类绘图方式的元素进行绘图,从而更好地促进推理。此外,它还可以在绘图过程中使用专家视觉模型,例如使用目标检测模型绘制边界框,或使用分割模型绘制掩码,以进一步提高视觉感知和推理能力。

  • GoMate:基于RAG框架的可靠输入和可信输出系统

    GoMate是一个基于Retrieval-Augmented Generation (RAG)框架的模型,专注于提供可靠输入和可信输出。它通过结合检索和生成技术,提高信息检索和文本生成的准确性和可靠性。GoMate适用于需要高效、准确信息处理的领域,如自然语言处理、知识问答等。

  • SD3-Controlnet-Canny:一种用于生成图像的深度学习模型。

    SD3-Controlnet-Canny 是一种基于深度学习的图像生成模型,它能够根据用户提供的文本提示生成具有特定风格的图像。该模型利用控制网络技术,可以更精确地控制生成图像的细节和风格,从而提高图像生成的质量和多样性。

  • Tencent EMMA:多模态文本到图像生成模型

    EMMA是一个基于最前沿的文本到图像扩散模型ELLA构建的新型图像生成模型,能够接受多模态提示,通过创新的多模态特征连接器设计,有效整合文本和补充模态信息。该模型通过冻结原始T2I扩散模型的所有参数,并仅调整一些额外层,揭示了预训练的T2I扩散模型可以秘密接受多模态提示的有趣特性。EMMA易于适应不同的现有框架,是生成个性化和上下文感知图像甚至视频的灵活有效工具。

今日大家都在搜的词:

热文

  • 3 天
  • 7天