首页 > 业界 > 关键词  > Coze最新资讯  > 正文

AI日报:Coze海外版支持GPT-4o;星火大模型今年7月将达GPT-4水平;Domo AI上线对口型视频功能;Animatediff魔法视频外网爆火

2024-05-23 14:58 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、字节Coze海外版支持GPT-4o

字节Coze海外版成功集成了OpenAI推出的最新AI助手GPT-4o,为用户带来更智能、更强大的聊天体验。用户可以通过Coze平台轻松构建功能强大的AI聊天机器人,并在日常交流中使用,为用户提供更加个性化、智能化的服务体验。GPT-4o的推出将为Coze用户带来诸多便利,无论是进行日常聊天交流还是寻求帮助与建议,都能得到更智能、更快速的回应。

image.png

【AiBase提要:】

⭐️ GPT-4o加入Coze海外版,为用户提供强大的AI聊天功能。

⭐️ 用户可以轻松构建功能强大的AI聊天机器人,并在Coze上使用。

⭐️ GPT-4o的加入将为Coze用户带来更智能、更便捷的聊天体验。

产品入口:https://top.aibase.com/tool/coze

2、TikTok推出新的AI套件TikTok Symphony

TikTok推出的新AI套件TikTok Symphony为品牌提供了强大的AI工具,助力广告创作和优化。这一举措将帮助广告商提升销售表现,但也面临着未来在美国的不确定性。

image.png

【AiBase提要:】

⭐ TikTok推出名为Symphony Creative Studio的AI视频生成器,为广告商提供定制化视频内容。

⭐ 引入Symphony Assistant AI助手,帮助广告商生成脚本和提供实践建议,增强广告活动效果。

⭐ 推出Symphony Ads Manager Integration工具,自动修复和优化现有视频,提升品牌创意表现。

3、科大讯飞刘庆峰:星火大模型今年6、7月就能赶上GPT-4目前水平

在澳门举办的BEYOND国际科技创新博览会上,科大讯飞董事长刘庆峰对中美在通用大模型底座上的竞争态势发表了独到见解,展示了科大讯飞在人工智能领域的强大实力和追赶态势。

【AiBase提要:】

✨ 科大讯飞董事长刘庆峰相信中美在通用大模型领域的差距只是暂时的动态追赶,承诺不会落后。

⚡ 科大讯飞的星火大模型V4.0版本预计在今年6、7月左右将达到GPT-4的水平,展现出迅速缩小差距的实力。

💡 科大讯飞加入百模价格战,推出免费开放API,加速人工智能领域的发展步伐,提升市场竞争力。

4、ambientGPT:开源多模态MacOS基础模型操作界面

AmbientGPT是一项创新技术,能够运行GPT-4和本地基础模型,直接了解屏幕环境,消除上传上下文的麻烦,提供更便利、高效的用户体验。它突破了基础模型局限于浏览器的限制,为智能模型应用领域带来创新和便利。

image.png

【AiBase提要:】

⭐ AmbientGPT能运行GPT-4和本地基础模型,直接了解屏幕环境,消除上传上下文麻烦。

⭐ 屏幕上下文作为查询一部分进行推断,用户无需再次上传上下文。

⭐ 使用AmbientGPT需ARM64MacBook和兼容OpenAI API密钥,以运行GPT-4o和本地模型。

详情链接:https://top.aibase.com/tool/ambientgpt

5、Domo AI 上线唇形同步功能:提升面部对话视频转换效果

Domo AI 最新推出的唇形同步功能为用户带来更自然流畅的面部对话视频转换效果,标志着其在视频转换技术上的又一次突破。这一功能能精确同步人物说话时的唇部动作,使转换后的视频更加真实和生动。同时,Domo AI 之前推出的照片转动态视频功能也展现了其在计算机视觉和深度学习方面的技术优势。

image.png

【AiBase提要:】

👄 唇形同步功能上线,使面部对话视频转换更流畅自然。

📸 照片转动态视频技术,将静态照片人物替换到动态视频中,动作表情自然。

🚀 Domo AI 技术优势:高精度识别、自然融合处理、用户友好操作。

详情链接:https://top.aibase.com/tool/domoai

6、禁止AI施法!博主用Animatediff制作“特异功能手” 视频Raddit爆火

这篇文章介绍了一段由推特博主Aleksej Lotkov制作的“AI魔法”视频,在视频中展示了手部特异功能的视觉效果。作者使用Animatediff加Stable Diffusion中的Inpainting功能绘制了这段视频,展示了手部随周围环境变化的变色龙效果。整段视频流畅丝滑,展示了AI技术在视觉特效方面的应用。

image.png

【AiBase提要:】

🎥 国外博主用AI施法,手和变色龙一样,碰到啥变啥

🤖 视频使用Animatediff加Stable Diffusion中的Inpainting制作,创作耗时2. 5 天

📈 作者已经共享了工作流,感兴趣的可以自行体验

工作流地址:https://drive.google.com/file/d/1yLlAH6slLcdcOR6aTNdlcgo1F-B4H4SL/view

视频点此查看:https://www.chinaz.com/2024/0523/1618549.shtml

7、巴黎矿业大学和以色列理工学院联合推出创新视频模型Slicedit

Slicedit是一款创新的视频模型,能够在不改变视频背景的情况下对视频中的主要对象进行修改,为业余人员提供了快速完成视频内容修改的方法,类似于视频版的Photoshop。该技术可能对视频编辑领域产生重大影响,使得视频编辑变得更加容易和可访问,为内容创作者提供了更多创新的可能性。

image.png

【AiBase提要:】

⚙️ Slicedit模型能够在不改变视频背景的情况下对视频中的主要对象进行修改,类似于视频版的Photoshop。

🔍 Slicedit通过空间时间切片和扩展注意力等关键技术克服了视频编辑中的难题,保持背景稳定完整。

🛠️ 研究人员计划很快开源Slicedit模型,使更多开发人员可以构建自己的视频编辑器,为视频编辑领域带来更多创新可能性。

详情链接:https://arxiv.org/pdf/2405.12211

8、OpenAI与News Corp达成合作

OpenAI与News Corp达成合作,将极大丰富OpenAI的生成式AI产品,合作估值可能达到5年2.5亿美元,旨在提供用户更为全面和可靠的数字体验,积极应对虚假信息和新闻标准的侵蚀。

【AiBase提要:】

⭐ OpenAI获得对News Corp旗下主要新闻和信息出版物的访问权限,将丰富其AI产品。

⭐ 合作估值可能达到5年2.5亿美元,OpenAI将获得来自News Corp广泛投资组合的新闻内容。

⭐ 合作旨在提供用户更为全面和可靠的数字体验,积极应对虚假信息和新闻标准的侵蚀。

9、谷歌官方发布Android生态系统重大更新

谷歌官方宣布Android生态系统即将推出一系列重大更新,涵盖隐私保护、安全性、娱乐体验和设备互联互通等多个方面。这些更新将为用户带来更安全、方便和娱乐性的移动体验,提升Android系统在隐私、安全和用户体验方面的标准。

image.png

【AiBase提要:】

🔒 新增私人空间功能,增强隐私保护。

🔐 引入防盗锁定功能,保护个人数据安全。

🛡️ Google Play Protect实时防诈骗应用保护,提高手机安全性。

详情链接:https://blog.google/products/android/android-15-google-io-2024/

10、李彦宏:AI应用可以推动基础模型创新

李彦宏在法国巴黎举办的“欧洲科技创新展览会”上指出,中国在人工智能领域与西方最大区别在于应用。他强调超级应用的重要性,提及百度的文心一言应用已累积2亿用户。李彦宏表示长期以来一直是人工智能的信仰者,对AGI时代的到来持乐观态度。

【AiBase提要:】

🚀 中国人工智能领域与西方最大区别在于应用驱动发展。

💡 超级应用的重要性,可能是聊天机器人等形态。

💻 百度的文心大模型4.0在中文能力上已超过GPT-4。

11、Nvidia每年设计新的AI芯片以满足市场需求

Nvidia加速推出新的AI芯片,实现每年设计节奏,具有向后兼容性和可运行相同软件的特点。汽车行业成为Nvidia数据中心内最大的垂直企业,消费互联网公司仍是强劲增长领域。

【AiBase提要:】

💰 Nvidia每年设计新的AI芯片,加速其他类型芯片的开发。

💻 新一代AI芯片具有向后兼容性,可运行相同软件。

🚗 汽车行业成为Nvidia数据中心内最大垂直企业,消费互联网公司持续增长。

12、德国翻译公司 DeepL 获得3亿美元投资,估值达20亿美元

DeepL 是一家德国 AI 翻译初创公司,最近获得了3亿美元的投资,使其估值达到20亿美元。公司以强大的 AI 技术赢得了超过10万付费客户,2022年被认为是其发展最具转型意义的一年。

image.png

【AiBase提要:】

⭐ DeepL 以其 AI 技术赢得逾10万付费客户

⭐ 2022年是 DeepL 发展最具转型意义的一年

⭐ DeepL 提供免费的在线翻译服务,支持32种语言,同时也提供付费翻译软件给企业用户使用

举报

  • 相关推荐
  • 大家在看
  • Nemotron-4-340B-Reward:多维奖励模型,助力构建自定义大型语言模型。

    Nemotron-4-340B-Reward是由NVIDIA开发的多维奖励模型,用于合成数据生成管道,帮助研究人员和开发者构建自己的大型语言模型(LLMs)。该模型由Nemotron-4-340B-Base模型和一个线性层组成,能够将响应末尾的标记转换为五个标量值,对应于HelpSteer2属性。它支持最多4096个标记的上下文长度,并能够对每个助手轮次的五个属性进行评分。

  • Nemotron-4-340B-Instruct:NVIDIA的高级语言模型,优化于英文对话场景。

    Nemotron-4-340B-Instruct是由NVIDIA开发的大型语言模型(LLM),专为英文单轮和多轮对话场景优化。该模型支持4096个token的上下文长度,经过监督式微调(SFT)、直接偏好优化(DPO)和奖励感知偏好优化(RPO)等额外的对齐步骤。模型在约20K人工标注数据的基础上,通过合成数据生成管道合成了超过98%的用于监督微调和偏好微调的数据。这使得模型在人类对话偏好、数学推理、编码和指令遵循方面表现良好,并且能够为多种用例生成高质量的合成数据。

  • BookSlice:让阅读更有趣,用游戏化的方式增加阅读量。

    BookSlice是一款面向忙碌人群的游戏化阅读应用,通过心理学原理帮助用户建立阅读习惯,并通过设置每日挑战来维持阅读连续性。它利用实施意图、习惯叠加等心理工具,使阅读变得习惯性和上瘾。此外,BookSlice还提供AI问答功能,帮助用户在阅读过程中获得上下文答案。

  • agentUniverse:基于大型语言模型的多智能体应用开发框架

    agentUniverse 是一个基于大型语言模型的多智能体应用开发框架,提供了构建单一智能体和多智能体协作机制的所有必需组件。通过模式工厂,允许开发者构建和自定义多智能体协作模式,轻松构建多智能体应用,并分享不同技术与业务领域的模式实践。

  • HunyuanDiT Distillation Acceleration:高性能图像生成模型的蒸馏加速版本

    HunyuanDiT Distillation Acceleration 是腾讯 Hunyuan 团队基于 HunyuanDiT 模型开发的蒸馏加速版本。通过渐进式蒸馏方法,在不降低性能的情况下,实现了推理速度的两倍提升。该模型支持多种GPU和推理模式,能够显著减少时间消耗,提高图像生成效率。

  • WonderWorld:从单张图片生成交互式3D场景

    WonderWorld是一个创新的3D场景扩展框架,允许用户基于单张输入图片和用户指定的文本探索和塑造虚拟环境。它通过快速高斯体素和引导扩散的深度估计方法,显著减少了计算时间,生成几何一致的扩展,使3D场景的生成时间少于10秒,支持实时用户交互和探索。这为虚拟现实、游戏和创意设计等领域提供了快速生成和导航沉浸式虚拟世界的可能性。

  • ChatTTS_Speaker:基于ERes2NetV2模型的音色稳定性评分与音色打标。

    ChatTTS_Speaker是一个基于ERes2NetV2说话人识别模型的实验性项目,旨在对音色进行稳定性评分和音色打标,帮助用户选择稳定且符合需求的音色。项目已开源,支持在线试听和下载音色样本。

  • fastc:轻量级文本分类工具,使用大型语言模型嵌入。

    fastc是一个基于大型语言模型嵌入的简单且轻量级的文本分类工具。它专注于CPU执行,使用高效的模型如deepset/tinyroberta-6l-768d生成嵌入。通过余弦相似度分类代替微调,实现文本分类。它还可以在不增加额外开销的情况下,使用相同的模型运行多个分类器。

  • MeshAnything:3D资产的自动生成工具

    MeshAnything是一个利用自回归变换器进行艺术家级网格生成的模型,它可以将任何3D表示形式的资产转换为艺术家创建的网格(AMs),这些网格可以无缝应用于3D行业。它通过较少的面数生成网格,显著提高了存储、渲染和模拟效率,同时实现了与先前方法相当的精度。

  • HunyuanDiT-v1.1:多分辨率扩散变换器,支持中英文理解

    HunyuanDiT-v1.1是由腾讯Hunyuan团队开发的一款多分辨率扩散变换模型,它具备精细的中英文理解能力。该模型通过精心设计的变换器结构、文本编码器和位置编码,结合从头开始构建的完整数据管道,实现数据的迭代优化。HunyuanDiT-v1.1能够执行多轮多模态对话,根据上下文生成和细化图像。经过50多名专业人类评估员的全面评估,HunyuanDiT-v1.1在中文到图像生成方面与其他开源模型相比,达到了新的最先进水平。

  • UniAnimate:高效生成一致性人物视频动画的模型

    UniAnimate是一个用于人物图像动画的统一视频扩散模型框架。它通过将参考图像、姿势指导和噪声视频映射到一个共同的特征空间,以减少优化难度并确保时间上的连贯性。UniAnimate能够处理长序列,支持随机噪声输入和首帧条件输入,显著提高了生成长期视频的能力。此外,它还探索了基于状态空间模型的替代时间建模架构,以替代原始的计算密集型时间Transformer。UniAnimate在定量和定性评估中都取得了优于现有最先进技术的合成结果,并且能够通过迭代使用首帧条件策略生成高度一致的一分钟视频。

  • LVBench:长视频理解基准测试

    LVBench是一个专门设计用于长视频理解的基准测试,旨在推动多模态大型语言模型在理解数小时长视频方面的能力,这对于长期决策制定、深入电影评论和讨论、现场体育解说等实际应用至关重要。

  • Mo:通过卡片式学习,轻松掌握AI科技知识。

    Mo是一款结合超现实主义艺术和堂吉诃德理想主义精神的AI科技学习APP。它通过卡片形式,以图文、动画、视频、语音等多样化内容,使AI和科技知识的学习变得生动有趣。Mo不仅覆盖了AI的基础知识,还包含了元宇宙、大数据、大模型等前沿技术,适合各种背景的学习者,旨在打造一个个性化的学习体验。

  • 开搜AI搜索:面向大众的AI问答搜索引擎

    开搜AI问答搜索引擎是一款面向大众的、直达答案的AI问答搜索引擎,它能够帮助用户从海量的文献资料中筛选出有用的信息,提供直接、精准的答案,并且能够自动总结重点、生成大纲、思维导图并下载。

  • AI Math Notes:一个交互式绘图应用,用于数学方程的绘制和计算。

    AI Math Notes 是一个开源的交互式绘图应用程序,允许用户在画布上绘制数学方程。应用程序利用多模态大型语言模型(LLM)计算并显示结果。该应用程序使用Python开发,利用Tkinter库创建图形用户界面,使用PIL进行图像处理。灵感来源于Apple在2024年全球开发者大会(WWDC)上展示的'Math Notes'。

  • VideoTetris:文本到视频生成的创新框架

    VideoTetris是一个新颖的框架,它实现了文本到视频的生成,特别适用于处理包含多个对象或对象数量动态变化的复杂视频生成场景。该框架通过空间时间组合扩散技术,精确地遵循复杂的文本语义,并通过操作和组合去噪网络的空间和时间注意力图来实现。此外,它还引入了一种新的参考帧注意力机制,以提高自回归视频生成的一致性。VideoTetris在组合文本到视频生成方面取得了令人印象深刻的定性和定量结果。

  • Visual Sketchpad:多模态语言模型的视觉推理工具

    Visual Sketchpad 是一种为多模态大型语言模型(LLMs)提供视觉草图板和绘图工具的框架。它允许模型在进行规划和推理时,根据自己绘制的视觉工件进行操作。与以往使用文本作为推理步骤的方法不同,Visual Sketchpad 使模型能够使用线条、框、标记等更接近人类绘图方式的元素进行绘图,从而更好地促进推理。此外,它还可以在绘图过程中使用专家视觉模型,例如使用目标检测模型绘制边界框,或使用分割模型绘制掩码,以进一步提高视觉感知和推理能力。

  • GoMate:基于RAG框架的可靠输入和可信输出系统

    GoMate是一个基于Retrieval-Augmented Generation (RAG)框架的模型,专注于提供可靠输入和可信输出。它通过结合检索和生成技术,提高信息检索和文本生成的准确性和可靠性。GoMate适用于需要高效、准确信息处理的领域,如自然语言处理、知识问答等。

  • SD3-Controlnet-Canny:一种用于生成图像的深度学习模型。

    SD3-Controlnet-Canny 是一种基于深度学习的图像生成模型,它能够根据用户提供的文本提示生成具有特定风格的图像。该模型利用控制网络技术,可以更精确地控制生成图像的细节和风格,从而提高图像生成的质量和多样性。

  • Tencent EMMA:多模态文本到图像生成模型

    EMMA是一个基于最前沿的文本到图像扩散模型ELLA构建的新型图像生成模型,能够接受多模态提示,通过创新的多模态特征连接器设计,有效整合文本和补充模态信息。该模型通过冻结原始T2I扩散模型的所有参数,并仅调整一些额外层,揭示了预训练的T2I扩散模型可以秘密接受多模态提示的有趣特性。EMMA易于适应不同的现有框架,是生成个性化和上下文感知图像甚至视频的灵活有效工具。

今日大家都在搜的词:

热文

  • 3 天
  • 7天