首页 > 业界 > 关键词  > AI视频最新资讯  > 正文

每日AI:谷歌推AI视频VideoPrism;ChatGPT新增文本朗读功能;Stability AI推图片放大工具Creative Upscaler;Stable Diffusion安卓版客户端来了

2024-02-26 15:01 · 稿源:站长之家

欢迎来到【每日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

QQ截图20240226151456.png

🤖📱💼AI应用

追赶Sora?谷歌推通用视频编码器——VideoPrism

【AiBase提要:】

⭐️ VideoPrism在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成训练,性能刷新30项SOTA。

⭐️ 谷歌团队推出全能通用视觉编码器VideoPrism,可处理视频理解任务,如分类、定位、检索、字幕和问答。

⭐️ VideoPrism的预训练利用了视频文本描述和上下文自监督,在各种视频理解任务上表现出色。

论文地址:https://arxiv.org/pdf/2402.13217.pdf

Stability AI推图像高清放大工具Creative Upscaler

image.png

【AiBase提要:】

⭐️ 分辨率提升至4K,无论原始图像大小如何

⭐️ 创造新细节,结合输入图像和文本提示

⭐️ 调整创造力水平,创造更多或更少新细节

产品入口:https://top.aibase.com/tool/creative-upscaler

Stable Diffusion安卓版客户端AllenTom/diffusion-client来了 手机也可以玩SD

image.png

【AiBase提要:】

⭐ 项目目标是为Android用户提供与Stable-Diffusion-WebuUI服务交互的解决方案。

⭐ 客户端支持多种功能和模型,包括文本到图像、图像到图像、面部交换等。

⭐ 用户可以轻松进行图像处理和编辑,满足不同需求和创意。

项目地址:https://top.aibase.com/tool/diffusion-client

ChatGPT代码库变更:新增文本朗读功能 DALL·E3新增67种图像风格

image.png

【AiBase提要:】

⭐️ DALL·E3更新67种图像风格,提供更多选择和更强控制能力。

⭐️ 新增文本朗读功能,方便用户将文字转化为语音使用。

⭐️ 启动新聊天的创意提示,提高ChatGPT交互效率和质量。

元象推出高定制语音方案 克隆语音最快只需5分钟数据

image.png

【AiBase提要:】

⭐ 多重技术手段实现高自然度语音交互体验

⭐ 可应用于客服、虚拟IP、直播、有声书、语音助手等领域

⭐ 通过文本处理、语义情感建模实现高自然度语音合成

出门问问开放大模型“序列猴子”开源数据集

【AiBase提要:】

🐵 公开出门问问的超大规模语言模型“序列猴子”的部分训练数据集。

📚 数据集包括中文通用文本、古诗今译和文本生成语料。

🌐 公司采用宽松许可协议,为开发者提供便捷使用条件。

项目地址:https://github.com/mobvoi/seq-monkey-data

Move AI推全新Move API 可轻松实现2D转3D

【AiBase提要:】

⭐ 使用单一相机捕捉人物运动,操作简单易上手。

⭐ 上传视频文件即可生成3D人类运动数据,流程简便快捷。

⭐ 支持多种3D文件格式,如usdz、usdc和fbx,应用广泛。

产品入口:https://top.aibase.com/tool/move-api

📰🤖📢AI新鲜事

Jasper公司收购Stability AI旗下的AI图像平台Clipdrop

【AiBase提要:】

⚙️ Clipdrop提供强大的AI图像编辑工具,企业客户可通过Jasper API访问,消费者可在Clipdrop.co购买独立版本。

💰 Stability AI因财务困境,获Intel投资5000万美元,一年后将Clipdrop出售给Jasper公司。

📈 Jasper公司收购将推动在AI图像处理领域市场份额,Stability AI将缓解财务压力,寻找新方向。

MusicMagus:基于扩散模型的文本精准编辑音乐片段

【AiBase提要:】

⭐ 音乐生成技术挑战:编辑生成音乐仍是难题,MusicMagus基于扩散模型提供精准修改解决方案。

⭐ 实验证实卓越性能:MusicMagus在音乐语义完整性和结构一致性方面显著优于基线模型。

⭐ 音乐编辑技术进步:利用先进扩散模型实现对特定音乐属性的精确修改,保持原始作品完整性。

论文地址 https://arxiv.org/abs/2402.06178

逻辑推理大翻车!GPT-4、Gemini被曝重大缺陷,LLM严重降智

【AiBase提要:】

⚠️ 大模型逻辑推理表现受前提顺序影响,打乱顺序可导致性能下降30%。

⚠️ 改变前提叙述顺序对大模型推理表现有重大影响,Pro、GPT-3.5-Turbo表现下降。

⚠️ 逻辑推理中改变前提顺序让LLM性能大幅下降,需要进一步研究解决。

论文地址:https://arxiv.org/pdf/2402.08939.pdf

中国首部文生视频AI动画片发布 将在央视综合频道开播

【AiBase提要:】

⭐️ 央视综合频道将播出国内首部文生视频AI动画片《千秋诗颂》

⭐️ 利用先进的AI技术,将中华经典诗词转化为具有中国审美特色的美术视觉

⭐️26集的动画片由人工智能辅助制作,具有里程碑意义,让观众感受中华经典诗词中的家国情怀和真情

举报

  • 相关推荐
  • 大家在看

今日大家都在搜的词: