首页 > 业界 > 关键词  > 抖音最新资讯  > 正文

AI日报:SD 3宣布开源;中文语音AIChatTTS官网上线;Veo支持单图生成视频;ElevenLabs推多样化AI音频模型

2024-06-03 16:14 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、抖音:将打击使用AI技术P图侮辱他人等行为

抖音发布公告表示严厉打击网络暴力行为,已处置162件网暴舆情,警示教育施暴者近70万个。建立网络暴力线索反馈机制,提供一键防网暴功能保护用户安全。用户可申请法律咨询服务保护自身权益。

【AiBase提要:】

🚫 严厉打击网络暴力行为,处理162件网暴舆情,警示教育施暴者近70万个

🔒 建立网络暴力线索反馈机制,与公安机关合作打击违法犯罪行为

🛡 提供一键防网暴功能保护用户安全,用户可申请法律咨询服务维护权益

2、Stability AI开源SD 3:6月12日可下载 不可商用

我对Stability AI宣布Stable Diffusion3 Medium开放发布日期为6月12日的消息感到兴奋。这款20亿参数的SD3 Medium模型具有照片真实感、优秀的排版效果和高性能,适合消费者系统和企业工作负载。Stable Diffusion3 Medium是Stability AI最新推出的产品,预计将为用户带来更加稳定和高效的使用体验。

image.png

【AiBase提要:】

⭐️ 照片真实感: 克服手和脸上的常见工件,提供高质量的图像,无需复杂工作流程。

⭐️ 排版优秀: 在排版上获得健壮的结果,优于更大的最先进的模型。

⭐️ 高性能: 优化的大小和效率,非常适合消费者系统和企业工作负载。

详情链接:https://stability.ai/stablediffusion3

3、英伟达发布数字人AI技术NVIDIA ACE 提升角色互动体验

NVIDIA最近推出了名为Avatar Cloud Engine (ACE)的先进数字人AI技术,旨在提升游戏和虚拟世界中角色的互动体验。该技术将游戏中的NPC赋予智能对话能力,实现自然、智能的交流,提升角色生动性和真实感。ACE技术可灵活部署在云端或本地设备,保证流畅高质量的互动体验,同时优化神经网络以减少延迟,确保实时互动。这一技术有望在游戏开发和虚拟现实领域带来革命性变革,拓展至客户服务、教育和娱乐领域,提供更自然智能的表现。

image.png

【AiBase提要:】

🗨️ 智能对话能力: ACE技术赋予游戏NPC真实对话能力,超越预设台词模式。

🎤 语音和面部动画生成: ACE利用AI技术生成真实回复,增强角色生动性和真实感。

🚀 灵活部署和低延迟: ACE可在云端或本地设备部署,确保流畅高质量互动体验,减少延迟影响。

4、Claude 3全系已支持函数调用工具Tool use

Claude 3现在支持函数调用工具Tool use,使其能够与外部工具和API进行交互,提供更动态和准确的响应。这项技术的发展展示了AI在提高工作效率和创新服务方式方面的巨大潜力。

image.png

【AiBase提要:】

🛠️ 从非结构化文本中提取结构化数据,减少手动输入工作量。

🔍 自然语言请求转换为结构化API调用,简化自助服务流程。

⏰ 协调多个Claude子代理执行细化任务,如自动协调会议时间。

详情链接:https://docs.anthropic.com/en/docs/tool-use

5、英伟达推AI游戏助手G-Assist

G-Assist是英伟达的游戏AI助手,通过语音查询回答游戏问题并个性化指导玩家。它能优化PC设置、提出游戏性能建议,甚至超频GPU。Nvidia展示的G-Assist展示了AI助手未来的可能性,尽管仍需谨慎态度。

image.png

【AiBase提要:】

⭐ G-Assist是英伟达的游戏AI助手,可指导玩家完成游戏并配置最佳设置。

⭐ 该助手可以通过语音查询回答游戏中的问题,并根据屏幕上的情况进行个性化指导。

⭐ 不仅可以优化和调整PC设置,还可以为游戏性能提出建议,并甚至超频GPU。

6、DeepMind视频生成模型Veo支持从单个参考图像生成视频片段

Google DeepMind的Veo模型是一项创新的视频生成模型,可以根据单个参考图像生成视频剪辑,并通过文本提示调整视觉风格。该模型为创意产业和视频制作领域带来新可能性,但也提醒用户注意不要分散注意力。

image.png

【AiBase提要:】

🔑 Veo模型支持从单个参考图像生成视频片段,并可调整视觉风格。

🌟 应用包括实验性工具VideoFX,用户可体验部分Veo模型功能。

💡 Veo模型具有潜力根据图像内容和文本提示生成符合用户要求的视频剪辑。

详情链接:https://blog.google/technology/ai/google-labs-video-fx-generative-ai/

7、一上线就爆火出圈!中文语音AI天花板ChatTTS官网上线

ChatTTS是一款备受关注的中文语音AI项目,上线不久就引起轰动。用户可以通过ChatTTS实现文字转语音、实时语音对话等功能,同时具有多语言支持和细粒度控制等特点。该项目适用于多种场景,包括电商直播、自媒体、在线教育和客服服务等。

image.png

【AiBase提要:】

🔊 文字转语音、实时语音对话功能

🎤 多语言支持和中英文混合表现

👥 多说话人支持和大规模训练数据应用

详情链接:https://chattts.com/

8、ControlNet作者推新项目Omost 一句话变构图小作文

Omost是一个革新性的图像生成项目,通过简单的提示词就能生成详细且准确的图像,极大地简化了图像描述的过程。用户只需输入简单提示词,即可获得高质量、符合预期的图像。同时,Omost具有自动扩展提示词、高灵活性和图像位置编码等优点,为图像生成提供了强大的工具支持。

【AiBase提要:】

⭐ 很短的提示词就可以生成非常详细并且空间表现很准确的图片

⭐ 高灵活性,保留图像布局,一句提示词即可修改元素

⭐ 提供详细描述,支持复杂图像生成,应用于AI绘画、广告创意等领域

项目页:https://top.aibase.com/tool/omost

试玩地址:https://huggingface.co/spaces/lllyasviel/Omost

9、ElevenLabs推出创新AI音频模型

ElevenLabs最近推出了一款创新的AI音频模型,可以通过文本提示生成各种音效、短乐器曲目、音景和角色声音,为内容创作者、视频游戏开发者和电影电视制片厂带来巨大福音。这项技术极大简化了音频内容创作过程,提高创作效率,拓展创意空间。

image.png

【AiBase提要:】

🔊 文本到音频转换: 用户输入文本提示,AI生成相应音效和音乐。

🎶 多样性: 能生成各种音效满足不同场景需求。

🎭 角色声音生成: 为动画、游戏或影视作品中不同角色创造独特声音。

详情链接:https://top.aibase.com/tool/elevenlabs-text-to-sound-effects

10、PixVerse发布运动笔刷功能Magic Brush 比Runway更方便和直观

PixVerse最新推出的运动笔刷功能Magic Brush极大提升了产品的可用性和用户体验,为动画和动态图像创作带来了灵活性和高效性。用户可以通过手绘箭头自定义图像区域的运动方向和距离,实现更精确的动态效果控制。操作简便直观,无需复杂学习曲线,提高了创意表达空间和工作效率。

image.png

【AiBase提要:】

✨ 自定义运动方向和距离,精确控制动态效果

🎨 操作简便直观,提升用户友好度和创意表达空间

⏱️ 简化动画制作流程,提高工作效率和创作速度

详情链接:https://top.aibase.com/tool/pixverse

11、Nvidia发布GeForce RTX增强版,为AI PC数字助手提供支持

Nvidia在Computex展会上推出了新的RTX技术,为新的GeForce RTX AI笔记本电脑提供动力,同时推出Project G-Assist技术演示为PC游戏和应用提供上下文感知的帮助。此外,Nvidia ACE数字人物平台首次亮相,为数字人物提供支持。这些技术加速了500多个PC应用和游戏以及200多个OEM笔记本设计,为超过1亿的RTX AI PC用户带来下一代AI动力体验。

【AiBase提要:】

⭐ Nvidia推出新的RTX技术,为GeForce RTX AI笔记本电脑提供动力

⭐ Project G-Assist技术演示为PC游戏和应用提供上下文感知的帮助

⭐ Nvidia ACE数字人物平台首次亮相,为数字人物提供支持

12、麦肯锡调查显示:生成式AI应用大中华区增长最快

生成式AI应用在大中华区和亚太地区蓬勃发展,65%受访者经常使用生成式AI并已开始产生商业价值。企业主要通过使用现成产品、与AI厂商合作微调模型或自主开发产品三种方式应用生成式AI。应用场景主要包括文本、代码、音频、视频、图片等生成能力,随着多模态大模型的出现,应用场景将进一步扩大【AiBase提要:】

⚙️ 生成式AI应用增长:大中华区和亚太地区成为增长最快地区,原生数字人口使用频繁是主要原因。

💼 企业应用方式:现成产品使用、与AI厂商合作微调模型、自主开发产品三种方式。

🔍 应用场景扩大:生成式AI功能与应用场景挂钩,包括文本、代码、音频、视频、图片等生成能力,随着多模态大模型出现,应用场景将进一步扩大。

13、字节跳动旗下 AI 助手豆包推出PC客户端、浏览器插件版本

作为字节跳动旗下 AI 助手豆包推出PC客户端和浏览器插件版本,为用户提供了更多便捷的AI功能体验。用户可以通过豆包实现快捷划词翻译、AI搜索、一键常驻桌面等功能,同时还支持网页与视频总结、写作和文本修改等功能。豆包的AI大模型系列涵盖了多种功能模型,为用户提供全面的AI辅助服务。

【AiBase提要:】

🔍 豆包PC客户端版本支持快捷划词翻译、AI搜索、一键常驻桌面等功能

📚 插件版提供一键总结网页与视频、写作和文本修改等功能

💡 豆包大模型系列包括豆包通用模型Pro、角色扮演模型、语音合成模型等,提供多样化的AI功能

14、沙特阿美投资中国AI初创企业智谱AI

这篇文章报道了沙特阿美旗下的Prosperity7 投资了中国生成式人工智能初创企业智谱AI,使其估值达到 30 亿美元。这一投资不仅为智谱AI带来了资金支持,也有助于其在国际市场上拓展。智谱AI在人工智能领域的发展势头强劲,受到国际资本关注。

【AiBase提要:】

🌐 智谱AI获得沙特阿美旗下Prosperity7 的 4 亿美元投资,估值达 30 亿美元。

💡 智谱AI是清华大学计算机系技术成果转化公司,由唐杰教授领衔,在生成式人工智能领域取得显著成就。

💰 智谱AI曾获得超过 25 亿元人民币融资,参与方包括多家知名机构和公司。

举报

  • 相关推荐
  • 大家在看
  • Gobi:个性化情绪健康指导APP

    Gobi是一款致力于提供个性化情绪健康指导的应用程序。它由一群对AI充满热情的团队开发,团队成员来自Google、Microsoft、Meta和Scale AI等知名公司。Gobi通过实时生成基于科学的语音指导健康实践,帮助用户管理情绪健康。产品的主要优点包括全天候的人性化健康支持、适应性AI个性化、实时健康实践生成、日常检查和情绪健康跟踪等。

  • DiT-MoE:大规模参数扩散变换器模型

    DiT-MoE是一个使用PyTorch实现的扩散变换器模型,能够扩展到160亿参数,与密集网络竞争的同时展现出高度优化的推理能力。它代表了深度学习领域在处理大规模数据集时的前沿技术,具有重要的研究和应用价值。

  • Picogen AI Image API:AI图像生成API,提供高质量的4K图像生成和编辑功能。

    Picogen AI Image API是一个领先的AI图像生成平台,提供与Midjourney, Stable Diffusion和DALL-E相媲美的高质量图像生成服务。它支持生成高达4K分辨率的图像,并且具备图像合并、背景移除和8K分辨率的图像放大等高级功能。Picogen旨在为数字营销人员、平面设计师、内容创作者等专业人士提供强大的视觉内容创作工具。

  • Colocio AI:一站式在线营销工具,由AI驱动,简化广告和内容创作。

    Colocio AI是一款集成了人工智能技术的在线营销工具,旨在帮助用户创建、评估和自动化在线广告活动。它通过AI技术生成高转化率的广告文案和社交媒体内容,提供无障碍的内容调度功能,以及实时的AI辅助和数据驱动的报告,帮助用户优化广告活动,提高性能。Colocio AI的背景是简化内容和媒体创作流程,专注于为品牌和目标受众量身定制内容,同时释放用户时间,让他们专注于战略规划和与受众互动,推动业务创新和增长。

  • Supermemory.ai:你的个人数字第二大脑

    Supermemory是一个致力于帮助用户组织、搜索和利用保存信息的平台。它提供强大的工具,如搜索引擎、写作助手和画布,旨在成为用户的个人第二大脑。它注重隐私保护,可在任何地方工作,支持自托管,并且价格亲民,提供免费层级。

  • Dialed:个性化AI激励演讲,激发潜能。

    Dialed是一款AI驱动的应用程序,旨在通过个性化的激励演讲来激发用户的潜能。无论是健身、演讲还是日常挑战,Dialed都能提供个性化的激励和启发。产品的主要优点包括个性化的激励演讲、真诚的支持、传奇的演讲定制、多种声音选择、背景音乐以及AI生成的激励图像。此外,Dialed还允许用户将激励演讲分享给朋友和家人。

  • Aphrodite-engine:PygmalionAI的大规模推理引擎

    Aphrodite是PygmalionAI的官方后端引擎,旨在为PygmalionAI网站提供推理端点,并允许以极快的速度为大量用户提供Pygmalion模型服务。Aphrodite利用vLLM的分页注意力技术,实现了连续批处理、高效的键值管理、优化的CUDA内核等特性,支持多种量化方案,以提高推理性能。

  • ICSFSurvey:深入研究大型语言模型的内部一致性和自我反馈

    ICSFSurvey是一个关于大型语言模型内部一致性和自我反馈的调查研究。它提供了对LLMs自我评估和自我更新机制的统一视角,包括理论框架、系统分类、评估方法、未来研究方向等。

  • Stable Audio Open demo:从文本提示生成立体声音频

    Stable Audio Open 是一个能够从文本提示生成长达47秒的立体声音频的技术。它包含三个主要组件:一个将波形压缩到可管理序列长度的自编码器、一个基于T5的文本嵌入用于文本条件、以及一个在自编码器的潜在空间中操作的基于变换的扩散(DiT)模型。该技术在生成音频方面表现出色,能够根据文本提示生成各种类型的音频,如打击乐、电子音乐、自然声音等。

  • Claude Engineer:利用Anthropic的Claude模型辅助软件开发任务的高级命令行界面。

    Claude Engineer是一个高级的命令行界面,它利用Anthropic的Claude 3和Claude 3.5模型的能力,来协助完成广泛的软件开发任务。这个工具无缝地结合了最先进大型语言模型的能力与实用的文件系统操作、网页搜索功能、智能代码分析和执行能力。

  • Aiuni:探索3D虚拟世界,体验梦想家宇宙。

    Aiuni是一个提供3D虚拟世界体验的平台,用户可以在这里创建和探索个性化的3D模型,享受沉浸式的宇宙探索之旅。Aiuni以其创新的3D技术、丰富的互动性和高度的个性化定制,为用户提供了一个全新的虚拟体验空间。

  • Morphic.com:创新故事讲述的未来,使用突破性技术。

    Morphic Studio是一个利用先进人工智能技术,为创意产业带来革命性变化的在线平台。它提供了从构思到最终故事的全面工具,包括画布(Canvas)和视频编辑器,以及Morphic Playground,允许用户通过简单的消息创建资产。Morphic Studio旨在为创意专业人士,如游戏设计师和电影制作人,提供工具,以减少产品上市时间,并提高创作效率。

  • RapidOCR:快速、多语言支持的OCR工具包

    RapidOCR是一个基于ONNXRuntime、OpenVINO和PaddlePaddle的OCR多语言工具包。它将PaddleOCR模型转换为ONNX格式,支持Python/C++/Java/C#等多平台部署,具有快速、轻量级、智能的特点,并解决了PaddleOCR内存泄露的问题。

  • 百度智金・金融智能体:依托大模型技术,助力金融智能化转型,降本增效。

    智金・金融智能体是基于百度领先的大模型技术,结合多年的金融行业知识,专为金融从业人员设计的智能化解决方案。该产品通过智能化的咨询、交易引导和报告生成等功能,旨在提升金融业务的效率与合规性,帮助用户在信贷、投资、监管和保险等多个场景实现数字化转型。定位为金融行业的智能助手,智金・金融智能体通过 AI 技术为客户提供了高效、准确的支持,降低了人力成本并提高了服务质量。其背景源自百度在 AI 领域的深厚积累,价格策略灵活,具体情况可咨询客服。

  • Proton Scribe:智能隐私优先的邮件写作助手

    Proton Scribe是一个集成在Proton Mail中的智能写作助手,它以隐私优先,可以帮助用户撰写和润色邮件草稿,节省撰写邮件的时间,同时保护最敏感、最有价值的数据。Proton Scribe设计为本地运行,确保用户数据不会离开设备。Proton一直致力于研究保护隐私的AI技术,并在2023年推出了Proton Sentinel,这是第一个利用AI提供增强账户保护的功能。Proton Scribe也是开源的,可以进行独立的安全和隐私审计。

  • Dialog AI:先进的对话式AI面试平台,提升招聘效率。

    Dialog AI 是一个利用人工智能技术进行面试的在线平台,它通过自动化面试安排、实时AI面试和即时反馈报告,帮助企业简化招聘流程,提高面试效率和候选人满意度。该平台支持24/7的面试安排,确保公平一致的面试过程,并提供定制化的反馈报告,帮助企业做出更有信心的招聘决策。

  • ENSTANT 智云即弹:全档位AI吉他,让音乐创作更自由。

    ENSTANT 智云即弹是一款结合人工智能技术的吉他学习与创作应用,它通过模拟真实吉他的演奏体验,为用户提供了一种全新的音乐创作和学习方式。该产品利用先进的AI算法,能够即时生成和弦和旋律,帮助用户快速掌握吉他演奏技巧,激发音乐创作灵感。智云即弹以其创新性、易用性和强大的功能,为吉他爱好者和音乐创作者提供了一个便捷的音乐创作平台。

  • AI文本检测器:确保文本原创性,防止抄袭的AI检测工具。

    AI文本检测器是一款专业的AI检测工具,利用先进的AI技术,为用户提供文本原创性检测服务。它通过多种检测模型,如Chatgpt Detector Roberta、Roberta-Large OpenAI Detector和Roberta Academic Detector,确保检测结果的准确性和可靠性。该工具不仅免费使用,还支持多语言,响应速度快,并且强调用户隐私和数据安全。

  • story-writing:使用LangGraph代理帮助用户编写故事

    story-writing是一个基于LangGraph Cloud的应用程序,旨在以一种有趣且互动的方式展示LangGraph Cloud的功能。该应用程序允许用户在LangGraph代理的帮助下编写故事,用户可以编辑已经写好的章节,或者继续编写下一章。用户可以有多个相同章节编号的版本,并选择他们最喜欢的版本继续故事。在开始时,用户提供故事摘要、所需的写作风格和对故事重要的任何其他细节。从那时起,他们只需要提供编辑和继续指令,以引导代理朝期望的方向发展。注意:这个应用程序是一个原型,尚未准备好部署,可能会有bug或代理的输出结果不佳。

  • Zenquiz:智能生成考试复习题

    Zenquiz是一款将学习笔记转换为考试复习题的在线工具。它利用AI技术帮助学生、教师和企业用户提高学习效率和教学体验,通过个性化的选择题、判断题和填空题来强化记忆并准备考试。产品背景是教育领域的数字化转型,主要优点包括个性化学习、节省时间、增强记忆和提升参与度。

今日大家都在搜的词:

热文