首页 > 业界 > 关键词  > 抖音最新资讯  > 正文

AI日报:SD 3宣布开源;中文语音AIChatTTS官网上线;Veo支持单图生成视频;ElevenLabs推多样化AI音频模型

2024-06-03 16:14 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、抖音:将打击使用AI技术P图侮辱他人等行为

抖音发布公告表示严厉打击网络暴力行为,已处置162件网暴舆情,警示教育施暴者近70万个。建立网络暴力线索反馈机制,提供一键防网暴功能保护用户安全。用户可申请法律咨询服务保护自身权益。

【AiBase提要:】

🚫 严厉打击网络暴力行为,处理162件网暴舆情,警示教育施暴者近70万个

🔒 建立网络暴力线索反馈机制,与公安机关合作打击违法犯罪行为

🛡 提供一键防网暴功能保护用户安全,用户可申请法律咨询服务维护权益

2、Stability AI开源SD 3:6月12日可下载 不可商用

我对Stability AI宣布Stable Diffusion3 Medium开放发布日期为6月12日的消息感到兴奋。这款20亿参数的SD3 Medium模型具有照片真实感、优秀的排版效果和高性能,适合消费者系统和企业工作负载。Stable Diffusion3 Medium是Stability AI最新推出的产品,预计将为用户带来更加稳定和高效的使用体验。

image.png

【AiBase提要:】

⭐️ 照片真实感: 克服手和脸上的常见工件,提供高质量的图像,无需复杂工作流程。

⭐️ 排版优秀: 在排版上获得健壮的结果,优于更大的最先进的模型。

⭐️ 高性能: 优化的大小和效率,非常适合消费者系统和企业工作负载。

详情链接:https://stability.ai/stablediffusion3

3、英伟达发布数字人AI技术NVIDIA ACE 提升角色互动体验

NVIDIA最近推出了名为Avatar Cloud Engine (ACE)的先进数字人AI技术,旨在提升游戏和虚拟世界中角色的互动体验。该技术将游戏中的NPC赋予智能对话能力,实现自然、智能的交流,提升角色生动性和真实感。ACE技术可灵活部署在云端或本地设备,保证流畅高质量的互动体验,同时优化神经网络以减少延迟,确保实时互动。这一技术有望在游戏开发和虚拟现实领域带来革命性变革,拓展至客户服务、教育和娱乐领域,提供更自然智能的表现。

image.png

【AiBase提要:】

🗨️ 智能对话能力: ACE技术赋予游戏NPC真实对话能力,超越预设台词模式。

🎤 语音和面部动画生成: ACE利用AI技术生成真实回复,增强角色生动性和真实感。

🚀 灵活部署和低延迟: ACE可在云端或本地设备部署,确保流畅高质量互动体验,减少延迟影响。

4、Claude 3全系已支持函数调用工具Tool use

Claude 3现在支持函数调用工具Tool use,使其能够与外部工具和API进行交互,提供更动态和准确的响应。这项技术的发展展示了AI在提高工作效率和创新服务方式方面的巨大潜力。

image.png

【AiBase提要:】

🛠️ 从非结构化文本中提取结构化数据,减少手动输入工作量。

🔍 自然语言请求转换为结构化API调用,简化自助服务流程。

⏰ 协调多个Claude子代理执行细化任务,如自动协调会议时间。

详情链接:https://docs.anthropic.com/en/docs/tool-use

5、英伟达推AI游戏助手G-Assist

G-Assist是英伟达的游戏AI助手,通过语音查询回答游戏问题并个性化指导玩家。它能优化PC设置、提出游戏性能建议,甚至超频GPU。Nvidia展示的G-Assist展示了AI助手未来的可能性,尽管仍需谨慎态度。

image.png

【AiBase提要:】

⭐ G-Assist是英伟达的游戏AI助手,可指导玩家完成游戏并配置最佳设置。

⭐ 该助手可以通过语音查询回答游戏中的问题,并根据屏幕上的情况进行个性化指导。

⭐ 不仅可以优化和调整PC设置,还可以为游戏性能提出建议,并甚至超频GPU。

6、DeepMind视频生成模型Veo支持从单个参考图像生成视频片段

Google DeepMind的Veo模型是一项创新的视频生成模型,可以根据单个参考图像生成视频剪辑,并通过文本提示调整视觉风格。该模型为创意产业和视频制作领域带来新可能性,但也提醒用户注意不要分散注意力。

image.png

【AiBase提要:】

🔑 Veo模型支持从单个参考图像生成视频片段,并可调整视觉风格。

🌟 应用包括实验性工具VideoFX,用户可体验部分Veo模型功能。

💡 Veo模型具有潜力根据图像内容和文本提示生成符合用户要求的视频剪辑。

详情链接:https://blog.google/technology/ai/google-labs-video-fx-generative-ai/

7、一上线就爆火出圈!中文语音AI天花板ChatTTS官网上线

ChatTTS是一款备受关注的中文语音AI项目,上线不久就引起轰动。用户可以通过ChatTTS实现文字转语音、实时语音对话等功能,同时具有多语言支持和细粒度控制等特点。该项目适用于多种场景,包括电商直播、自媒体、在线教育和客服服务等。

image.png

【AiBase提要:】

🔊 文字转语音、实时语音对话功能

🎤 多语言支持和中英文混合表现

👥 多说话人支持和大规模训练数据应用

详情链接:https://chattts.com/

8、ControlNet作者推新项目Omost 一句话变构图小作文

Omost是一个革新性的图像生成项目,通过简单的提示词就能生成详细且准确的图像,极大地简化了图像描述的过程。用户只需输入简单提示词,即可获得高质量、符合预期的图像。同时,Omost具有自动扩展提示词、高灵活性和图像位置编码等优点,为图像生成提供了强大的工具支持。

【AiBase提要:】

⭐ 很短的提示词就可以生成非常详细并且空间表现很准确的图片

⭐ 高灵活性,保留图像布局,一句提示词即可修改元素

⭐ 提供详细描述,支持复杂图像生成,应用于AI绘画、广告创意等领域

项目页:https://top.aibase.com/tool/omost

试玩地址:https://huggingface.co/spaces/lllyasviel/Omost

9、ElevenLabs推出创新AI音频模型

ElevenLabs最近推出了一款创新的AI音频模型,可以通过文本提示生成各种音效、短乐器曲目、音景和角色声音,为内容创作者、视频游戏开发者和电影电视制片厂带来巨大福音。这项技术极大简化了音频内容创作过程,提高创作效率,拓展创意空间。

image.png

【AiBase提要:】

🔊 文本到音频转换: 用户输入文本提示,AI生成相应音效和音乐。

🎶 多样性: 能生成各种音效满足不同场景需求。

🎭 角色声音生成: 为动画、游戏或影视作品中不同角色创造独特声音。

详情链接:https://top.aibase.com/tool/elevenlabs-text-to-sound-effects

10、PixVerse发布运动笔刷功能Magic Brush 比Runway更方便和直观

PixVerse最新推出的运动笔刷功能Magic Brush极大提升了产品的可用性和用户体验,为动画和动态图像创作带来了灵活性和高效性。用户可以通过手绘箭头自定义图像区域的运动方向和距离,实现更精确的动态效果控制。操作简便直观,无需复杂学习曲线,提高了创意表达空间和工作效率。

image.png

【AiBase提要:】

✨ 自定义运动方向和距离,精确控制动态效果

🎨 操作简便直观,提升用户友好度和创意表达空间

⏱️ 简化动画制作流程,提高工作效率和创作速度

详情链接:https://top.aibase.com/tool/pixverse

11、Nvidia发布GeForce RTX增强版,为AI PC数字助手提供支持

Nvidia在Computex展会上推出了新的RTX技术,为新的GeForce RTX AI笔记本电脑提供动力,同时推出Project G-Assist技术演示为PC游戏和应用提供上下文感知的帮助。此外,Nvidia ACE数字人物平台首次亮相,为数字人物提供支持。这些技术加速了500多个PC应用和游戏以及200多个OEM笔记本设计,为超过1亿的RTX AI PC用户带来下一代AI动力体验。

【AiBase提要:】

⭐ Nvidia推出新的RTX技术,为GeForce RTX AI笔记本电脑提供动力

⭐ Project G-Assist技术演示为PC游戏和应用提供上下文感知的帮助

⭐ Nvidia ACE数字人物平台首次亮相,为数字人物提供支持

12、麦肯锡调查显示:生成式AI应用大中华区增长最快

生成式AI应用在大中华区和亚太地区蓬勃发展,65%受访者经常使用生成式AI并已开始产生商业价值。企业主要通过使用现成产品、与AI厂商合作微调模型或自主开发产品三种方式应用生成式AI。应用场景主要包括文本、代码、音频、视频、图片等生成能力,随着多模态大模型的出现,应用场景将进一步扩大【AiBase提要:】

⚙️ 生成式AI应用增长:大中华区和亚太地区成为增长最快地区,原生数字人口使用频繁是主要原因。

💼 企业应用方式:现成产品使用、与AI厂商合作微调模型、自主开发产品三种方式。

🔍 应用场景扩大:生成式AI功能与应用场景挂钩,包括文本、代码、音频、视频、图片等生成能力,随着多模态大模型出现,应用场景将进一步扩大。

13、字节跳动旗下 AI 助手豆包推出PC客户端、浏览器插件版本

作为字节跳动旗下 AI 助手豆包推出PC客户端和浏览器插件版本,为用户提供了更多便捷的AI功能体验。用户可以通过豆包实现快捷划词翻译、AI搜索、一键常驻桌面等功能,同时还支持网页与视频总结、写作和文本修改等功能。豆包的AI大模型系列涵盖了多种功能模型,为用户提供全面的AI辅助服务。

【AiBase提要:】

🔍 豆包PC客户端版本支持快捷划词翻译、AI搜索、一键常驻桌面等功能

📚 插件版提供一键总结网页与视频、写作和文本修改等功能

💡 豆包大模型系列包括豆包通用模型Pro、角色扮演模型、语音合成模型等,提供多样化的AI功能

14、沙特阿美投资中国AI初创企业智谱AI

这篇文章报道了沙特阿美旗下的Prosperity7 投资了中国生成式人工智能初创企业智谱AI,使其估值达到 30 亿美元。这一投资不仅为智谱AI带来了资金支持,也有助于其在国际市场上拓展。智谱AI在人工智能领域的发展势头强劲,受到国际资本关注。

【AiBase提要:】

🌐 智谱AI获得沙特阿美旗下Prosperity7 的 4 亿美元投资,估值达 30 亿美元。

💡 智谱AI是清华大学计算机系技术成果转化公司,由唐杰教授领衔,在生成式人工智能领域取得显著成就。

💰 智谱AI曾获得超过 25 亿元人民币融资,参与方包括多家知名机构和公司。

举报

  • 相关推荐
  • 技术赋能强防护,QQ平台严打网络诈 骗

    QQ平台持续加强反诈力度,通过技术赋能、生态协同等手段,重点打击仿冒、游戏、工具类诈 骗及涉未成年人诈 骗。上半年处置涉诈账号超450万个,协助公安机关破获多起案件。平台优化安全提醒机制,推出智能反诈助手,日均处理咨询3万余次,劝阻成功率89%。未来将持续完善技术防控,呼吁用户提高防范意识,共建清朗网络空间。

  • 海尔空调构建两大网络助力份额提升

    8月28日,海尔智家发布2025半年报,空调业务表现亮眼:线下市场份额达19.7%,同比提升1.2个百分点;线上份额11.3%,增长1个百分点。公司依托“两大网络”战略推进渠道转型,通过产品优化、营销创新及供应链全球布局,持续提升竞争力。数字库存模式已在实践中取得实效,东北地区夏季高温期间销售额增量超3亿元。预计全年收入有望实现两位数增长。

  • 华为MatePad Mini外观公布 支持蜂窝网络通话功能

    华为今日正式官宣,将于9月4日推出全新MatePad Mini小尺寸平板,并同步公开产品外观海报。这款被业界称为"大号手机"的新品,采用圆形后摄模组设计,内置双摄像头与闪光灯组件,正面配备侧边单挖孔全面屏,整体造型兼具便携性与辨识度。 海报细节透露关键功能突破——通话界面与信号标识的显示,证实MatePad Mini将支持蜂窝网络通话功能,实现平板与手机的形态融�

  • 顺丰同城(09699)上半年收入净利润双高增,结合AI、无人车优化配送网络效率

    顺丰同城2025年上半年业绩亮眼,收入同比增长48.8%至102.36亿元,首次半年营收破百亿;毛利润增长43.8%至6.81亿元,净利润增长120.4%至1.37亿元。增长主要受益于餐饮外卖及即时零售行业快速发展,同城配送订单量增长超50%。公司深化与头部客户合作,覆盖餐饮、商超、医药等多场景,无人车配送和AI技术应用提升运营效率,累计投入超300台无人车覆盖60多个城市。

  • 汇通达网络 + 掌门人传媒:共拓“线上+线下”融合新生态

    8月18日,汇通达网络与掌阅人传媒集团签署合作协议,共同成立"河南掌汇供应链管理有限公司"。双方将在品牌打造、产品开发、渠道融合等多维度开展合作,实现"全域内容+品牌运营"的产业布局。掌阅人传媒深耕广告营销和品牌线上运营十余年,拥有20多个成熟自主品牌;汇通达网络在下沉市场积累深厚资源。此次合作将通过资源深度整合,提升双方影响力,探索新零售环境下供应链创新模式,为品牌方、渠道商及终端消费者创造更大价值,尤其在潜力巨大的下沉市场开拓全新增长空间。

  • AI日报:抖音打击AI技术滥用行为;OpenAI 收购开发数据分析平台 Statsig;ElevenLabs 音效模型更新

    抖音打击AI技术滥用行为,对违规商家和达人采取下架、清退等措施。ElevenLabs音效模型升级至版本2,支持长音频和无缝循环。OpenAI收购数据分析平台Statsig,增强产品迭代能力。亚马逊推出Lens Live AI功能,实时扫描购物。谷歌AI推出Stax工具,帮助开发者评估大语言模型。WordPress推出AI工具Telex简化网站构建。Liquid AI发布LFM2-VL模型,提升手机视觉语言处理。苹果开源FastVLM与MobileCLIP2模型,优化边缘设备AI应用。MetaGPT推出自动化测试工具RealDevWorld,精准率达92%。瑞士发布开源大模型Apertus,提供多语言处理能力。

  • 业界首例中国电信完成长距跨DC分布式无损智算推理网络技术验证

    中国电信广东公司联合中国电信研究院在智算网络领域实现重大突破,成功完成DeepSeek-671B满血版长距跨数据中心分布式无损计算推理网络技术验证。该成果为企业按需扩容算力及推理数据本地化存储提供了突破性技术方案,标志着中国电信在智算网络技术创新上迈出关键一步。

  • 35岁仓库工自制器械练就超强腹肌 “指尖健腹轮”走红网络

    ​浙江金华一名35岁的仓库工人蔺先生近日因自制超微型健身器械走红网络。他利用金属轴承等材料,打造出直径仅1厘米的迷你健腹轮,甚至还制作了直径0.5厘米的升级版,通过指尖发力完成高难度核心训练,开创出独特的“硬核虐腹”健身法。 据蔺先生介绍,这套微型器械的创作灵感源于传统健腹轮训练的进阶需求。“常规器械主要依靠手臂和核心力量,而缩小到1厘米后�

  • 微算法科技(NASDAQ: MLGO)引入高级区块链DSR算法:重塑区块链网络安全新范式

    区块链技术快速发展,广泛应用于金融、医疗、供应链等领域,但安全性问题成为发展瓶颈。微算科技推出动态源路由(DSR)算法,通过节点自主学习和多路径选择,结合数字签名与哈希验证,提升网络抗攻击能力。该算法在路径发现、验证和动态调整阶段优化性能,降低广播开销65%,保障92%路径覆盖率。相比传统机制,DSR在安全性和效率上显著提升,支持跨境支付、物联网及医疗数据传输等场景,未来将向智能化、轻量化演进,并应对量子计算威胁。

  • 都是做AI应用,为什么「美图」能持续让用户付费

    这是《窄播Weekly》的第65期,本期我们关注的商业动态是:美图抓住AI带来的战略机遇,让付费订阅收入实现了连续增长,超过广告业务成为主要营收支柱。 美团在8月18日发布的最新一份财报显示,其2025年上半年总收入为18亿元,经调整归母净利润为4.7亿元,同比增长71.3%。其中,以付费订阅为主的影像与设计产品业务收入达到13.5亿元,同比增长45.2%,占总收入的74%。 这背后是

今日大家都在搜的词: