11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
腾讯云
12-20
本文介绍了近期AI领域多项重要进展:阿里发布Qwen3-TTS语音合成模型,支持49种音色和10种语言;推出全模态大模型Qwen3-Omni-Flash,支持实时流式交互。谷歌上线Gemini TTS 2.5,具备情绪化表达和多语言支持。商汤科技推出Seko 2.0,可一句话生成百集连贯动画。此外,DeepSeek入选年度汉字候选,Adobe与ChatGPT合作推出图像与PDF编辑功能,腾讯元宝AI推出QQ群消息总结功能,以及ChatGPT登顶美国苹果应用商店免费榜。这些进展展示了AI技术在语音、多模态、内容生成及日常应用方面的快速发展与普及。
豆包输入法于11月25日正式上线,为输入法市场注入新活力。目前安卓用户可通过官网和应用商店下载,iOS版即将推出。该输入法依托豆包App同款语音模型,在语音识别和语义理解方面表现卓越,支持多种方言、英语及中英混合输入,错误率比其他输入法低20%-50%。键盘输入同样出色,能自动纠错并智能预测后续内容。此外,页面简洁无广告,支持离线语音输入,操作便捷高效,有望成为用户新选择。
本期AI日报聚焦多项技术突破:豆包推出全自动有声剧系统,实现98%角色识别准确率;Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成;Soul发布90分钟无中断播客生成模型;360推出全球首款L2-L4全栈智能平台;IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面,移动端AI用户突破7亿,豆包领跑原生应用;PayPal与OpenAI合作使ChatGPT集成支付功能;谷歌推出AI营销工具Pomelli,可基于URL自动生成营销内容。
本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。
亚马逊正式推出新一代生成式AI语音模型NovaSonic,标志着其在人工智能语音领域取得重大突破。这款创新模型能够原生处理语音输入并生成自然流畅的语音输出,在速度、语音识别准确率和对话质量等核心性能指标上,已达到与OpenAI、谷歌等科技巨头的尖端语音模型相媲美的水平。该模型的推出是亚马逊构建人工通用智能战略的重要一步,未来还将推出支持多模态理解的AI模型,涵盖图像、视频及其他物理世界感知数据。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里通义千问Qwen2.5-Omni登顶全球开源模型榜单2024年4月2日,HuggingFace发布了最新的大模型榜单,阿里巴巴的Qwen2.5-Omni凭借其卓越的性能和多模态能力,成功登顶,成为全球开源模�
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、OpenAI推全新语音转录模型gpt-4o-transcribe,语音转文字准确率飙升OpenAI近期推出了三款新语音模型,分别为:gpt-4o-transcribe,gpt-4o-mini-transcribeandgpt-4o-mini-tts,其中gpt-4o-transcribe备受关�
OpenAI最近总是喜欢搞突袭。昨晚11点的时候突然发了一个预告,4秒钟的音频的大概意思,就是太平洋时间10点我们发个产品。以上就是这一次OpenAI的全部发布了,熬夜肝完,为大家带来最新鲜的实测。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、OpenAI推出全新的模型系列OpenAIo1OpenAI推出了全新的模型系列OpenAIo1,这个新模型在推理能力上表现得更加出色,为解决复杂问题提供了更强的推理能力。结果显示了AI在处理复杂数�
阿里巴巴在Qwen-Audio基础之上,开源了最新语音模型Qwen2-Audio。Qwen2-Audio一共有基础和指令微调两个版本,支持使用语音向音频模型进行提问并识别内容以及语音分析。在SER和VSC测试中,Qwen2-Audio同样以显著成绩胜出。