首页 > 业界 > 关键词  > Gemini最新资讯  > 正文

AI日报:谷歌推Gemini 1.5 Pro实验版本0801;图像生成开源模型FLUX1横空出世;极速3D图像生成模型Stable Fast 3D发布;阿里语音合成模型CosyVoice更新

2024-08-02 15:05 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、谷歌推超强多模态模型实验版Gemini1.5Pro,排名领先GPT-4o、Claude-3.5Sonnet

谷歌今天推出了Gemini1.5Pro实验版本0801,在人工智能领域取得重大突破。Gemini1.5Pro在多任务表现出色,具有多模态能力和广阔上下文窗口,引发了AI发展和社会影响的讨论。

image.png

【AiBase提要:】

🚀 谷歌推出Gemini1.5Pro实验版本0801,在排行榜上领先竞争对手。

💪 该模型在多任务中表现出色,具有多模态能力和广阔上下文窗口。

⚖️ 发布引发AI发展和社会影响的讨论,谷歌寻求反馈以完善模型。

详情链接:https://top.aibase.com/tool/gemini-pro

2、AI图像生成迎来新霸主!开源模型FLUX.1横空出世,Midjourney、DALL·E3紧张了?

在人工智能领域,每一天都可能发生颠覆性的变革。FLUX.1作为一匹令人瞩目的黑马,以其强大性能和开源特性引爆了AI圈。创始人Robin Rombach的权威背景和FLUX.1的创新架构使其成为AI图像生成领域的新霸主,为整个AI行业注入新活力。

image.png

【AiBase提要:】

🚀 FLUX.1超越闭源模型和开源SD3系列,性能大幅领先

💡 基于Vision Transformer架构,采用流程匹配训练方法,提升模型性能

🌟 FLUX.1展现出在文本嵌入图片等方面的明显优势

详情链接:https://github.com/black-forest-labs/flux

3、Stability AI推新AI模型Stable Fast3D:半秒内生成3D图像 速度提升1200倍

Stability AI最新推出的Stable Fast3D技术实现了从单张图像快速生成3D图像,处理速度比之前快1200倍,具有广泛的实用价值。该技术基于先进的生成式AI模型,为设计、建筑、零售、虚拟现实和游戏开发等多个行业带来革命性变革。

image.png

【AiBase提要:】

😃Stable Fast3D技术实现半秒内生成3D图像,速度大幅提升

👍新模型在设计、建筑、零售、虚拟现实和游戏开发等多个行业具有实用价值

👏Stability AI持续引领图像生成技术发展,从2D到4D不断创新

详情链接:https://top.aibase.com/tool/stable-fast-3d

4、AI视频创作平台Hedra融资1000万美元

近日,AI视频创作领域迎来重磅消息,Hedra成功筹集1000万美元种子资金,引发广泛关注。Hedra推出了视频基础模型Character-1,已有超35万用户创作超160万视频,部分走红网络。多家公司推出视频生成模型,大公司积极参与AI驱动的视频创作。

【AiBase提要:】

🔥 Hedra获1000万美元种子资金,推出Character-1模型。

💡 超35万用户使用Character-1创作超160万视频,部分走红网络。

🚀 多家公司推出视频生成模型,大公司积极参与AI驱动的视频创作。

详情链接:https://www.hedra.com/blog/announcement

5、阿里语音合成模型CosyVoice更新 让AI说话更有人味儿

阿里巴巴推出的最新语音合成模型CosyVoice展示了未来人机交互的美好蓝图,逼真度和灵活性令人惊叹。该技术不仅能生成符合特定性别、年龄和个性的声音,还能模拟人类说话时的自然特征,添加情感和风格,使AI表达更加丰富多彩。CosyVoice与SenseVoice构成FunAudioLLM框架,提升语音交互体验,支持多语言识别和情感识别。技术突破预示着人机交互将迎来全新时代,为教育、娱乐、客户服务等领域带来革命性变化。

【AiBase提要:】

🤖 CosyVoice模型展示未来人机交互蓝图,逼真灵活,生成符合性别、年龄、个性声音,模拟自然特征,添加情感风格。

🔊 FunAudioLLM框架提升语音交互体验,SenseVoice支持多语言识别和情感识别,反应速度快,应用前景广泛。

📚 技术突破预示人机交互新时代,CosyVoice和FunAudioLLM为教育、娱乐、客户服务等领域带来革命性变化。

详情链接:https://top.aibase.com/tool/cosyvoice

6、阿里国际站AI生意助手再升级:文本类AI生成能力完全免费

阿里巴巴国际站总裁张阔宣布AI生意助手的全新发布,包括极简发品功能和AI自动接待功能。AI技术的应用显著降低外贸行业门槛,已有3万家中小企业使用,优化后的商品曝光量提高了37%,支付转化率提升了50%。AI生意助手成为商家高效经营和快速接单的得力助手。更新的三大权益提供更灵活的使用方式,文本类AI生成能力免费,不满意的功能可免费二次生成。将持续更新更多功能。

【AiBase提要:】

🚀 AI生意助手极简发品功能缩短商家发布时间至最快60秒。

💬 AI自动接待功能提升海外买家二次回复率约40%。

💡 AI技术应用降低外贸行业门槛,3万家中小企业使用,商品曝光量提高37%,支付转化率提升50%。

7、桌面ChromeAI搜索升级,引入类似Circle to Search的功能

Google Lens在桌面版Chrome中进行AI驱动的升级,为用户带来更便捷的搜索体验。用户可以通过点击搜索框中的新按钮激活Google Lens,实现多重搜索并查看文本和图像搜索结果。此更新将全球推出,部分功能仅对美国用户开放。另外,Chrome还新增了AI功能,允许用户通过提问搜索历史来查找链接。这些功能将逐步在未来几天或几周内在美国用户中推出。

image.png

【AiBase提要:】

🌐 Google Lens在桌面版Chrome进行AI驱动升级,用户可通过点击搜索框按钮激活并进行多重搜索。

📅 更新将在“未来几天”全球推出,部分功能仅对美国用户开放。

💬 Chrome新增可询问搜索历史的AI功能,将“在未来几周内”在美国推出,用户可选择,目前依靠云模型提供结果。

8、以色列人工智能初创公司aiOla推出超高速开源语音识别模型Whisper-Medusa

aiOla推出的Whisper-Medusa语音识别模型在速度上比OpenAI的Whisper提升了50%,并保持了准确性。这一举措将加快语音应用的响应速度,提升效率,降低成本。

image.png

【AiBase提要:】

💥 速度提升50%: Whisper-Medusa比OpenAI的Whisper速度快50%

🎯 不损准确性: Whisper-Medusa在提升速度的同时保持了与原模型相同的准确性

📈 应用前景广: Whisper-Medusa有望加快语音应用的响应速度,提升效率,降低成本

9、Suno声称用受版权保护的音乐进行训练模型是“合理使用”

本文报道了美国唱片业协会(RIAA)对音乐生成初创公司 Udio 和 Suno 提起诉讼的情况。Suno 承认使用受版权保护的音乐训练其 AI 模型,并声称这属于合理使用。RIAA 对此表示不认同,认为这是侵权行为。案件结果可能影响相关领域的先例。

【AiBase提要:】

🎶 RIAA 起诉 Udio 和 Suno 使用版权音乐训练模型。

💻 Suno 承认用受版权保护的音乐进行训练模型,但称此为合理使用。

👀 案件结果可能开创影响相关领域的先例。

10、微软首次在SEC文件中将OpenAI列为竞争对手

微软近日在提交给美国证券交易委员会(SEC)的年度10K报告中,首次将其长期合作伙伴OpenAI列为竞争对手,引发业界猜测。这一举动可能受当前反垄断环境影响,微软与OpenAI的关系走向仍有待观察。

【AiBase提要:】

🔍 微软将OpenAI列为竞争对手,引发业界关注。

💰 微软投资OpenAI130亿美元,成为独家云提供商。

🔄 合作伙伴与竞争对手并非互斥,微软与OpenAI关系变化有先例。

11、库克称苹果AI将推动用户升级

苹果公司在2024年第三财季取得了稳健的财务业绩,尤其是服务营收实现了增长。蒂姆·库克透露了关于Apple Intelligence的部分特性和未来发布的新款iPhone16,展望了苹果在人工智能领域的发展。

image.png

【AiBase提要:】

📈 苹果公司2024年第三财季总净营收达857.77亿美元,同比增长5%。

📱 iPhone营收达392.96亿美元,Mac和iPad营收增长,服务营收达242.13亿美元。

🚀 Apple Intelligence功能将逐步推出,新款iPhone16即将发布,将支持AI技术。

12、300余名视频游戏演员联合抗议 声讨好莱坞无监管AI使用!

在好莱坞星光闪耀的背后,演员们团结起来抗议无监管AI使用,维护自身权益。这场抗议凸显了人工智能时代下演员生存权的重要性。

【AiBase提要:】

🎭 演员抗议无监管AI使用,维护权益。

💼 人工智能威胁演员生存,声音形象或被滥用。

💰 演员与游戏公司谈判僵局,关键在于谁是表演者。

13、港大与MIT联手打造ItiNera:你的私人AI导游,一键规划完美Citywalk路线!

在都市的喧嚣中,每个人都渴望一场说走就走的citywalk,穿梭于大街小巷,探索历史遗迹,沉浸在当地文化之中。ItiNera系统通过结合空间优化与大型语言模型,提供个性化的城市行程规划服务,为旅行者带来全新的探索城市方式。

image.png

【AiBase提要:】

🌆 ItiNera是开放域城市行程规划系统,能根据用户自然语言描述生成个性化行程。

🗺️ ItiNera利用LLM与空间优化模块,提取和排序POIs,打造空间连贯的行程。

🔓 ItiNera已在TuTu在线旅行服务上部署,吸引数千用户使用其城市旅行规划服务。

详情链接:https://arxiv.org/pdf/2402.07204

举报

  • 相关推荐
  • Google Gemini vs Deepseek:谁更适合你的业务场景?AI大模型选型终极对比指南

    企业在选择大模型时面临两难:国际大厂的Gemini技术先进,但国内DeepSeek性价比突出。AIbase平台通过真实场景测试数据指出:1)跨境电商客服场景中,Gemini多语言识别准确率提升12%,但需注意API延迟问题;2)金融研报分析场景下,DeepSeek支持128K长文本且成本仅为Gemini的1/3。决策关键:抛开参数迷雾,聚焦成本、响应速度、语言支持和场景匹配四大维度。AIbase提供可视化对比工具,3分钟生成专属选型报告,让技术决策不再玄学。

  • GPT-5正式发布:与Claude 4、Gemini 2.5等主流大模型谁更胜一筹?

    2025年8月7日,OpenAI正式发布GPT-5,官方称其为"最智能、最快速、最实用"的AI模型。GPT-5在数学推理能力上大幅提升,在AIME2025测试中取得94.6%的高分,处理速度也有明显改善。但与竞争对手相比仍存在差距:Claude4在代码生成和逻辑推理方面表现优异,支持200K token长文本;Gemini2.5具备2M超大上下文窗口和全模态支持;国产模型DeepSeek R1在中文理解和性价比方面具有优势。AI�

  • AI大模型选型决策指南:10分钟数据对比 Gemini 2.5 Flash-Lite 与 DeepSeek R1

    本文探讨大模型选型困境与解决方案。2025年全球可调用大模型超300个,但选型面临三大难题:单位混乱、定价波动快、87%团队无法量化模型价值。提出三层漏斗筛选法:1)场景刚需筛选80%选项;2)验证核心性能;3)评估边际效益。以Gemini和DeepSeek为例,前者适合常规FAQ场景年省$16,000,后者适用于金融计算场景可降低15%人工复核。建议建立动态评估体系,将3小时选型会议压缩至18分钟,错误率下降40%。核心观点:选型应从参数争论转向场景验证,通过自动化工具为工程师节省时间,聚焦提示词优化而非参数对比。

  • 大模型对比评测:Qwen2.5 VS Gemini 2.0谁更能打?

    本文对比分析了四款AI大模型:Gemini2.0Flash-Lite(Preview)、Gemini2.0Flash(Experimental)、Gemini2.0Pro Experimental(Feb25)和Qwen2.5Coder Instruct32B。Gemini2.0Flash-Lite适合高并发低延迟应用,Gemini2.0Flash擅长实时多模态推理,Gemini2.0Pro适合复杂编程任务,Qwen2.5Coder在代码任务上性价比突出。建议使用AIbase模型广场进行高效筛选,该平台覆盖上万款AI模型,提供性能、价格等多维度直观对比,支持按任务类型、语言等精准筛选,并持续更新最新模型。

  • 王腾晒出REDMI Note 15 Pro:云霞紫配色亮相

    REDMI总经理王腾在社交平台晒出了REDMI Note15Pro的官方照片,引发了广泛关注。 王腾介绍称,Note15Pro不仅拥有与Pro+同款的耐用品质,更采用了直屏形态设计,搭配优雅的大R角和超窄边框,旗舰级的质感扑面而来。他特别推荐了云霞紫配色,其细腻的云纹设计为整机增添了一抹灵动与时尚。 王腾进一步强调,Note15系列将品质从实验室带入了真实生活场景,提出了“耐久品质”的

  • REDMI Note 15 Pro+外观公布:配备全等深微曲屏幕与机身

    今日,REDMI官方正式宣布,Note15系列将于8月21日(周四)19:00盛大发布。与此同时,官方还抢先公布了Note15Pro+的外观图片,全方位展示了这款新机的精致细节,引发了广大消费者的热烈关注。 从公布的图片来看,Note15Pro+背部延续了前代标志性的“四筒”造型,整体呈现居中对称设计,但机身在设计和质感上实现了显著提升。此次,新机首次采用了全等深微曲机身与全等深微曲

  • REDMI Note 15 Pro系列官宣下周发布

    REDMI官方正式宣布,备受瞩目的Note15Pro系列将于下周与消费者见面。官方宣称,该系列将以“耐用品质,打造品质里程碑之作;用真实场景,定义实战之王”,彰显其在品质与实用性上的双重追求。 据小米中国区市场部总经理、REDMI品牌总经理王腾透露,实战是检验品质的唯一标准。对于REDMI Note15Pro系列而言,好品质意味着要能够经受住真实生活中复杂、高频、极限场景的考验�

  • REDMI Note 15 Pro系列官宣本月发布

    近日,小米中国区市场部总经理、REDMI品牌总经理王腾发文带来重磅消息。他透露,REDMI Note系列已成功出海超百个国家,并且在2025年上半年,成为175~499价位段全球最热销的国产手机,展现出强大的市场竞争力。 与此同时,王腾正式宣布REDMI Note15Pro系列将于本月正式发布。他强调,该系列以2025顶级标准精心打造,全系品质实现全面升级,在整机用料、品质标准以及保障服务�

  • REDMI Note 15 Pro系列支持IP66/IP68/IP69/IP69K

    近日,REDMI官方宣布,备受期待的Note15Pro系列将于8月21日19:00正式亮相,目前新机已进入紧锣密鼓的预热阶段。 据官方透露,REDMI Note15Pro系列在防水性能上实现了重大突破,不仅全面支持IP66、IP68、IP69防水等级,更创新性地新增了IP69K认证,这意味着该系列手机能够长时间抵御高温高压喷水的侵袭,并通过了行业首个五星长效防水品质认证。REDMI手机方面表示,即便模拟用户真�

  • 海信电视E5N Pro为何是百吋“性价比之王”?

    文章探讨了百寸电视进入普通家庭后如何衡量"性价比"的问题。以海信电视E5N Pro为例,指出新时代的性价比应包含性能基准、全场景适用性和长期持有成本等综合价值体系。关键点包括:1)核心体验是首要前提,需具备强大芯片处理能力;2)240Hz高刷新率成为重要参数;3)抗光能力影响日常使用时长;4)先进背光技术可降低20%以上能耗。文章强调,百寸电视的性价比不再是单纯价格游戏,而是性能、体验与长期使用成本的平衡。海信E5N Pro等产品之所以受关注,正是找到了令消费者信服的平衡点。

今日大家都在搜的词: