首页 > 业界 > 关键词  > Gemini最新资讯  > 正文

AI日报:谷歌推Gemini 1.5 Pro实验版本0801;图像生成开源模型FLUX1横空出世;极速3D图像生成模型Stable Fast 3D发布;阿里语音合成模型CosyVoice更新

2024-08-02 15:05 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、谷歌推超强多模态模型实验版Gemini1.5Pro,排名领先GPT-4o、Claude-3.5Sonnet

谷歌今天推出了Gemini1.5Pro实验版本0801,在人工智能领域取得重大突破。Gemini1.5Pro在多任务表现出色,具有多模态能力和广阔上下文窗口,引发了AI发展和社会影响的讨论。

image.png

【AiBase提要:】

🚀 谷歌推出Gemini1.5Pro实验版本0801,在排行榜上领先竞争对手。

💪 该模型在多任务中表现出色,具有多模态能力和广阔上下文窗口。

⚖️ 发布引发AI发展和社会影响的讨论,谷歌寻求反馈以完善模型。

详情链接:https://top.aibase.com/tool/gemini-pro

2、AI图像生成迎来新霸主!开源模型FLUX.1横空出世,Midjourney、DALL·E3紧张了?

在人工智能领域,每一天都可能发生颠覆性的变革。FLUX.1作为一匹令人瞩目的黑马,以其强大性能和开源特性引爆了AI圈。创始人Robin Rombach的权威背景和FLUX.1的创新架构使其成为AI图像生成领域的新霸主,为整个AI行业注入新活力。

image.png

【AiBase提要:】

🚀 FLUX.1超越闭源模型和开源SD3系列,性能大幅领先

💡 基于Vision Transformer架构,采用流程匹配训练方法,提升模型性能

🌟 FLUX.1展现出在文本嵌入图片等方面的明显优势

详情链接:https://github.com/black-forest-labs/flux

3、Stability AI推新AI模型Stable Fast3D:半秒内生成3D图像 速度提升1200倍

Stability AI最新推出的Stable Fast3D技术实现了从单张图像快速生成3D图像,处理速度比之前快1200倍,具有广泛的实用价值。该技术基于先进的生成式AI模型,为设计、建筑、零售、虚拟现实和游戏开发等多个行业带来革命性变革。

image.png

【AiBase提要:】

😃Stable Fast3D技术实现半秒内生成3D图像,速度大幅提升

👍新模型在设计、建筑、零售、虚拟现实和游戏开发等多个行业具有实用价值

👏Stability AI持续引领图像生成技术发展,从2D到4D不断创新

详情链接:https://top.aibase.com/tool/stable-fast-3d

4、AI视频创作平台Hedra融资1000万美元

近日,AI视频创作领域迎来重磅消息,Hedra成功筹集1000万美元种子资金,引发广泛关注。Hedra推出了视频基础模型Character-1,已有超35万用户创作超160万视频,部分走红网络。多家公司推出视频生成模型,大公司积极参与AI驱动的视频创作。

【AiBase提要:】

🔥 Hedra获1000万美元种子资金,推出Character-1模型。

💡 超35万用户使用Character-1创作超160万视频,部分走红网络。

🚀 多家公司推出视频生成模型,大公司积极参与AI驱动的视频创作。

详情链接:https://www.hedra.com/blog/announcement

5、阿里语音合成模型CosyVoice更新 让AI说话更有人味儿

阿里巴巴推出的最新语音合成模型CosyVoice展示了未来人机交互的美好蓝图,逼真度和灵活性令人惊叹。该技术不仅能生成符合特定性别、年龄和个性的声音,还能模拟人类说话时的自然特征,添加情感和风格,使AI表达更加丰富多彩。CosyVoice与SenseVoice构成FunAudioLLM框架,提升语音交互体验,支持多语言识别和情感识别。技术突破预示着人机交互将迎来全新时代,为教育、娱乐、客户服务等领域带来革命性变化。

【AiBase提要:】

🤖 CosyVoice模型展示未来人机交互蓝图,逼真灵活,生成符合性别、年龄、个性声音,模拟自然特征,添加情感风格。

🔊 FunAudioLLM框架提升语音交互体验,SenseVoice支持多语言识别和情感识别,反应速度快,应用前景广泛。

📚 技术突破预示人机交互新时代,CosyVoice和FunAudioLLM为教育、娱乐、客户服务等领域带来革命性变化。

详情链接:https://top.aibase.com/tool/cosyvoice

6、阿里国际站AI生意助手再升级:文本类AI生成能力完全免费

阿里巴巴国际站总裁张阔宣布AI生意助手的全新发布,包括极简发品功能和AI自动接待功能。AI技术的应用显著降低外贸行业门槛,已有3万家中小企业使用,优化后的商品曝光量提高了37%,支付转化率提升了50%。AI生意助手成为商家高效经营和快速接单的得力助手。更新的三大权益提供更灵活的使用方式,文本类AI生成能力免费,不满意的功能可免费二次生成。将持续更新更多功能。

【AiBase提要:】

🚀 AI生意助手极简发品功能缩短商家发布时间至最快60秒。

💬 AI自动接待功能提升海外买家二次回复率约40%。

💡 AI技术应用降低外贸行业门槛,3万家中小企业使用,商品曝光量提高37%,支付转化率提升50%。

7、桌面ChromeAI搜索升级,引入类似Circle to Search的功能

Google Lens在桌面版Chrome中进行AI驱动的升级,为用户带来更便捷的搜索体验。用户可以通过点击搜索框中的新按钮激活Google Lens,实现多重搜索并查看文本和图像搜索结果。此更新将全球推出,部分功能仅对美国用户开放。另外,Chrome还新增了AI功能,允许用户通过提问搜索历史来查找链接。这些功能将逐步在未来几天或几周内在美国用户中推出。

image.png

【AiBase提要:】

🌐 Google Lens在桌面版Chrome进行AI驱动升级,用户可通过点击搜索框按钮激活并进行多重搜索。

📅 更新将在“未来几天”全球推出,部分功能仅对美国用户开放。

💬 Chrome新增可询问搜索历史的AI功能,将“在未来几周内”在美国推出,用户可选择,目前依靠云模型提供结果。

8、以色列人工智能初创公司aiOla推出超高速开源语音识别模型Whisper-Medusa

aiOla推出的Whisper-Medusa语音识别模型在速度上比OpenAI的Whisper提升了50%,并保持了准确性。这一举措将加快语音应用的响应速度,提升效率,降低成本。

image.png

【AiBase提要:】

💥 速度提升50%: Whisper-Medusa比OpenAI的Whisper速度快50%

🎯 不损准确性: Whisper-Medusa在提升速度的同时保持了与原模型相同的准确性

📈 应用前景广: Whisper-Medusa有望加快语音应用的响应速度,提升效率,降低成本

9、Suno声称用受版权保护的音乐进行训练模型是“合理使用”

本文报道了美国唱片业协会(RIAA)对音乐生成初创公司 Udio 和 Suno 提起诉讼的情况。Suno 承认使用受版权保护的音乐训练其 AI 模型,并声称这属于合理使用。RIAA 对此表示不认同,认为这是侵权行为。案件结果可能影响相关领域的先例。

【AiBase提要:】

🎶 RIAA 起诉 Udio 和 Suno 使用版权音乐训练模型。

💻 Suno 承认用受版权保护的音乐进行训练模型,但称此为合理使用。

👀 案件结果可能开创影响相关领域的先例。

10、微软首次在SEC文件中将OpenAI列为竞争对手

微软近日在提交给美国证券交易委员会(SEC)的年度10K报告中,首次将其长期合作伙伴OpenAI列为竞争对手,引发业界猜测。这一举动可能受当前反垄断环境影响,微软与OpenAI的关系走向仍有待观察。

【AiBase提要:】

🔍 微软将OpenAI列为竞争对手,引发业界关注。

💰 微软投资OpenAI130亿美元,成为独家云提供商。

🔄 合作伙伴与竞争对手并非互斥,微软与OpenAI关系变化有先例。

11、库克称苹果AI将推动用户升级

苹果公司在2024年第三财季取得了稳健的财务业绩,尤其是服务营收实现了增长。蒂姆·库克透露了关于Apple Intelligence的部分特性和未来发布的新款iPhone16,展望了苹果在人工智能领域的发展。

image.png

【AiBase提要:】

📈 苹果公司2024年第三财季总净营收达857.77亿美元,同比增长5%。

📱 iPhone营收达392.96亿美元,Mac和iPad营收增长,服务营收达242.13亿美元。

🚀 Apple Intelligence功能将逐步推出,新款iPhone16即将发布,将支持AI技术。

12、300余名视频游戏演员联合抗议 声讨好莱坞无监管AI使用!

在好莱坞星光闪耀的背后,演员们团结起来抗议无监管AI使用,维护自身权益。这场抗议凸显了人工智能时代下演员生存权的重要性。

【AiBase提要:】

🎭 演员抗议无监管AI使用,维护权益。

💼 人工智能威胁演员生存,声音形象或被滥用。

💰 演员与游戏公司谈判僵局,关键在于谁是表演者。

13、港大与MIT联手打造ItiNera:你的私人AI导游,一键规划完美Citywalk路线!

在都市的喧嚣中,每个人都渴望一场说走就走的citywalk,穿梭于大街小巷,探索历史遗迹,沉浸在当地文化之中。ItiNera系统通过结合空间优化与大型语言模型,提供个性化的城市行程规划服务,为旅行者带来全新的探索城市方式。

image.png

【AiBase提要:】

🌆 ItiNera是开放域城市行程规划系统,能根据用户自然语言描述生成个性化行程。

🗺️ ItiNera利用LLM与空间优化模块,提取和排序POIs,打造空间连贯的行程。

🔓 ItiNera已在TuTu在线旅行服务上部署,吸引数千用户使用其城市旅行规划服务。

详情链接:https://arxiv.org/pdf/2402.07204

举报

  • 相关推荐
  • 仅用三张图像即可生成 3D 场景,苹果新 AI 模型“很惊人”

    只需三张输入图像,Matrix3D 就能生成物体、甚至整个环境的详细 3D 重建,这显然可以为 Apple Vision Pro 等沉浸式头显带来非常有趣的应用……

  • AI日报:通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabsv3语音模型

    本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

  • AI日报阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源;黑森林实验室推出FLUX.1Kontext

    【AI日报】今日AI领域重要动态:1)阿里云推出通义灵码AI IDE,集成千问3模型,显著提升编程效率;2)小米开源多模态大模型MiMo-VL-7B,性能超越更大规模闭源模型;3)黑森林实验室发布FLUX.1Kontext图像生成模型,支持文本和参考图像多次编辑;4)Midjourney V7渲染速度提升40%,新增用户投票功能;5)DeepSeek R1-0528大模型在AGI领域取得突破,性能超越xAI等公司;6)Hugging Face进军机器人市场,推出开源人形机器人HopeJR;7)字节跳动火山方舟接入DeepSeek最新大模型;8)Anthropic开源"电路追踪"工具,揭示大模型决策过程;9)阿里巴巴开源自主搜索AI智能体WebAgent;10)Hume发布低延迟语音语言模型EVI3;11)Manus Slides支持一键生成专业幻灯片;12)Runway Gen-4 References支持手机照片艺术化处理。

  • AI日报:豆包大模型1.6发布;OpenAIo3-pro模型、o3价格暴降80%;Figma官方MCP重磅上线

    【AI日报】今日AI领域重要动态:1)火山引擎发布豆包大模型1.6和视频生成模型Seedance1.0pro,性能显著提升;2)OpenAI推出o3-pro模型,专注可靠性但响应较慢;3)Figma推出Dev Mode MCP服务,实现设计到代码一键转换;4)Krea AI发布图像生成模型Krea1,解决传统AI绘图问题;5)火山引擎豆包日调用量突破16.4万亿次;6)法国Mistral发布推理模型Magistral;7)苹果系统整合ChatGPT图像生成功能;8)OpenAI大幅下调o3价格80%并推出o3-pro;9)Hugging Face开源榜单显示中国团队Qwen与DeepSeek进入全球前15;10)阿里开源MaskSearch框架,提升AI解决复杂问题能力。

  • AI日报阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • AI日报:DeepSeek开源R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

  • AI日报谷歌推最强AI全家桶Google AI Ultra;腾讯混元宣布模型矩阵全面升级;豆包·语音播客模型发布

    本文汇总了近期AI领域的重要动态:1)谷歌推出249.99美元/月的AI Ultra订阅计划,提供最强AI模型和高级功能;2)腾讯混元模型升级,新增视觉推理T1-Vision和语音对话模型;3)美图获阿里2.5亿美元投资,将在电商和AI领域合作;4)豆包推出语音播客模型,实现文本快速转音频;5)百度文心X1 Turbo获信通院最高评级;6)谷歌发布Flow AI剪辑工具,集成Veo3等三大模型;7)谷歌Veo3支持4K视频生成;8)Imagen4图像模型发布;9)Gemini2.5 Pro新增并行推理功能;10)谷歌推出虚拟试衣工具;11)公测AI编程助手Jules;12)苹果计划在iOS19开放AI模型;13)京东云推五大免费AI营销工具;14)字节开源多模态模型BAGEL;15)英伟达发布物理推理模型Cosmos-Reason1。

  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • AI日报:GPT-4.1正式上线ChatGPT阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • 豆包视频生成模型Seedance 1.0 lite发布:“迅速生成影视级的视频”

    火山引擎在FORCE LINK AI创新巡展上发布多款AI模型升级产品:1)Seedance 1.0 lite视频生成模型,支持5-10秒480P/720P视频生成,具备影视级画质和生成速度优势,适用于电商广告、影视创作等场景;2)豆包1.5视觉深度思考模型,仅20B参数但具备多模态理解能力,在60项基准测试中38项达SOTA水平;3)升级版豆包音乐模型,新增英文歌曲创作功能,并能根据视频内容自动适配BGM。目前这些模型已在火山方舟平台和豆包APP上线。