首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:ChatGPT AI搜索免费开放;谷歌AI视频模型Veo2优于Sora;Midjourney重磅上新个性化模型与情绪板

2024-12-17 15:19 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用

新鲜AI产品点击了解:https://top.aibase.com/

1、OpenAI宣布ChatGPT搜索升级 支持地图、高级语音等功能

OpenAI在最新的直播中宣布了ChatGPT平台的重大技术更新,推出了实时搜索高级语音交互模式,极大提升了用户体验。通过优化搜索算法,用户能够快速获取实时信息,并直接查看源链接,增强了信息的便捷性。此外,新增的视频播放和地图集成功能,为用户提供了更直观的搜索体验,提升了移动端的搜索效率。

微信截图_20241217081801.png

【AiBase提要:】

📈 更新后的ChatGPT引入了实时搜索功能,优化了搜索算法,使用户能够快速获取股票和新闻等实时信息。

🗣️ 新增的高级语音交互模式允许用户通过语音进行多轮搜索,提供个性化的语音助手体验。

🗺️ ChatGPT现在支持地图集成功能,用户可以直接查看地理位置信息,进行路线规划和地点探索。

2、谷歌升级AI视频生成模型 Veo2,4K分辨率、人类偏好评分优于Sora

谷歌最近发布了其新一代视频生成模型Veo2,旨在与OpenAI的Sora竞争。Veo2在视频生成方面展现了更高的真实感和细腻度,用户可以通过Google Labs的VideoFX平台申请使用。此外,谷歌还更新了图像生成模型Imagen3,进一步提升了生成图像的真实感和色彩表现。

image.png

【AiBase提要:】

🎥 Veo2视频生成模型质量优于OpenAI的Sora,用户可申请使用。

🚀 用户可以选择视频风格和效果,生成最高可达4K分辨率的视频。

🎨 更新的Imagen3图像生成模型表现出更好的艺术风格和用户体验。

详情链接:https://labs.google/fx/tools/video-fx

3、Midjourney推出个性化模型与情绪板,可上传图像训练模型了

2024年12月16日,Midjourney公司推出了备受期待的“情绪版板”功能,允许用户上传灵感图像集以生成新艺术作品。配合最新的AI模型,用户可以更轻松地创建个性化资料,简化了模型建立过程,降低了新用户的入门门槛。此外,增强的组织功能使得用户能够更好地管理多个项目。

image.png

【AiBase提要:】

🌟 Midjourney推出心情板功能,用户可上传灵感图像集。

🚀 个性化资料的创建变得更简单,用户只需40个评分即可开始。

🛠️ 组织功能增强,用户可命名资料并追踪相关图像。

详情链接:https://www.midjourney.com/personalize

4、谷歌推出全新AI工具Whisk无需提示词,可多张图片混合生成新风格图像

谷歌最新推出的AI工具Whisk,显著改变了传统的图像生成方式,允许用户通过上传多张图片来生成新图像,而不再依赖于冗长的文字描述。Whisk的设计旨在快速进行视觉探索,用户可以轻松地将不同风格和主题的图像融合,创造出独特的视觉作品。尽管生成图像的过程可能需要几秒钟,并且有时结果会略显奇怪,但整体体验非常有趣。

image.png

【AiBase提要:】

🎨 Whisk允许用户通过多张图片生成新风格图像,颠覆了传统的文字提示方式。

✨ 用户可以上传不同主题的图片,自动融合生成有趣的视觉效果。

🚀 谷歌还发布了Imagen3和Veo2模型,进一步提升了图像和视频生成的能力。

详情链接:https://top.aibase.com/tool/whisk

5、YouTube新功能上线:允许创作者授权第三方使用视频训练AI

YouTube最近推出了一项新功能,允许创作者选择是否授权第三方公司使用他们的视频进行人工智能模型的训练。这一功能的默认设置为关闭,创作者如果不希望第三方使用他们的视频,无需采取任何行动。

【AiBase提要:】

🔒 默认设置为关闭,创作者需主动选择允许第三方使用其视频进行AI训练。

🤝 允许的第三方公司包括知名AI企业,如OpenAI、苹果和微软等。

📈 此功能旨在帮助创作者在AI时代实现内容的新价值。

6、图森未来发布图生视频模型“Ruyi” 并开源Ruyi-Mini-7B

北京图森未来科技有限公司于2024年12月17日发布了其首款“图生视频”大模型“Ruyi”,并开源了Ruyi-Mini-7B版本,供用户在huggingface平台下载使用。该模型专为消费级显卡设计,具备多种生成能力,尤其在动漫和游戏领域展现出色的视觉叙事潜力。尽管技术上取得进展,但仍需解决一些缺陷。

微信截图_20241217140324.png

【AiBase提要:】

🚀 Ruyi大模型专为消费级显卡设计,支持多分辨率和多时长的视频生成,能够处理384×384到1024×1024的分辨率。

🎨 模型在帧间一致性、动作流畅性和色彩呈现方面表现卓越,成为ACG爱好者的理想创意伙伴。

🔧 尽管技术上取得进展,Ruyi仍存在一些缺陷,如手部畸形和面部细节崩坏,图森未来正在努力改进。

详情链接:https://huggingface.co/IamCreateAI/Ruyi-Mini-7B

7、智谱AI完成30亿元融资 推动大模型技术研发与商业化

智谱公司近期成功完成30亿元人民币的新一轮融资,吸引了众多战略投资者和国资机构的参与。这笔资金将用于智谱基座大模型的研发升级,进一步提升其在复杂推理和多模态任务解决方面的能力。尽管面临市场竞争和技术进展放缓的挑战,智谱依然在AI行业中保持领先地位,并在全球范围内产生显著影响。【AiBase提要:】

🚀 智谱公司完成30亿元融资,资金将用于基座大模型的研发和升级,推动行业创新。

📈 今年智谱在B端市场实现逆势增长,API收入同比增长超过30倍,付费客户数增长20倍。

🌍 智谱的C端产品“智谱清言”吸引超过2500万用户,预计付费功能将带来千万级收入。

8、Meta 推出开源AI试衣模型 Leffa:保留更多细节

Meta最近推出了Leffa,一个开源的AI虚拟试穿框架,旨在通过生成新图像提升用户的穿衣体验。用户只需上传一张参考图片,系统便能生成新的穿搭效果,减少了因不合适而退换货的麻烦。Leffa在保留细节和减少图像失真方面表现出色,提供了更自然的试穿效果。

image.png

【AiBase提要:】

🌟 Leffa 是 Meta 推出的开源虚拟试穿框架,可以根据参考图像生成新图像。

👗 该框架能有效减少图像失真,保留更多细节,提高虚拟试穿体验。

💻 用户可在 Hugging Face 平台上试用 Leffa,同时 Meta 提供了完整的项目代码。

详情链接:https://github.com/franciszzj/Leffa

9、Diffusion-Vas:追踪视频目标,可补全遮挡部分

在视频分析领域,物体的持久性是理解物体存在的重要线索。研究者提出的Diffusion-Vas方法,基于扩散先验,旨在提升视频无模态分割和内容补全的效果。该方法分为两个阶段,首先生成无模态掩码,然后利用条件生成模型对遮挡区域进行内容补全。经过多项基准测试,该方法在复杂场景下表现优异,准确率提高了13%。

image.png

【AiBase提要:】

🌟 研究提出了一种新方法,通过扩散先验实现视频中的无模态分割和内容补全。

🖼️ 方法分为两阶段,首先生成无模态掩码,然后进行遮挡区域的内容补全。

📊 在多项基准测试中,该方法显著提高了无模态分割的准确性,尤其在复杂场景下表现优异。

详情链接:https://diffusion-vas.github.io/

10、Meta智能眼镜Ray-Ban Meta升级:实时AI视频与翻译功能

Meta公司对Ray-Ban Meta智能眼镜进行了重要更新,推出了多项基于人工智能的新功能,包括实时对话和语言翻译。这些功能使用户能够与AI助手进行更自然的交流,无需频繁唤醒助手,同时也支持多语言即时翻译,极大提升了用户的沟通便利性。此外,眼镜还新增了Shazam功能,用户可以通过语音识别音乐。

image.png

【AiBase提要:】

🌟 Ray-Ban Meta智能眼镜推出实时AI视频和翻译功能,用户可随时与AI助手对话。

🌍 新增的实时翻译功能支持多种语言之间的即时翻译,提升了用户交流的便利性。

🎵 眼镜还支持Shazam功能,用户可通过语音识别当前播放的音乐。

11、博通CEO预测AI市场大爆发 公司市值突破1万亿美元

博通公司首席执行官Hock Tan在最近的财报电话会议上对AI芯片市场表达了乐观的展望,预计到2027年,博通在这一领域的收入将显著增长,服务可寻址市场预计在600亿至900亿美元之间。公司市值因AI芯片需求激增首次突破1万亿美元。

【AiBase提要:】

🌟 博通预计到2027年AI市场服务可寻址市场将达到600亿至900亿美元。

📈 博通市值因AI芯片需求激增首次突破1万亿美元。

💰 通过收购VMware,博通整体收入增长达51%,且运营成本大幅降低。

12、金山办公:WPS AI将免费解锁AI生成PPT等四大功能

金山办公宣布WPS AI将在年终期间为用户提供四项免费功能,旨在提升工作效率和创意。用户可以使用AI生成PPT、风格克隆、滤镜等功能,快速制作专业的年终总结PPT。此外,WPS还提供多样化的PPT模板,满足不同用户需求。

image.png

【AiBase提要:】

🎉 WPS AI将免费解锁AI生成PPT、风格克隆、滤镜和模板功能,提升用户工作效率。

🖼️ AI生成PPT功能可快速生成专业PPT,智能润色内容,保持逻辑和设计美感。

📋 用户可通过“AI总结季”参与活动,获取丰富的年终总结PPT模板,满足不同行业需求。

举报

  • 相关推荐
  • AI日报ChatGPT支持MCP和会议记录功能;Cursor 1.0 版本重磅发布;Midjourney视频功能将在本月上线

    本期AI日报聚焦多项AI领域突破:1)OpenAI为ChatGPT新增企业数据连接和会议记录功能;2)Cursor 1.0发布集成BugBot等开发工具;3)Midjourney即将推出视频生成功能;4)秘塔AI搜索新增PPT导出功能;5)Manus推出文本生成视频工具挑战Sora;6)法国Mistral发布企业级编程助手;7)英伟达推出文档处理专用AI模型;8)腾讯公益引入大模型提升互动体验;9)Firecrawl推出网页抓取API工具;10)Bland AI实现超真实语音克隆;11)报告显示AI训练成本逼近百亿美元;12)开源设计工具Jaaz支持批量图像生成;13)《逆水寒》手游接入AI实现图片动效玩法。

  • AI日报ChatGPT免费开放记忆功能;华为WATCH 5智能手表接入双大模型Claude Pro升级重磅功能

    本期AI日报主要报道了多项AI领域重要进展:1)OpenAI向所有ChatGPT用户免费开放记忆功能;2)蚂蚁集团推出"AI健康管家",服务4000万用户;3)Anthropic与DeepLearning.AI合作推出免费MCP课程;4)谷歌DeepMind开发无需3D模型即可生成逼真运动视频的新技术;5)Exa与OpenRouter合作为400+大模型提供实时网络搜索功能;6)中国知网推出CNKI AI学术研究助手;7)Anthropic推出Claude Explains博客项目;8)Claude Pro新增研究模式和远程MCP整合功能;9)Fish Audio发布基于200万小时数据训练的OpenAudio S1语音模型;10)OpenAI升级Codex编程工具;11)华为WATCH5接入盘古和DeepSeek双大模型。

  • OpenAI免费开放ChatGPT记忆功能:用户对话连贯提升

    OpenAI宣布向所有用户免费开放 ChatGPT 记忆功能(Memory),该功能此前仅限付费订阅用户使用。此次升级显著增强了记忆能力,并强化了隐私控制。 升级后的记忆功能可保存并智能引用用户的过往对话内容(如偏好设置、特定指令、历史对话),使 AI 回复更具连贯性和上下文关联性。 例如,在撰写长篇小说或进行深度金融分析时,ChatGPT能依据此前对话调整风格或提供相关信�

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • ChatGPT重磅升级GPT-4.1:编程专家模型登场

    OpenAI于5月15日正式推出GPT-4.1模型,采用差异化推送策略:付费用户可体验完整版,普通用户使用轻量级GPT-4.1 mini。新版模型在编程任务表现突出,能精准遵循指令,避免冗长输出。测试显示其响应速度提升30%,输出稳定性提高40%,部分性能超越GPT-4o。同时OpenAI宣布将斥资30亿美元收购编程工具Windsurf,强化开发者生态,与Google同日发布的Gemini-GitHub形成直接竞争。两大巨头的动作标志着AI编程助手进入生态竞争新阶段。

  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • AI日报谷歌推最强AI全家桶Google AI Ultra;腾讯混元宣布模型矩阵全面升级;豆包·语音播客模型发布

    本文汇总了近期AI领域的重要动态:1)谷歌推出249.99美元/月的AI Ultra订阅计划,提供最强AI模型和高级功能;2)腾讯混元模型升级,新增视觉推理T1-Vision和语音对话模型;3)美图获阿里2.5亿美元投资,将在电商和AI领域合作;4)豆包推出语音播客模型,实现文本快速转音频;5)百度文心X1 Turbo获信通院最高评级;6)谷歌发布Flow AI剪辑工具,集成Veo3等三大模型;7)谷歌Veo3支持4K视频生成;8)Imagen4图像模型发布;9)Gemini2.5 Pro新增并行推理功能;10)谷歌推出虚拟试衣工具;11)公测AI编程助手Jules;12)苹果计划在iOS19开放AI模型;13)京东云推五大免费AI营销工具;14)字节开源多模态模型BAGEL;15)英伟达发布物理推理模型Cosmos-Reason1。

  • AI日报:QQ浏览器升级为AI浏览器;OpenAI全新编程智能体Codex;B站团队推动漫视频生成模型AniSora

    本文介绍了AI领域多项最新进展:1)B站团队推出开源动漫视频生成模型AniSora,支持多种风格创作;2)OpenAI发布编程智能体Codex,提升开发效率;3)Google测试AI问答功能AI Mode;4)ChatGPT将整合MCP协议,支持第三方AI服务对接;5)阿里推出ZeroSearch框架,减少对搜索引擎的依赖;6)Stability AI与Arm合作推出手机端音频生成AI;7)Qwen发布WorldPM系列大模型;8)GPT-5将整合多款产品功能;9)ListenHub上线AI播客生成工具;10)QQ浏览器升级为AI浏览器;11)数学建模AI助手MathModelAgent面世;12)GenSpark推出全球首个智能下载代理;13)谷歌NotebookLM将推出视频摘要功能。这些创新展现了AI技术在各领域的快速发展和广泛应用。

  • AI搜索混战:谷歌搜索AI Mode反击,纳米AI中国登顶

    文章探讨了AI搜索领域的变革与竞争。谷歌在ChatGPT发布后意识到威胁,迅速调整战略推出AI Overview功能。目前AI搜索产品主要分为三类:原生AI搜索(如Perplexity)、传统搜索增强AI能力(如New Bing)和大模型厂商的搜索产品(如Kimi)。Perplexity凭借"答案引擎"的创新模式快速崛起,通过优化用户提问方式、提供精准答案并标注信息来源,月活用户突破千万。但这类产品面临�

  • 谷歌AI搜索“上广告”了,还说:这是为了用户好,对他们“有帮助”

    谷歌悄悄地开始在他们 AI 驱动的搜索功能中投放广告了,而且,这家科技巨头还想让你相信 —— 它这么做是“为了你好”……