首页 > 原创 > 关键词  > Claude最新资讯  > 正文

AI日报:Claude推出桌面客户端;ChatGPT、谷歌Gemini均推搜索功能;阿里EcomID原生支持ComfyUI;Suno新增AI歌手克隆功能

2024-11-01 15:50 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、Anthropic旗下Claude AI推出桌面客户端

Anthropic公司推出了AI聊天机器人Claude的桌面应用程序,提升用户体验,使用户能更便捷地与Claude互动。同时,移动端应用也新增了语音输入功能,增强用户交互体验。

image.png

【AiBase提要:】

🚀 提升用户体验,推出桌面应用程序,方便用户与Claude互动。

🎤 移动端应用新增语音输入功能,用户可以通过语音与Claude交流。

💻 竞争对手如ChatGPT和Perplexity已推出桌面应用,Anthropic公司保持竞争力。

详情链接:https://claude.ai/download

2、OpenAI公司推出ChatGPT search搜索功能

OpenAI公司推出了名为ChatGPT search的新功能,用户可以通过对话界面快速获取最新的网络搜索结果,无需跳转到传统搜索引擎,提供实时信息如体育比分、新闻、股票报价等。该功能简化了用户获取有用答案的过程,使用户可以以自然、对话的方式提问,并获得更好的答案。

【AiBase提要:】

🔍 ChatGPT search功能让用户通过对话界面快速获取最新网络搜索结果,提供实时信息如体育比分、新闻、股票报价等。

🔄 用户可以选择让ChatGPT搜索网络或手动点击搜索图标进行搜索,使获取信息更便捷。

🌐 OpenAI与新闻和数据提供商合作,为搜索结果添加最新信息和新的视觉设计,强调归因可信新闻源的信息,扩大出版商的影响力。

3、谷歌 Gemini API 推出 “连接实时搜索” 功能 提升AI响应准确性

谷歌 AI 工作室与 Gemini API联合推出了“与谷歌搜索的实时连接”功能,旨在帮助开发者提升AI模型的响应准确性。这一功能能从谷歌搜索中获取最新信息,减少虚假信息,提供透明且最新的回答。同时支持动态检索,开发者可根据需要灵活激活实时数据检索,提高回答质量。

image.png

【AiBase提要:】

🌐 新功能 “与谷歌搜索的实时连接” 旨在提高AI模型的响应准确性。

💰 Gemini API定价为每1000个查询35美元,支持实时数据检索。

🔄 开发者可根据需求灵活激活实时数据检索,提高回答质量。

4、带图层的AI生图软件来了!Blendbox Alpha 版发布

Blendbox Alpha版是一款革命性的AI图像生成软件,重新定义了艺术家创作的方式。通过引入图层概念,用户可以像使用PS一样控制图像生成,摆脱了过度依赖提示词的创作方式。艺术家可以实时调整纹理、光影、颜色方案和对象位置,实现高度的创作自由。

【AiBase提要:】

🎨 Blendbox Alpha版重新定义了AI艺术创作方式,让艺术家重新掌控创作过程。

🔧 Blendbox通过模块化的图像控制功能,允许用户调整单个元素,加快创作迭代速度。

🖼 Blendbox的图像更改是局部进行的,艺术家可以针对特定区域和元素进行调整,保持图像整体性。

详情链接:https://www.blendbox.ai/

5、告别“假脸”模特!阿里EcomID重磅来袭

阿里巴巴最新发布的AI人像生成项目EcomID带来了显著突破,完美继承了InstantID和PulID的优势,实现了创新。该工具在图像生成效果、文本到图像功能、用户体验等方面都有突出表现,重新定义了AI图像生成的品质标准。

image.png

【AiBase提要:】

🚀 EcomID在技术层面采用创新的架构设计,借鉴了PuLID的ID-Encoder和交叉注意力组件,降低了ID embedding对文本embedding的干扰。

💡 EcomID的亮点在于卓越的图像生成效果,保持稳定的身份特征,完整保留了文本到图像的功能,极大提升了生成图像的真实感。

⚙️ SDXL-EcomID为ComfyUI用户带来全新使用体验,支持基础和换脸两种工作流程,提供高级定制功能,展现出极强的适应性。

详情链接:https://github.com/alimama-creative/SDXL_EcomID_ComfyUI

6、D-ID推超逼真AI虚拟头像:进行视频训练就能复刻头部和躯干动作

D-ID推出两款新型虚拟头像Express和Premium+,旨在提升内容创作的质量和效率,满足企业在市场营销、销售和客户支持等领域的需求。公司致力于打造超逼真的虚拟头像,提供实时互动能力,以增强用户体验。个性化视频活动显著提升企业点击率和转化率。

image.png

【AiBase提要:】

🌟 D-ID推出Express和Premium+两款新型虚拟头像,提升内容创作效率。

🤖 Premium+头像具备实时互动能力,适合网络研讨会和翻译应用。

📈 个性化视频活动显著提升企业的点击率和转化率。

7、Suno新增AI歌手克隆功能,一键复刻专属音乐风格

Suno推出的Personas功能让用户可以复制自己钟爱的音乐风格,一键生成带有个人特色的AI音乐,打造专属音乐IP。这项突破性功能允许用户提取保存某首歌曲的核心元素,包括人声特点、音乐风格和情感氛围,让创作保持一致的个人特色。

【AiBase提要:】

⚙️ 用户可以复制自己钟爱的音乐风格,一键生成带有个人特色的AI音乐,打造专属音乐IP。

🎵 Personas功能允许用户提取保存某首歌曲的核心元素,包括人声特点、音乐风格和情感氛围,让创作保持一致的个人特色。

🔗 用户可以选择将自己的Persona设为公开或私密,拥有独立页面,展示在创作者的资料库和个人主页中,增加音乐创作的社交价值。

详情链接:https://top.aibase.com/tool/suno-ai

8、ElevenLabs推开源小项目X-to-Voice:一键将Twitter账号转化为个性化虚拟形象

ElevenLabs最近发布了开源项目X-to-Voice,利用声音设计API和动态头像技术,智能分析Twitter用户资料,生成个性化虚拟形象。项目高度个性化定制,用户只需输入账号名称即可获得独特声音配置和动画头像。技术整合了声音生成、动态头像制作等多项尖端技术,提供全新社交表达方式。

image.png

【AiBase提要:】

🔊 个性化声音生成和动态头像制作

🤖 技术整合包括声音设计API和Taedra工具

🌐 项目部署在Vercel平台,提供简单用户体验

详情链接:https://github.com/elevenlabs/elevenlabs-examples/tree/main/examples/text-to-voice/x-to-voice

9、Meta 重磅发布!MobileLLM 模型全面开放,研究人员免费获取!

Meta 最近宣布其 MobileLLM 模型现已向研究人员开放,用户可在 Hugging Face 平台上免费下载并使用这些模型,这一举措推动移动设备上的大型语言模型研究和开发,为开发者和学术界提供更广泛的工具与资源。

image.png

【AiBase提要:】

🌟 Meta 的 MobileLLM 模型现已在 Hugging Face 平台上免费提供,供研究人员下载与测试。

🤖 MobileLLM 旨在推动移动设备上的大型语言模型研究,降低使用门槛。

📈 企业与开发者被鼓励通过 AI 技术优化流程,以实现更好的业务绩效。

详情链接:https://huggingface.co/collections/facebook/mobilellm-6722be18cb86c20ebe113e95

10、夸克发布“灵知”学习大模型 全面升级“AI搜题”让新题、难题都有解

夸克全面升级“AI搜题”产品,提升搜题与解题速度与能力,助力用户提升学习效率。夸克AI能力落地于学习场景,让学习更智能。夸克“灵知”学习大模型实力强劲,解决用户痛点,产品能力得到全新发展。

image.png

【AiBase提要:】

🚀 夸克全面升级“AI搜题”产品,加速学习产品创新,提升用户学习效率。

💡 夸克“AI搜题”是全网首家完成全面AI化升级的搜题产品,支持各类题目搜寻与专业内容解答。

🧠 夸克“灵知”学习大模型在性能评测中表现优异,具备领先的推理能力和知识正确性。

11、字节祭出开源秘密武器HybridFlow,大模型训练速度飙升20倍,成本砍到脚脖子!

大模型(LLM)如GPT、Llama等在人工智能领域掀起了革命,但高效训练符合人类价值观仍是难题。字节跳动豆包团队开源HybridFlow框架,为RLHF带来新可能性。HybridFlow结合单控制器和多控制器模式,灵活高效执行RLHF数据流,吞吐量提升20.57倍,推动LLM技术发展。

image.png

【AiBase提要:】

🚀 HybridFlow框架创新结合单多控制器模式,解耦复杂计算数据依赖,灵活高效执行RLHF数据流。

💡 HybridFlow支持多种RLHF算法,如PPO、ReMax、Safe-RLHF,提供模块化API,简化算法实现和扩展。

⚙️ HybridFlow的3D-HybridEngine组件支持高效模型权重重组,减少内存冗余和通信开销,提升训练效率。

详情链接:https://arxiv.org/pdf/2409.19256

12、谷歌地图终于开挂!Gemini加持解锁多项神技,网友:这才是真正的智能导航

谷歌地图近日宣布通过Gemini生成式AI模型进行重大升级,提供智能导航和全新场所发现体验,展示技术实力和用户体验持续努力。

image.png

【AiBase提要:】

🌟 谷歌地图整合Gemini AI模型,提供智能推荐功能,用户可用自然语言询问建议,系统智能筛选符合需求的场所。

🚗 导航体验全面优化,显示车道、人行横道和路标信息,提供准确车道选择建议,支持街景和AR实景导航模式。

🌍 新功能包括天气干扰报告、沉浸式视图扩展至全球150个城市,Waze导航应用也接入Gemini AI,提升用户体验。

举报

  • 相关推荐
  • “无限量”供应Claude,就是AI IDE们的百亿补贴

    Anthropic于2025年7月28日宣布,将从8月28日起对Claude Code工具新增每周调用限额——因为少数重度用户全天候高频使用,一次使用成本甚至高达数万美元,远远超过普通订阅预期。 同样在上个月,Cursor曾因其“I’ll keep it unlimited”的Pro收费模式悄然变更为计算tokens限制,导致大量用户抱怨“实际上并非无限”,纷纷在社群中吐槽,迫使公司CEO出面道歉、甚至给出退款补偿。 这两�

  • GPT-5和Claude 4 Opus谁更强?用这个AI大模型对比工具一眼明了

    OpenAI正式发布GPT-5,与Claude4Opus和Gemini2.5Pro进行对比测试。GPT-5在编程能力(SWE-bench测试74.9%)和数学推理(AIME2025测试94.6%)表现突出;Claude4Opus编程优异(72.5%)但数学较弱(33.9%);Gemini2.5Pro擅长长文本处理(100万token窗口)和多模态应用。价格方面,GPT-5和Gemini2.5Pro定价相近($1.25-$10),Claude4Opus较高($15-$75)。建议根据需求选择:GPT-5适合综合应用,Claude4Opus适合专业编程,Gemini2.5Pro适合长文档�

  • GPT-5正式发布:与Claude 4、Gemini 2.5等主流大模型谁更胜一筹?

    2025年8月7日,OpenAI正式发布GPT-5,官方称其为"最智能、最快速、最实用"的AI模型。GPT-5在数学推理能力上大幅提升,在AIME2025测试中取得94.6%的高分,处理速度也有明显改善。但与竞争对手相比仍存在差距:Claude4在代码生成和逻辑推理方面表现优异,支持200K token长文本;Gemini2.5具备2M超大上下文窗口和全模态支持;国产模型DeepSeek R1在中文理解和性价比方面具有优势。AI�

  • AI日报:百度推全球首批AI数字员工;Claude Opus4.1出世;谷歌DeepMind发布世界模型Genie 3

    AI日报栏目聚焦人工智能领域最新动态:1)Claude Opus4.1发布,编程能力提升74.5%;2)OpenAI开源GPT-OSS-120B和20B模型;3)谷歌DeepMind推出革命性3D世界模型Genie3;4)谷歌Gemini新增AI故事书生成功能;5)ElevenLabs推出商用AI音乐生成器;6)百度智能云发布首批AI数字员工;7)OpenAI估值或达5000亿美元;8)00后创业者推出云端AI协作开发工具Vinsoo;9)腾讯启动2026校园招聘,重点培养AI人才;10)马斯克宣�

  • 蓝耘元生代MaaS × Kimi K2 × Claude CodeUI,开启编程效率革命

    蓝戟元生代MaaS平台推出"Kimi K2×Claude CodeUI"AI编程解决方案,通过国产首个万亿参数MoE架构开源模型Kimi K2驱动Claude Code,实现本地化部署。该方案具有三大优势:1)成本直降90%,免翻墙使用;2)支持128K超长上下文处理,编程能力超越主流模型;3)提供600万token免费额度。平台采用交互式界面设计,支持移动端操作和WebSocket通信,集成文件管理、Git工具和会话追踪功能,�

  • GPT-4.5和Claude4哪家强?一文看懂优劣差异,附最实用AI大模型对比工具!

    文章对比分析了GPT-4.5和Claude4两大AI模型的性能差异:GPT-4.5在响应速度、编程能力和生态开放度上占优,适合实时对话和内容创作;Claude4则在长文本处理(200k+上下文)、安全性和企业适配性方面表现突出。推荐使用AIbase的模型对比工具(https://model.aibase.com/zh/compar)进行多维度智能筛选,根据具体场景(如客服、写作、编程等)选择最适合的模型。核心结论:没有绝对优劣,�

  • 越普通越出彩,达成千万级DAU成就的厂商迎来第2个爆款?

    自从「Block Blast!」在2023年横空出世,Hungry Studio 一下子跃入了大众视野,在这个时间点将看似普通的方块玩法做出了千万级日活用户,是很难想象的事情(参见文章《“爆发”4千万DAU的“小方块”,背后故事是什么?| 对话一线》)。 之前的对话,我们浅显了解了他们的“方法论”,也更加好奇他们的下一次实践。

  • MCP服务库完整指南:如何选择最适合的Model Context Protocol服务

    本文介绍了MCP(Model Context Protocol)作为连接大型语言模型与外部数据源的重要桥梁。随着AI技术发展,选择合适的MCP服务库对开发者至关重要。文章分析了MCP服务库的核心价值:提升开发效率、增强系统互操作性、降低技术门槛。评估MCP服务库质量需考虑协议兼容性、安全性、生态系统丰富度及社区活跃度等维度。建议开发者根据业务需求选择服务,初创公司可侧重简便性,大型企业应关注安全性和扩展性。文章还指出MCP服务未来将向云原生化、智能化运维和标准化方向发展,并推荐使用专业对比平台(如mcp.aibase.cn)辅助决策。

  • AI日报:可灵2.1推出全新首尾帧功能;昆仑万维上线AI音乐模型Mureka V7.5;腾讯云推出AI开发工具CloudBase AI CLI

    本文介绍了AI领域最新动态:1)快手可灵2.1推出首尾帧功能,提升视频生成效果;2)昆仑万维发布Mureka V7.5音乐模型,优化人声表现;3)腾讯云推出AI开发工具CloudBase AI CLI,可减少80%编码量;4)海外新品MuleRun通过虚拟机和AI Agent带来创新游戏体验;5)Meta开源DINOv3视觉模型,无需标注即可实现卓越性能;6)宇树科技人形机器人H1获1500米赛跑金牌;7)谷歌Gemini新增记忆功能和隐私聊天模式;8)香港大学开源OpenCUA框架,打造个性化电脑助手;9)OpenAI考虑在ChatGPT引入广告;10)谷歌发布超小型开源模型Gemma 3 270M,支持手机端运行。

  • 内外双屏 随心定义 快用Good Lock“打扮”你的三星Galaxy Z Flip7

    三星Galaxy Z Flip7折叠屏手机凭借精致设计和出色体验获得消费者青睐。文章重点介绍了通过"Good Lock"应用深度定制手机的方法:1)Home Up和主题公园提供主屏幕布局和主题综合定制;2)LockStar可自定义锁屏界面,添加常用APP快捷入口;3)Keys Cafe打造个性化键盘效果;4)ClockFace为外屏时钟添加文字/图片/GIF动图;5)MultiStar新增FlipShot功能,为自拍用户提供动态背景特效。这些工具让用户能根据个人喜好,从界面布局到细微功能进行全面定制,将手机打造成彰显个性的专属设备。

今日大家都在搜的词: