首页 > 业界 > 关键词  > 百度最新资讯  > 正文

AI日报:百度发布一见视觉大模型v4.5;Adobe支持用AI做动画设计;Familia.AI推“复活亲人”软件

2024-10-12 15:15 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、百度智能云一见视觉大模型v4.5发布

百度智能云一见视觉大模型平台v4.5的发布,为工业行业带来了革命性变革,提供高效的视觉智能解决方案,极大地提高了企业的运营效率和安全性。

image.png

【AiBase 提要:】

🌟 升级后平台解决了 95% 视觉需求,提高了多行业运营效率。

🚀 七大核心优势包括自动化调优、零代码编排和丰富模型库。

🔧 在矿山行业,工作效率从 55 人天降至两天,显著节省人力。

详情链接:https://yijian.cloud.baidu.com/

2、OpenAI 推新框架 Swarm:简化多智能体系统构建与管理

在人工智能迅速发展的今天,OpenAI推出了Swarm框架,旨在简化多智能体的管理与协调。Swarm专注于让智能体之间的交互、执行和测试变得更加轻量且高效,帮助开发者更方便地管理多个AI智能体的互动。通过关注简约和可控性,Swarm克服了多智能体系统管理中的重大挑战,为各种应用场景提供了实际的解决方案。

image.png

【AiBase提要:】

🌟 Swarm框架旨在简化多智能体系统的管理与协调,使开发者能够更高效地进行AI智能体的互动。

⚙️ 通过引入智能体和任务交接两个基本概念,Swarm实现了灵活的任务管理与协调。

🚀 Swarm的轻量级和可控性为研究者和开发者提供了理想的解决方案,促进多智能体系统的可靠应用。

详情链接:https://github.com/openai/swarm

3、Adobe Express 新增功能: AI 支持动画和创作工具

Adobe本周宣布了Adobe Express的一系列新功能,旨在为需要创建网页和图形的主流用户提供更高的集成度和创作能力。新功能包括与Creative Cloud应用程序的更紧密集成,以及用于文本和形状的新工具。用户可以更轻松地与InDesign和Lightroom进行协作和共享内容。AI Firefly支持的功能让用户更容易为设计添加动感和动画,还可以改写、缩短文本,甚至翻译成46种语言。

image.png

【AiBase提要:】

✨ 更高集成度和创作能力,与Creative Cloud更紧密集成

🔥 AI Firefly支持,为设计添加动感和动画,文本处理更便捷

💼 多家企业客户使用,包括ABB、Ad Council、Aon等

4、Familia.AI推“复活亲人”软件,支持视频通话

Familia.AI在旧金山发布了AI家庭应用,旨在拉近家庭成员距离,传承家族记忆。创始人Luvaglio对应用潜力充满信心,强调增强家庭联系并保存。

image.png

【AiBase提要:】

🏠 AI家庭应用旨在拉近家庭成员距离,传承家族记忆。

🤖 Familia.AI提供与AI家人的互动,解决家庭关系挑战,提供情感慰藉。

💬 应用作为数字家族传承宝贵遗产,捕捉家人精髓,重现已故亲人特质。

5、小红书新流量密码?用这个Flux LoRA一键出“神图”,比棉花娃娃还火

社交平台上的真人转卡通玩法愈发盛行,Flux LoRA是最新衍生玩法,可在生成真人照片基础上叠加卡通人物,类似抖音的棉花娃娃效果。在抖音和小红书广受欢迎,一图加音乐即可获得数万点赞。

1.jpg

【AiBase提要:】

🔥 社交平台新玩法:Flux LoRA一键生成真人+卡通照片。

💡 类似棉花娃娃效果:真人照片+卡通形象叠加,白边突出对比。

👍 流行度高:在抖音和小红书上备受欢迎,一图加音乐即可获得数万点赞。

详情链接:https://huggingface.co/Shakker-Labs/FLUX.1-dev-LoRA-One-Click-Creative-Template

6、苹果AI研究团队发现大模型推理短板 一句话就把OpenAI o1干废了

在这篇文章中,苹果公司的AI研究团队揭示了大型语言模型在数学推理上的局限性,通过一个简单的数学问题展示了模型处理逻辑问题时的局限性。研究者们指出,即使是最先进的LLMs在面对微小干扰时也可能出现错误的答案,暴露了这些模型在逻辑推理方面的不足。这项研究提醒我们要更深入地了解AI技术的工作原理和局限性。

image.png

【AiBase提要:】

🧠 大型语言模型在数学推理上存在局限性,容易受到微小干扰影响

🔍 LLMs在处理逻辑问题时并不真正理解问题的本质,而是复制训练数据中的推理步骤

💡 提高模型表现可能需要更多上下文数据,对于复杂干扰模型可能无法正确处理

详情链接:https://techcrunch.com/2024/10/11/researchers-question-ais-reasoning-ability-as-models-stumble-on-math-problems-with-trivial-changes/

7、Meta 和谷歌推动广告商使用生成式人工智能制作假日广告

在假日季节,Meta 和谷歌推出了生成式人工智能工具,鼓励广告商使用AI制作假日广告。尽管一些广告公司表示客户不愿意完全采用生成式人工智能,但AI在广告创意中逐渐崭露头角,为小型企业提供更多广告制作可能性。

【AiBase提要:】

🤖 Meta 和谷歌推出生成式人工智能工具,鼓励广告商使用AI制作假日广告。

💡 生成式人工智能可帮助小型企业制作更多广告,无需媒体购买者或代理商。

💰 创意AI功能的发展可能为品牌带来更多利润,尤其在视频制作方面AI生成具有潜力。

8、研究:谷歌凭借TPU芯片提供了世界上最大的AI计算能力

根据Epoch AI的分析,谷歌凭借自主研发的TPU芯片拥有全球最大的人工智能计算能力。尽管Nvidia在AI芯片市场主导,但谷歌在单一公司中AI计算能力最强。AI芯片市场快速变化,各大公司积极布局,Nvidia的Blackwell GPU供应已售罄。

【AiBase提要:】

🌟 谷歌的TPU芯片计算能力相当于至少60万个Nvidia H100GPU,成为全球最大的AI计算能力提供者。

💼 Nvidia在AI芯片市场依然占据主导地位,自2022年销售了相当于300万个H100GPU的计算能力。

📈 AI芯片市场快速变化,各大公司如AMD、英特尔和华为等也在积极布局,Nvidia的Blackwell GPU需求火爆,供应已售罄。

9、2024年美国39家AI初创公司融资金额破亿

2024年,人工智能(AI)公司在创业投资市场仍占据重要地位,投资者对AI领域充满信心。AI公司共筹集189亿美元资金,占风险投资的28%,OpenAI完成66亿美元融资创历史纪录。国外科技媒体Techcrunch整理了2024年迄今筹集1亿美元以上资金的美国AI公司。

【AiBase提要:】

🚀 人工智能公司持续受到投资者青睐,今年共筹集189亿美元资金,OpenAI单轮融资达66亿美元,创历史最大纪录。

💡 投资者对AI领域充满信心,AI公司占风险投资的28%,显示市场对AI的持续看好。

💰 Techcrunch整理的2024年美国39家AI初创公司中,多家公司完成1亿美元以上融资,展现AI行业蓬勃发展态势。

举报

  • 相关推荐
  • AI日报:谷歌最强AI全家桶Google AI Ultra;腾讯混元宣布模型矩阵全面升级;豆包·语音播客模型发布

    本文汇总了近期AI领域的重要动态:1)谷歌推出249.99美元/月的AI Ultra订阅计划,提供最强AI模型和高级功能;2)腾讯混元模型升级,新增视觉推理T1-Vision和语音对话模型;3)美图获阿里2.5亿美元投资,将在电商和AI领域合作;4)豆包推出语音播客模型,实现文本快速转音频;5)百度文心X1 Turbo获信通院最高评级;6)谷歌发布Flow AI剪辑工具,集成Veo3等三大模型;7)谷歌Veo3支持4K视频生成;8)Imagen4图像模型发布;9)Gemini2.5 Pro新增并行推理功能;10)谷歌推出虚拟试衣工具;11)公测AI编程助手Jules;12)苹果计划在iOS19开放AI模型;13)京东云推五大免费AI营销工具;14)字节开源多模态模型BAGEL;15)英伟达发布物理推理模型Cosmos-Reason1。

  • AI日报:豆包大模型1.6发布;OpenAIo3-pro模型、o3价格暴降80%;Figma官方MCP重磅上线

    【AI日报】今日AI领域重要动态:1)火山引擎发布豆包大模型1.6和视频生成模型Seedance1.0pro,性能显著提升;2)OpenAI推出o3-pro模型,专注可靠性但响应较慢;3)Figma推出Dev Mode MCP服务,实现设计到代码一键转换;4)Krea AI发布图像生成模型Krea1,解决传统AI绘图问题;5)火山引擎豆包日调用量突破16.4万亿次;6)法国Mistral发布推理模型Magistral;7)苹果系统整合ChatGPT图像生成功能;8)OpenAI大幅下调o3价格80%并推出o3-pro;9)Hugging Face开源榜单显示中国团队Qwen与DeepSeek进入全球前15;10)阿里开源MaskSearch框架,提升AI解决复杂问题能力。

  • AI日报:Anthropic最强编码AI模型Claude4;苹果计划AI智能眼镜;QQ浏览器上线首个高考Agent

    【AI日报】今日AI领域重要动态:1)Anthropic发布Claude4系列AI模型,编程能力超越竞争对手;2)苹果计划2026年推出集成AI技术的智能眼镜;3)字节跳动与清华合作推出时序多模态大模型ChatTS;4)3DTown框架实现单张照片生成逼真3D场景;5)OpenAI秘密开发无屏幕AI设备;6)商汤科技推出儿童AI下棋机器人;7)微软记事本新增AI写作功能;8)深圳设立70亿元基金支持AI硬件初创企业;9)谷歌发布3D视频通信平台Beam;10)阿联酋推出"星际之门"计划,免费提供ChatGPT服务;11)法国Mistral推出开源模型Devstral;12)Anthropic API新增四大功能;13)美国众议院通过法案限制各州监管AI;14)QQ浏览器推出高考AI助手。

  • AI日报:通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabsv3语音模型

    本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

  • AI日报:美团AI编程工具NoCode将上线;火山引擎发布MCP Servers;腾讯混元上线游戏视觉生成平台

    本文汇总了近期AI领域的重要动态:1)美团将推出对话式编程工具"NoCode";2)火山引擎发布大模型生态平台MCP Servers;3)B站开源动画视频生成模型Index-AniSora;4)字节跳动升级AI耳机Ola Friend的英语学习功能;5)GitHub推出AI编程助手自动修复代码漏洞;6)腾讯混元上线游戏视觉生成平台;7)微软将VS Code转型为开源AI编辑器;8)Windows 11原生支持MCP协议;9)Anthropic发布AI代理开发指南;10)谷歌推出编程AI代理Jules;11)NotebookLM推出iOS版;12)Genspark创3600万美元ARR纪录;13)Bright Data发布开源MCP服务器;14)马斯克宣布Grok模型将登陆Azure平台。这些进展展示了AI技术在编程、内容生成、操作系统等领域的快速发展和应用创新。

  • AI日报:阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源;黑森林实验室推出FLUX.1Kontext

    【AI日报】今日AI领域重要动态:1)阿里云推出通义灵码AI IDE,集成千问3模型,显著提升编程效率;2)小米开源多模态大模型MiMo-VL-7B,性能超越更大规模闭源模型;3)黑森林实验室发布FLUX.1Kontext图像生成模型,支持文本和参考图像多次编辑;4)Midjourney V7渲染速度提升40%,新增用户投票功能;5)DeepSeek R1-0528大模型在AGI领域取得突破,性能超越xAI等公司;6)Hugging Face进军机器人市场,推出开源人形机器人HopeJR;7)字节跳动火山方舟接入DeepSeek最新大模型;8)Anthropic开源"电路追踪"工具,揭示大模型决策过程;9)阿里巴巴开源自主搜索AI智能体WebAgent;10)Hume发布低延迟语音语言模型EVI3;11)Manus Slides支持一键生成专业幻灯片;12)Runway Gen-4 References支持手机照片艺术化处理。

  • AI日报:昆仑万维天工超级智能体发布;OpenAI核心API支持MCP;百度飞桨PaddleOCR 3.0开源

    【AI日报】汇总了近期AI领域重要动态:1)百度飞桨发布PaddleOCR3.0,提升文字识别精度13%;2)昆仑万维发布天工超级智能体,AI办公成本仅为OpenAI的40%;3)OpenAI API新增MCP支持简化开发流程;4)xAI推出实时网页搜索API;5)谷歌Sparkify可将问题秒变动画;6)Mistral发布高效代码模型Devstral;7)Video Ocean推出4K视频生成工具;8)谷歌推出AI内容识别工具SynthID;9)谷歌NotebookLM使用量半年增长56%;10)硅基流动升级128K长文本模型;11)DeepMind发布音乐生成模型Lyria2;12)多模态大模型MMaDA实现跨模态推理;13)微软发布网页智能体Magentic-UI;14)Framer推出AI建站套件。

  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • AI日报:Manus面向所有人开放注册;全球首款设计Agent Lovart内测;教育部划清AI使用边界

    【AI日报】今日AI领域重要动态:1)国产AI平台Manus开放注册,无需邀请码即可使用;2)Lovart推出全球首款设计Agent,支持全链路自动化设计;3)教育部发布AI教育指南,禁止学生直接复制AI生成内容;4)昆仑万维开源Matrix-Game大模型,专注交互式世界生成;5)Google Gemma模型下载量突破1.5亿次;6)OpenAI新增一键导出PDF功能;7)字节跳动推出图像编辑框架DreamO;8)Kimi智能助手界面升级;9)阿里MNN更新支持通义千问2.5;10)ChatGPT新增SharePoint连接器;11)OpenVision视觉编码器发布;12)福布斯中国AI企业TOP50榜单发布;13)腾讯"元宝"工具上线,基于混元T1-Vision模型实现图片深度理解。

  • 一场文心大模型的「AI马拉松」

    对于百度而言,既要保持长期主义的战略定力,也要在技术路径上灵活应变,这种「变与不变」的平衡或许正是其在这轮科技革命中的制胜之道。 2025年,模型能力的重要性依然无需多言。 从预训练的角度来看,虽然连 OpenAI 前首席科学家 Ilya Sutskever 都说,预训练数据即将用尽,但海量的图像、视频等多模态数据资源依然有待挖掘。 从后训练的角度来看,强化学习新范式正�