声明:本文来自于微信公众号 窄播,作者:李威,授权站长之家转载发布。
在超能创意1.0推出两个月后,豆包开始灰度测试超能创意2.0。
后者优化了对模糊意图的处理能力,能够解析图片细节,一句话实现对给出图片的复刻,并且可以将不同参考图的灵感元素融合到一起,创作出一张全新的图。甚至,你可以给到豆包超能创意2.0一组人物图片,让其利用这些人物生成一个绘本故事。
超能创意2.0复刻图片
处理图片之外,豆包还将具备视频解析能力,支持用户上传视频或视频链接来提取逐字稿,或者直接拆解上传内容的分镜、脚本和剪辑手法。从看到的展示效果来看,豆包可以轻松完成逐字稿的提取,但对剪辑手法的拆解,还比较模糊,不能让用户据此进行复刻。
客观来讲,相比超能创意1.0,超能创意2.0在能力上有了大幅提升。这需要归功于豆包大模型1.6版本提供的支持,这个版本的豆包大模型支持深度思考、多模态理解和复杂Agent的构建。此外,豆包超能创意2.0还接入了图片生成模型 seedream3.0、图片编辑模型 seededit3.0和视频生成模型seedance1.0Pro。
过去几个月,豆包陆续推出了一系列能力更新。超能创意之外,还有AI播客、应用创造1.0、视频通话等能力。除了视频通话是与图片生成、音乐生成一样的基础能力拓展,其它几项能力都属于在基础能力上拓展出来的场景化Agent,相比基础性能力有了更多产品化的优化。
AI编程支持可视化编辑
这类Agent能力的增加,也在让豆包变得更好用。豆包正在从最初主打社交的聊天机器人,演变成一个「AI助理+AI办公桌面」的组合。AI助理能够实现更随身、更人性化地交流沟通,其载体是移动设备;而AI办公桌面更强调复杂需求的实现,往往需要PC这样的设备来作为载体。
沿着这个逻辑,就可以解释为什么豆包App和豆包电脑版会给人两种不同的使用感受。豆包App是很多用户心中的AI伙伴,可以聊知心话,可以一起整蛊朋友,也可以通过视频通话请她帮忙回答问题。豆包电脑版则会扮演效率工具的角色,提供了一个用户与豆包一起工作的操作台。
同一个豆包具备了生活和工作两种形态,并可以在两种形态中毫不违和地进行切换。背后作为支撑的,是字节搭建起来的越来越明确的AI体系。这个体系最基础的是火山引擎提供的云设施;在此之上一层是不断进化的豆包大模型;再上一层是作为「AI助理+AI办公桌面」的豆包应用;再上一层是抖音、耳机、眼镜等豆包的载体。
这个体系下,豆包应用发挥了承上启下的作用。承上指的是,豆包应用与豆包大模型的融合更紧密,能够快速将豆包大模型的能力应用化、场景化,成为更具实用性、门槛更低的工具。启下指的是,豆包应用是字节对外输出to C的AI能力的核心枢纽,串联起了字节旗下不同的软硬件应用。
这也是为什么我们会认为,字节是国内诸多AI厂商中展现出更强野心和更完整思考的一家。
其中一个理由是,我们觉得豆包现在的布局中有考虑到硬件的变化。目前的豆包应用分成两个形态,是为了适应移动端与电脑端的差异化定位,但如果有一天移动端与电脑端基于眼镜或其它硬件实现了融合,那作为AI办公桌面的豆包也能很快融入到AI助理的豆包中。
从社交到效率的变化
从诞生之初到现在,豆包的基础定位没有变化,就是一个能长期陪伴用户的助理。陪伴和拟人化给到了豆包一个确定的物种定义。在此基础上,随着豆包大模型的能力提升,这个新物种也会随之成长出更丰富的能力,并且开始扮演更多样的角色。这其实很接近于人从婴儿到融入社会的成长路径。
这个发展路径,也决定了豆包会首先考虑到向聊天能力要增长。在豆包App上线初期,团队对她的定位是一个通过「打电话」的交互方式,为用户提供陪伴的产品。在去年与另外一个AI产品团队交流时,对方也会认为豆包的目标是做AI社交,成为一个类似Characte.AI的产品。
在陪伴聊天基础上,当时的豆包还拓展出了一个聊天机器人生态。用户可以自己定制不同角色的聊天机器人,然后发布到豆包的智能体页面,让其他用户选择和使用。即便是出现了英语外教、考研面试官、PPT专家、风水师等更具职业属性的聊天机器人,豆包App也还是一个更倾向于角色扮演聊天,而不是任务处理的产品。
变化是随着大模型能力的提升而出现的。豆包开始融合进文生图、文生视频、音乐生成等基于大模型能力发展出来的基础功能。并且,豆包上线了电脑版,这是一个以浏览器形态出现的效率优先的产品。人们很少在豆包电脑版上与豆包进行闲聊,大部分时间都是在让豆包帮助完成更复杂的任务。
DeepSeek在年初的引爆,让AI以更快地速度从有趣向有用过度,也带动了豆包的能力提升。视频通话就是模型能力提升给豆包带来的一个显性变化。用户可以在日常生活中依靠视频通话能力,实时向豆包提问,了解门店展示的商品的具体信息或者让其根据场景给出拍照的操作指导。
在深度理解、思维链等技术的支撑下,豆包也开始基于基础能力完成创意生图、代码编写等更场景化的工具的开发。利用超能创意能力,豆包可以批量生成效果还可以的海报,同时,应用创造也开始支持对豆包生成的网页进行可视化的调整。这样的豆包实现了从社交产品到效率工具的拓展。
既是助手,也是操作台
从社交工具到效率工具的拓展,也进一步分化了豆包在App和电脑版上的呈现形态。简单来说,豆包App是一个更强调陪伴、拟人化交互,能完成轻量化任务的随身AI助手,豆包电脑版则是一个强调效率、工具属性,能完成复杂任务的AI办公桌面。两者都是豆包,但会有不同的侧重。
豆包App在用户第一次下载打开时,会使用语音进行自我介绍,给用户的感觉更像是在与人沟通。同时,豆包App的界面底栏会有通话、发现、AI创作三个按钮。通话列表中,不仅有豆包,还会显示用户沟通过的其他聊天机器人。发现则是聊天机器人的集合。AI创作会有创建聊天机器人,生成图片、音乐、AI写真的功能。
进入到与豆包的聊天界面,会显示豆包的头像,并且优先显示豆包P图、拍照答疑、照片动起来等生活化、轻量化的能力。这样的豆包App给到用户的感觉就是一个能聊天沟通且能随手帮忙的伙伴。这种强陪伴的属性,就能解释为什么即将去世的老人会对豆包说出:「我要去世了,豆包」。
如果说豆包App更侧重于呈现AI拟人化的一面,那豆包电脑版则是一个「无情的」操作台。其主界面并不像豆包App一样侧重聊天,而是一上来就强调任务执行能力。无论是脱胎于搜索框的聊天框,还是侧边栏中对AI搜索、帮我写作、AI编程、图像生成的推荐,都有着很强的效率工具的感觉。
相较去年,豆包电脑版的一个变化是在侧边栏中隐藏了聊天机器人的入口。将之前位于历史对话下面的我的智能体入口隐藏起来,变成了AI云盘,并放到了历史对话的上面。同时,豆包电脑版的第三方聊天机器人相比豆包App中,要更为精简,基本没有纯聊天的角色,都是一项项具体任务的执行者。
这种「AI助手+AI办公桌面」的组合让豆包更适合目前的载体形态。
作为AI助手的豆包不但能以App的形式存在,还能切入到抖音、浏览器、智能耳机、智能眼镜中,随时被唤醒和互动。在软件层面,豆包已经被放入了抖音的聊天列表中,甚至也在灰度测试将豆包与抖音视频页面的点赞、评论转发放在一起。在硬件层面,Ola Friend依靠豆包App承载设备管理和更新,并能随时召唤豆包。
作为AI办公桌面的豆包,目前会在电脑版和网页版中出现,更符合大家在电脑桌面上使用AI完成复杂工作的能力。无论是对网页生成,还是对要求更高的图像创意来说,移动端都还不能很好地进行承载。一个操作台形式的豆包,既符合用户的工作习惯,也提供了Agent所需要的自由画布。
豆包是字节AI to C的核心
在to B领域中,字节打出的牌是火山引擎+飞书的组合,其中作为AI操作台的多维表格和作为AI助手的飞书知识问答承载了B端用户的主要AI交互需求。在to C领域,豆包是字节AI体系的核心,既是AI助手,也是AI操作台,并且有能力承担串联字节体系内不同C端入口的任务。
一方面,豆包强调拟人化。打造一个像钢铁侠的贾维斯一样的AI助手,是一个激动人心的故事。从贾维斯身上,我们可以看到的是一个活生生的人。这种活人感是AI产品具备记忆力和成长力的体现。豆包对拟人化的强调,事实上也是在让AI与用户一同成长,使其成为最了解用户的「家人」。这也是在构建一个长期的情感壁垒。
另一方面,豆包的核心是AI,不是某一类端口形态。App、网页、硬件、Cop ilot等端口形态,是豆包发挥作用、输出AI能力的载体。在豆包身上,我们看到了像Gemini一样的雄心。字节也像Google一样,在围绕豆包搭建一个面向AI的完整体系。包括与自身流量入口的打通,以及硬件的研发。
与Ola Friend的合作,是豆包在融合AI硬件层面作出的第一个尝试。从市场反应来看,这种尝试并没有激起大的浪花,但对于字节而言,这可能是一个积累经验的过程。眼镜可能是更适合豆包的硬件载体,也是字节能够有更大底层掌控权的硬件设备。
在The Information的报道中,字节已经在研发没有显示模组的AI眼镜和具备显示模组的MR眼镜。前者更匹配AI助手形态的豆包,后者是发一款护目镜形态的轻量级混合现实设备,更有希望落地AI助手+AI办公桌面的完整版。如果眼镜能成为PC之外的另一个大屏,那豆包的助手角色和桌面角色就能够在移动端实现统一,打造出一个软硬结合、可轻可重的完整体豆包。
只不过,相较Google,字节在模型能力、硬件系统、入口能力上都更为欠缺。
我们可以看到字节在不断提升模型能力,并且依靠垂直研发的优势,将模型能力与场景化需求更快结合起来,快速更新豆包的能力组合,实现像超能创意一样的产品化。在火山引擎CEO谭待的介绍中,火山引擎有专门的团队,可以参与到模型研发和产品开发中。豆包这半年的能力更新,在一定程度上验证了这种优势。
字节跳动CEO梁汝波表示,在AI大模型带来的技术变革时代,字节跳动也要对自己提出更高的要求,做一个优秀的科技公司还不够,得做优秀的创新科技公司,前者是能够利用先进技术的公司,而后者能够探索和发明新技术,这是挑战非常大、有非常高天花板和想象力的事情。
豆包无疑会是字节这种技术创新能力的核心出口,字节对豆包的投入并没有缩减。App Growing的数据显示,2024年Q2至2025年Q1,豆包季度平均投流费用为1.5225亿元,相较而言,即梦AI投流费用在2025年Q1只有270万元。并且,豆包在5月的活跃用户数达到1.31亿,还在保持增长势头。
这也意味着豆包需要继续通过聚合入口和能力建立护城河,让自己成为字节想要的系统级能力。但从目前的体感来看,豆包还欠缺一种串联一切的感觉。
(举报)