首页 > 传媒 > 关键词  > 实时互联网大会最新资讯  > 正文

实时互动 情感陪伴,Soul App升级多模态大模型探索AI社交新可能

2024-10-29 14:50 · 稿源: 站长之家用户

10 月 25 日~ 26 日,由声网和RTE开发者社区联合主办的RTE2024 实时互联网大会在北京举行。在AI技术突破式发展引发各行业革新浪潮的当下,此次大会主题聚焦“AI 爱”,汇聚行业代表企业、技术大咖、专家学者等嘉宾,共同深度探讨AI为互联网生态带来的新发展。作为AI在社交领域落地的前沿探索者,Soul App与通义千问、MiniMax、智谱等受邀参加开幕式当天的“AI论坛”,展现现阶段比较新的技术能力积累以及应用创新方向的更多可能。

在活动现场,Soul App AI算法技术总监刘忠亮以《实时互动、情感陪伴,开启智能社交新时代》为主题,重点分享了Soul多模态大模型的技术研发脉络,以及围绕社交场景深度打磨多模态交互、情感陪伴、自然反馈等AI能力方向的比较新成果和应用实践。

刘忠亮表示,Soul致力于构建一个AI Being与Human Being共存的社交社区,其中,“人”是最为关键的,因此Soul的AI探索从用户的实际社交场景出发,在AI辅助人、解决人与人链接需求的基础上,以更智能、更沉浸的人机互动升级社交体验。“Soul在AI方向的布局有清晰的推进层次,在以AI增强关系建立的效率和质量后,团队探索多模态大模型、重点关注AI如何提供即时的交流反馈和情绪价值。”

2016 年上线之初,Soul首先推出了灵犀引擎,基于平台用户站内全场景画像与独特算法,持续挖掘有效特征,实现平台上“人与人”“人与内容”的智能连接,合理分配注意力资源和交流机会,这让Soul在当时成为了较早将AI引入人与人链接的社交平台,并在用户群体中形成了差异化的产品认知。

2020 年,Soul正式启动对AIGC的技术研发工作,系统推进在智能对话、语音技术、3D虚拟人等AIGC关键技术能力研发工作。 2023 年,Soul推出自研语言大模型Soul X,成为行业中较早通过备案的科技企业之一,此后,平台先后推出了语音生成大模型、语音识别大模型、语音对话大模型、音乐生成大模型等语音大模型能力。

今年 6 月,Soul还在社交领域中较早推出了自研端到端全双工语音通话大模型,具备超低交互延迟、快速自动打断、超真实声音表达和情绪感知理解能力等特点,能够直接理解丰富的声音世界,支持超拟人化的多风格语言。

2024 年,Soul AI大模型能力整体升级为了多模态端到端大模型,支持文字对话、语音通话、多语种、多模态理解、真实拟人等特性,特别是团队在模型感知能力和推理能力层面的技术突破,叠加端到端方案对延迟问题的解决(现阶段Soul端到端对话模型的延迟低于 200 毫秒),进一步实现了实现更接近生活日常的交互对话和“类真人”的情感陪伴体验,使人机互动也能具备“在场感”和超拟人属性。

通过在现场展示目前Soul多模态大模型落地在平台智能机器人“AI苟蛋”、AI聊天助理、狼人杀Agent、数字分身以及比较新的AI虚拟人智能陪伴功能的实际效果,刘忠亮说,“大模型能力服务人的社交需求,并不只是单点的人机对话,而是在丰富、趣味的社交场景中,以AI建立完善的关系链发现——建立——深化的环节,并让AI为人提供情绪价值,这是Soul在产品应用探索层面的主脉络,目前平台推出的相关功能也受到了用户的广泛认可和积极反馈。”

在不久前结束的全球较具影响力的盛会之一—— GITEX GLOBAL海湾信息技术博览会上,Soul携集成3D虚拟人能力的多模态AI交互方案亮相,在博览会现场接受记者采访时,Soul App CTO陶明表示,“预计今年年底,Soul多模态端到端大模型将再次升级,推出全双工视频通话能力。”

这也意味着,Soul将实现真正意义上的AI多模态交互,集合文字、语音、动作交互的多模态大模型,让用户可以在平台实现更接近人类模式的互动体验和更有效、自然、丰富维度的信息传递,真正获得社交体验的颠覆式升级。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 一款“放弃美国市场”的AI社交App,月流水碾压C.ai

    除去用户价值高这类显易见的因素,美国用户的确也对AI社交这一全新的娱乐交互形式体现出了颇高的接受度。AI社交标杆级产品C.ai,有26%的流量都来自于美国;美国同样也是Talkie、Poly.AI等出海产品代表的主要甚至是最重要的用户来源国……但当各方势力集中在欧美市场攻城略地的时候,一款由韩国厂商打造的AI社交产品却率先完成了对于亚洲市场的突破成功做出了高流水。LoveyDovey可能会打开我们对于非英语市场AI社交创业的想象,并且在这一领域中小团队依旧有机会。

  • Soul App推出多项未成年用户识别保护策略,促进健康社交

    未成年人作为国家的未来、民族的希望,保护未成年人网络安全,助其健康成长,是每个社会份子义不容辞的责任。Soul作为新型社交平台,主动承担社会责任,通过多项手段精准识别未成年人,提供坚实网络安全保障。Soul仍将继续开展未成年人专项治理工作,通过技术识别和保护未成年人,同时持续完善正能量内容,促进青少年健康社交。

  • 长语音、小作文、文字讨好症......Soul App 发布线上社交礼仪新规范

    我们时常见到“社交礼仪”相关主题的讨论:已读不回、文字讨好症、讨厌长语音、表情包代沟......这些零散的讨论之所以引起共鸣,其背后隐约说明,在年轻人中,已然形成一套渐趋统一的“线上社交礼仪”。然目前网络上能搜集到的“线上社交礼仪”相关内容,更多是“注意文明用语”式的宽泛或陈旧,实操性较弱——或许新时代的年轻人,需要一份更当代、更切身的社�

  • AI日报:OpenAI重磅上线Sora;智谱AI免费多模态模型GLM-4V-Flash;腾讯云打造AI代码助手

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、OpenAI正式上线Sora,ChatGPTPro用户可无限生成、最长20秒OpenAI在"ship-mas"系列活动中发布了SoraTurbo视频生成AI,支持生成20秒1080p视频,用户可通过文本、图片或视频进行创作,具有多种风格和剪辑功能。See3D已开源,支持多种3D创作应用。

  • 北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

    北大等出品,首个多模态版o1开源模型来了——代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型。团队宣布LLaVA-o1的代码、预训练权重、数据集等即将全部开源。

  • Soul张璐持续建设技术能力,借助AI提高用户社交体验

    传统社交赛道流量红利消失,不可避免地陷入增长困境,各家社交平台都在借助AI力量来寻找新的价值锚点。新型社交平台Soul创始人表示,借助AI技术辅助社交,可以为用户的社交表达方式、社交效率和社交质量带来提升和拓展,为此,Soul坚持探索AI在社交领域的应用落地,致力于让用户的社交链接与体验产生颠覆性的迭代。Soul创始人张璐将和团队一起,以持续的技术能力建�

  • 不做Sora背后:百度的多模态路线是什么?

    当ChatGPT掀起国内“百模大战”,百度率先交卷文心一言。Sora再掀视频生成风潮,却传出李彦宏内部讲话“Sora无论多么火,百度都不去做”。大量的行业应用所产生的数据,又能为AGI的发展提供丰富的养分,形成良性循环,推动数据飞轮的高速运转,从加快我们迈向AGI的步伐。

  • AI日报:阿里云逆天大模型Qwen2.5-Turbo;ElevenLabs支持打造对话AI智能体;Mistral推最强开源多模态模型Pixtral Large

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里云发布逆天大模型Qwen2.5-Turbo一口气读完十本小说,推理速度提升4.3倍!阿里云推出的Qwen2.5-Turbo大语言模型在上下文处理能力和推理速度上都取得了革命性的突破,令人期待其�

  • 首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务

    【新智元导读】Meta最近开源了一个7B尺寸的SpiritLM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任务能捕捉和再现语音中的情感和风格。在纯文本大模型取得进展的同时,其他模态数据,如语音与文本结合的语言模型也成为了一个热门的研究领域,但现有的模型要么在仅包含语音的数据上进行训练,要么是关注特定任务,如文本转语音、自动语音识别或翻译,在其他模态数据和任务上的泛化能力十分有限。研究人员还直接评估了模型对输入提示的处理能力,结果发现,无论是哪种提示,模型都能得到很高的评分,表明还有很大的空间来进一步提高模型在保持情感表达方面的能力,也意味着,智能体在理解和生成情感丰富的内容方面还有很大的潜力可以挖掘。

  • 超GPT-4o,1240亿参数!最强开源多模态模型 Pixtral Large!

    法国著名开源大模型平台Mistral.ai,开源了超大多模态模型——PixtralLarge。PixtralLarge有1240亿参数,支持128K上下文,能理解文本、图表、图像等,也是Mistral.ai自家聊天助手leChat目前正在使用的视觉模型。LeChat提供了一个从模型到输出的完全集成平台,用户可以在一个平台上完成所有的多模态任务,无需在多个工具之间切换,简化了工作流程。

热文

  • 3 天
  • 7天