首页 > 业界 > 关键词  > GPT-4o最新资讯  > 正文

多模态GPT-4o来了,嗨起来的是一波女性用户

2024-05-17 13:51 · 稿源: ​白鲸出海公众号

整场发布会最为重磅的发布之一,莫过于 OpenAI 团队成员对于新模型语音能力的演示,搭载了 GPT-4o 的 ChatGPT,不仅真正实现了实时响应,可以任意打断,更重要的是,ChatGPT 第一次拥有了“察言观色”的能力,它能看到用户表情,理解用户语气中的情感变化,同时能够给出不同风格、

......

本文由站长之家合作伙伴自媒体作者“​白鲸出海公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 大家在看
  • Gemini视频推理遥遥领先GPT-4o,Jeff Dean连续转发三次,首个视频多模态基准Video-MME来了

    OpenAI和谷歌接连两场发布会,把AI视频推理卷到新高度。但业界还缺少可以全面评估大模型视频推理能力的基准。综合实验结果可以看出,当前的多模态大模型在视频理解,尤其是长视频理解方向仍然有很长进步空间,一方面是要提升模型的多模态长上下文理解能力,Gemini1.5Pro最高支持百万长度的上下文窗口,这是其表现优异的依仗,另一方面也亟需构建相应的高质量长视频理解数据集,这方面当下仍处于空白。

  • GPT-4oPRD 即时转换成 Figma 设计

    全球知名设计工具Figma正在经历前所未有的革新,其最新版本GPT-4o已经实现了自动化生成设计的功能。这意味着用户只需提供产品需求文档,GPT-4o就能够根据文档内容自动生成符合设计规范的Figma设计。有评论者甚至称这是“正在发生的未来”,并表示这将彻底改变设计行业的格局。

  • 研究称GPT-4o道德推理能力已比专家更强

    在最近的一项由北卡罗莱纳大学教堂山分校和艾伦AI研究所共同进行的研究中,人工智能的道德推理能力再次得到了令人瞩目的展现。特别是OpenAI的新型聊天机器人GPT-4o,在道德推理和提供道德建议方面,已经超越了公认的道德专家。研究人员也提醒我们,尽管AI在道德推理方面表现出色,但在实际应用中仍需谨慎对待其建议,特别是在缺乏人类监督的情况下。

  • 现在可以用GPT-4O 自动生成 Figma 设计稿了

    由GPT-4o提供支持的技术能够根据产品需求文档自动生成Figma设计稿。这一技术主要针对移动端应用进行优化,支持使用高质量的设计系统,如AntDesignMobile和ArcoMobile。所有生成的设计草稿都采用自动布局,并支持自适应拉伸,图层也具有语义化命名,便于用户理解和后续修改。

  • 多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键

    只用强化学习来微调,无需人类反馈,就能让多模态大模型学会做决策!这种方法得到的模型,已经学会了看图玩扑克、算“12点”等任务,表现甚至超越了GPT-4v。这是来自UC伯克利等高校最新提出的微调方法,研究阵容也是相当豪华:图灵奖三巨头之一、Meta首席AI科学家、纽约大学教授LeCunUC伯克利大牛、ALOHA团队成员SergryLevineResNeXt一作、Sora基础技术DiT作者谢赛宁香港大学数据科学学院院长、UC伯克利教授马毅该方法名为RL4VLM,论文预印本已经上线,相关代码也已在GitHub中开源。从提示词上看,这项研究采取了如下的提示过程作为多模态模型的输入,并且给出了期望的输出形式:消融实验结果表明,如果这一过程中不采用思维链,则任务成功率会出现大幅下降。

  • 悦灵犀AI多模态重磅更新“视”不可挡

    北京2024年6月11日,悦享控股有限公司,一家以技术驱动的新一代移动互联网基础设施与平台服务提供商今天宣布,悦灵犀AI发布2.0多模态重磅更新,采用了更加先进复杂的算法和模型,拥有更强大的应用能力,以及更全面的人工智能新交互功能。这标志着悦灵犀AI在底层技术层面取得重大突破,在应用层面实现了质的飞跃,为用户带来前所未有的应用体验,以及更加丰富、多样和真实的生成效果。悦享控股致力于以"悦享"为核心的产业生态布局,巩固和强化核心竞争力,实现长期可持续的规模化发展。

  • ChatGPT Edu版本来啦:支持GPT-4o、自定义GPT、数据分析等

    5月31日,OpenAI在官网宣布,推出ChatGPTEdu版本。这是一个专门为大学校园提供的ChatGTP,支持GPT-4o、网络搜索、自定义GPT、数据分析、代码生成等功能,可以极大提升学生、老师的学习质量和教学效率。2024年春季已经启动了105个秋天会再启动114个项目,主要有三个目的改善教学质量,增强教育数据资源的利用以及加速创新技术的研究进程。

  • Soul 基于多模态模型丰富社交形式,为用户带来多重感官交互的社交盛宴

    社交不仅仅局限于文字的简单传达包括视觉体验和听觉体验的全方位调动。文字、图片、视频、音频等多模态集合是线上社交的主流形式。在当今AIGC技术的迅猛发展下,Soul社交形式的不断迭代升级,可以吸引更多用户群体的目光,并成为用户们交流互动的首选平台。

  • GPT-4o攻破ARC-AGI无法被挑战的神话!71%准确率成新SOTA

    【新智元导读】号称不可能轻易被击败的AGI基准ARC-AGI被GPT-4o撼动,GPT-4o以在公共测试集50%、在训练集71%的准确率成为了新的SOTA!ARC-AGI是唯一可以用来衡量通用人工智能进展的基准,创造者FrançoisChollets曾经掷下豪言——「它不可能轻易被击败!」为了测试这一点,他于2020年在Kaggle上主办了首届ARC-AGI竞赛。获胜团队icecuber在测试集上仅取得了21%的成功率,这个成绩强有力地证明了François的断言是正确的。「我的观点并不是说GPT-4o相对于人类来说是聪明的,但我确实认为它是具有『智能』的。

  • 比肩小米SU7 余承东:智界S7女性用户占比近四成

    日前在2024未来汽车先行者大会”上,小米雷军表示小米SU7深受女性消费者的喜爱,目前有31%的用户都是女性,预计这一比例将会达到50%。近日在接受自媒体采访时,华为车BU董事长余承东表示,鸿蒙智行智界S7的女性用户占比当前已经接近40%。有意思的是,本次粤港澳车展,智界S7搭配罗曼尼红和香颂绿2款时尚个性的改色膜亮相,其中香颂绿无疑就是华为最新旗舰手机Pura70系列同款配色这两款改色膜非常受女性用户欢迎,有不少人留言催促上线。

  • SQLPilot:AI驱动的SQL查询生成工具

    SQLPilot是一个基于人工智能的SQL查询生成工具,旨在帮助用户快速生成复杂的SQL查询。它支持PostgreSQL和MySQL数据库,并且提供多种GPT模型以供选择。SQLPilot的主要优点包括不限数据库连接数量、SQL自动补全功能以及对用户隐私和数据安全的承诺。此外,它还提供了结果下载功能,并计划推出图形和图表查看结果的功能。

  • Twitdget:智能提升您的Twitter体验

    Twitdget是一款专注于Twitter平台的AI驱动工具,通过智能内容计划、自动化发布调度、深度分析和游戏化功能,帮助用户增加Twitter账户的参与度,优化发布流程。它还提供了一个原生图片编辑器,使得内容创作更加直观和高效。

  • PPWORD:集合全球主流AI的超级AI体

    PPWORD是中国的POE,集合了全球主流的AI。包括聊天类AI:ChatGPT3.5、ChatGPT-4o、Gemini、Claude、通义千问等。画图AI:Midjourney等,音乐AI:Suno等和视频AI:Luma等。用户可以利用多个AI协作,创作极具创意的内容。

  • Knowledge Graph RAG:利用知识图谱和文档网络增强语言模型性能

    Knowledge Graph RAG 是一个开源的Python库,它通过创建知识图谱和文档网络来增强大型语言模型(LLM)的性能。这个库允许用户通过图谱结构来搜索和关联信息,从而为语言模型提供更丰富的上下文。它主要应用于自然语言处理领域,尤其是在文档检索和信息抽取任务中。

  • 卖货主播大模型--乐乐喵-7B-4bit:智能卖货主播,提升销售效率,增强购物体验。

    Streamer-Sales 销冠 —— 卖货主播大模型是一个基于商品特点进行解说并激发用户购买意愿的智能模型。它通过深度理解商品特点,以生动、精准的语言为商品量身打造解说词,让每一件商品都焕发出诱人的光彩。无论是线上直播销售还是线下门店推广,这款模型都能成为销售的得力助手,提升销售效率,增强用户体验,为品牌形象加分。

  • 卖货主播大模型--乐乐喵-7B:智能卖货主播,提升销售效率,增强用户体验。

    Streamer-Sales 销冠 —— 卖货主播大模型是一个基于InternLM2微调而来的AI模型,能够根据商品特点进行解说,激发用户的购买意愿。它适用于线上直播销售和线下门店推广,可以显著提升销售效率和用户体验,为品牌形象加分。该模型通过智能解说,使商品细节和整体效果更加生动、精准,从而吸引消费者。

  • Streamer-Sales:智能卖货主播大模型,提升销售效率,增强购物体验。

    Streamer-Sales 销冠是一个基于大语言模型的智能卖货主播系统,它能够根据商品特点从激发用户购买意愿的角度出发进行商品解说。该模型在 InternLM2 的基础上通过指令微调而来,集成了 LMDeploy 加速推理,支持 ASR 语音生成文字,RAG 检索增强生成,Agent 网络查询等功能,并通过 TTS 技术生成带有感情的语音,最终生成主播数字人视频,为商品解说提供全方位的技术支持。

  • Cadenza:智能音乐创作工具,一键生成专业和弦进行。

    Cadenza是一款AI驱动的音乐制作工具,它允许用户通过简单的描述来生成专业的MIDI和弦进行。该工具能够确保和弦流畅地转换,适用于各种音乐风格,从流行到爵士。Cadenza的主要优点包括用户友好的界面、实时生成和弦进行的能力以及与各种数字音频工作站(DAW)的兼容性。价格方面,Cadenza在促销期间以30美元的价格出售,这使得它对于音乐制作人来说是一个经济实惠的选择。

  • Florence-2-base-ft:先进的视觉基础模型,支持多种视觉和视觉-语言任务

    Florence-2是由微软开发的高级视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉-语言任务。该模型能够解释简单的文本提示,执行诸如图像描述、目标检测和分割等任务。它利用FLD-5B数据集,包含54亿个注释,覆盖1.26亿张图像,精通多任务学习。其序列到序列的架构使其在零样本和微调设置中均表现出色,证明是一个有竞争力的视觉基础模型。

  • Tellers:将任何文本、文章或故事快速转化为视频

    Tellers是一个AI驱动的视频编辑平台,它允许用户将书面内容快速转化为视频,无需视频编辑专业知识。该平台通过使用机器学习和信号处理算法,为用户提供了一种创新和实用的方式来扩展内容的覆盖范围,提高SEO排名,触及新的社区,并提高内容的可访问性。Tellers还提供了商业版,支持企业整合和定制化服务,满足数据隐私和内部软件集成的需求。

  • MyTrainingPlan:个性化马拉松训练计划

    MyTrainingPlan是一个提供个性化马拉松和半程马拉松训练计划的网站。它通过AI技术根据用户在Strava上的活动历史和当前健康状况来创建定制的训练计划。用户可以轻松调整计划以适应变化,并与之前的训练周期进行比较,以保持动力。此外,网站还提供里程统计、配速计算器和比赛倒计时等工具,帮助用户更好地准备比赛。

  • Licode:无需编码,快速构建AI驱动的网页应用

    Licode是一个无代码平台,为构建者、企业和创业者提供了一个原生由AI驱动的网页应用创建环境。它允许用户无需编码即可轻松构建SaaS、门户、仪表板、CRM、聊天应用和表单应用。Licode内置了AI功能,用户可以随时随地在应用中启用AI提示,赋予用户即开即用的AI能力。此外,Licode还提供了预构建的UI组件、内置的认证和用户管理系统、与Stripe集成的账单管理、安全的数据库存储以及自定义业务逻辑的动作创建功能。

  • SEOJuice:AI驱动的内部链接工具,简化SEO工作

    SEOJuice是一个AI驱动的内部链接工具,旨在简化SEO工作,通过自动化创建内部链接,帮助网站提升在搜索引擎中的排名。由Vadim个人开发,以解决手动添加内部链接的繁琐和耗时问题。SEOJuice通过AI扫描网站内容,找到合适的上下文链接和关键词,并自动添加,从而提升整个网站的SEO性能。作为一个自筹资金、独立运营的项目,SEOJuice不依赖外部投资,以用户订阅费用为运营资金。

  • Florence-2-large-ft:先进的视觉基础模型,支持多种视觉和视觉-语言任务。

    Florence-2-large-ft是由微软开发的高级视觉基础模型,使用基于提示的方法来处理广泛的视觉和视觉-语言任务。该模型能够通过简单的文本提示执行诸如图像描述、目标检测和分割等任务。它利用FLD-5B数据集,包含54亿个注释,覆盖1.26亿张图像,实现多任务学习。模型的序列到序列架构使其在零样本和微调设置中均表现出色,证明其为有竞争力的视觉基础模型。

  • 豆包 MarsCode:智能开发工具,一触即发

    豆包 MarsCode 是一款即将发布的智能开发工具,旨在通过AI技术激发开发者的创造力。它将为编程工作带来革命性的改变,提高开发效率,降低技术门槛。

  • Florence-2-base:先进的视觉基础模型,支持多种视觉和视觉-语言任务。

    Florence-2是由微软开发的高级视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉-语言任务。该模型能够解释简单的文本提示,执行如描述、目标检测和分割等任务。它利用包含54亿个注释的5.4亿张图像的FLD-5B数据集,精通多任务学习。模型的序列到序列架构使其在零样本和微调设置中都表现出色,证明其为有竞争力的视觉基础模型。

  • Florence-2-large:先进的视觉基础模型,支持多种视觉和视觉-语言任务

    Florence-2-large是由微软开发的先进视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉-语言任务。该模型能够解释简单的文本提示来执行如图像描述、目标检测和分割等任务。它利用包含54亿注释的5.4亿图像的FLD-5B数据集,精通多任务学习。其序列到序列的架构使其在零样本和微调设置中均表现出色,证明是一个有竞争力的视觉基础模型。

  • Multi:多人协作,提升软件开发效率

    Multi是一款专为软件开发团队设计的协作工具,它通过多人协作、共享控制、即时通讯和自动记录等功能,帮助团队成员更高效地沟通和工作。产品基于Zoom的高质量音视频基础设施,提供低延迟的共享控制体验,并通过AI技术自动生成会议摘要和行动项,进一步加速团队的软件开发流程。

  • 智能编码助手通义灵码:智能编码助手,提升开发效率

    通义灵码是一款专为开发者设计的智能编码助手,支持多种开发环境,包括JetBrains IDEs、Visual Studio Code、Visual Studio等。它通过集成先进的AI技术,帮助开发者快速完成编码任务,提高编码效率和质量,适用于各种编程语言和开发场景。

  • MOFA-Video:通过生成运动场适应实现单图像动画化

    MOFA-Video是一种能够将单张图片通过各种控制信号动画化的方法。它采用了稀疏到密集(S2D)运动生成和基于流的运动适应技术,可以有效地使用轨迹、关键点序列及其组合等不同类型的控制信号来动画化单张图片。在训练阶段,通过稀疏运动采样生成稀疏控制信号,然后训练不同的MOFA-Adapters来通过预训练的SVD生成视频。在推理阶段,不同的MOFA-Adapters可以组合起来共同控制冻结的SVD。

今日大家都在搜的词: