首页 > 业界 > 关键词  > GPT-4o最新资讯  > 正文

GPT-4o成全球网友新玩具,秒秒钟纸质原型转录初始HTML,网友:谷歌你是一点流量摊不上啊

2024-05-16 13:48 · 稿源: ​量子位公众号

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:衡宇,授权站长之家转载发布。

好啊,不愧是OpenAI最新旗舰,打开各个社交软件,GPT-4o的上手测试都唰唰唰往我首页推

请!看!

这,就是用上GPT-4o,花不到30s时间,通过单个prompt把一个电子表格中的内容生成了完整的图表和统计分析。

image.png

在过去,在Excel里做这玩意儿,不得花咱打工人好一阵子时间?

而下面这张图,是网友花了不到20s,用GPT-4o创建出的一张四腿桌子的3D模型的STL文件。

图片

牛哇牛哇!

毕竟GPT-4o能力横跨听、说、看,主要是,它还免费啊!

就跟网友总结的一样,现在,每个用户都可以通过AI和简单的Prompt来生成非常了不起的东西。

不过,关于“如何生成复杂结构的东西”,还需要再摸索摸索。

一起来看,网友们都在怎么忘我地狂玩儿GPT-4o吧——

狂玩GPT-4o

在一年一度的谷歌 I/O 开发者大会前24小时,OpenAI突袭发布了GPT-4o。

“o”是Omni的缩写,意为“全能”。

敢起这么个名字,是因为GPT-4o接受文字、音频、图像的任意组合作为输入,并生成文字、音频、图像输出。

在5月14日的OpenAI官方演示中,用起来非常丝滑,甚至响应音频输入的速度赶上了人类。

抱着“我不信除非我试试”的态度,网友已经玩疯了。

爱因斯坦谜题

先声明,这个所谓的“爱因斯坦谜题”,很像咱小时候做的奥数题,是用来测试大模型逻辑能力的。

题目背景是这样的:

在一条街上,有五座房子,喷了五种颜色。每座房子里住着不同国籍的人。每个人喝不同的饮料,抽不同品牌的香烟,养不同的宠物。

提示:

(1)英国人住红色房子。

(2)瑞典人养狗。

(3)丹麦人喝茶。

(4)绿色房子在白色房子左面隔壁。

(5)绿色房子主人喝咖啡。

(6)抽Pall Mall香烟的人养鸟。

(7)黄色房子主人抽Dun Hill香烟。

(8)住在中间房子的人喝牛奶。

(9)挪威人住第一间房。

(10)抽 Blends香烟的人住在养猫的人隔壁。

(11)养马的人住抽Dun Hill香烟的人隔壁。

(12)抽 Blue Master的人喝啤酒。

(13)德国人抽 Prince香烟。

(14)挪威人住蓝色房子隔壁。

(15)抽 Blends香烟的人有一个喝水的邻居。

问题来了,谁养鱼?谁住蓝色房子?

前几天,网友在lmsys测试i-am-gpt2-bot(就是在大模型竞技场大杀特杀的神秘GPT-2)时,还没办法解答爱因斯坦谜题——而且也没有任何其他AI可以搞定这个问题。

但上手一试,GPT-4o光速回答对了。

大家可以自己动手测一下(手动狗头)。

image.png

自动选股器

前脚刚看到OpenAI说了,GPT不能用来选股,没有啥参考意义。

后脚就有网友在推特上发布了实现的GPT-4o自动选股器,并配文:强得可怕!

具体来说,他用GPT-4o实现了将两百多行选股指标自动改写成自动选股器、输出图表和数据归档。

4ee917337ff15f4f8b63a61a60ee5fea.png

图片来自推特博主:JerLin

而且只需1轮交互就能完成较为满意的效果,效率暴打GPT-4(哦?我揍前代我自己)

据他说,用GPT-4搞这玩意,需要反反复复修改,而且处理100行以上的代码非常低效。

对此,网友的评价非常精辟:

如果能100%预测那真的是完美!但如果预测不对那不如别预测……

图片

纸质原型转录初始HTML

也有网友尝试利用GPT-4o,把写在纸上的原型转录为电脑内的初始HTML。

他白纸黑字是这么写的:

图片

然后把这张图喂给了GPT-4o。

然后GPT-4o说:

图片

然后就得到了:

图片

网友本人对吐出的这个结果非常满意,他激动地在推特写下:

就像我们正在进行一场超越世界的对话,这真是Soooooo Cool~

图片

不止他一个,另外有网友在Hacker News上表示,自己也能用GPT各个版本将原始动态数据动态转换为漂亮的HTML布局。

这样来制作低流量页面,如更改/审核日志,能节省大量的开发时间,还能在数据结构发生变化时保持HTML更新

不过尝试并不是回回奏效,因为GPT-4-Turbo有时几乎完全忽略了上下文和说明。

OCR

不过,有网友表示对GPT-4o的OCR能力也有点牛气在身上的

事情是这样的,他扔给了GPT-4o一张这个图。

怎么说呢,确实密密麻麻,公司Logo又有图像又有文字,人类肉眼看都有点吃力。

图片

GPT-4o的结果把测试者本人惊到了,他说:“它不断吐出连人类都难以识别的图中的内容。”

image.png

围观网友纷纷跟帖留言,不外乎是“将来,使用它的人和不使用它的人之间的工作似乎会有很大的区别”“如果您跟不上先进技术,您就会落后”之类的话。

拳打Google,但被马斯克脚踢?

OpenAI出手再次惊艳世界,谷歌果然坐不住了。

在今日凌晨的发布会上,谷歌带来了Project Astra,它家的最新大模型产品。

和GPT-4o一样,Project Astra能写会听会看会说,也能几乎没有延迟地和人类畅快交流。

不过英伟达科学家Jim Fan老师率先出来点评了一番:

首先,谷歌看起来似乎是多模态输入,但不是多模态输出。

谷歌旗下的图像生成模型Imagen-3以及音乐生成模型仍然作为独立组件,没有融合到当中去。

他提到自己的观点,那就是融合所有模态于一体是不可避免的未来趋势,当然了,还有一些他认为不可缺失的细节,具体如下。

  • 启用诸如“使用更机械化的声音”“说话速度加快2倍”“迭代编辑此图像”和“生成一致的漫画”等任务选项;

  • 不会丢失跨模式的信息,例如情感和背景声音。

  • 开辟新的上下文功能,您可以教模型通过少量示例以新颖的方式组合不同的感官。

对比之下,GPT-4o做得不是完美,但大体上是正确的。

而谷歌呢?

Jim Fan老师不愧是老冲浪选手了,他说,谷歌做对的一件事是,“他们终于开始努力把AI集成到搜索框中”。

图片

还有网友真上手了谷歌新鲜出炉的Project Astra,发了个横向评测视频:

内容我们听了,大体是说,他个人感觉谷歌发布会上的Demo展示环节不太好,他自己和另外三个人去摊位试玩了Project Astra,也只能玩儿2分钟左右。

玩下来的感受,就是大写的“谷歌打的是没准备好的仗”。

排在他前面的测试玩家让Project Astra对着一个事物讲一个故事,Astra信誓旦旦答应说好,然后就没有然后了……

不过让Astra识别画出来的帆船和笑脸,它还是能够胜任的。

相比较而言,他认为GPT-4o更丝滑,不过因为他还没自己上手过GPT-4o,所以不多妄作评价了。

大家的试玩狂欢中,还有一个戏剧性的事情。

那就是马斯克旗下大模型公司xAI的Grok,正确回答了Ilya离开公司的问题。

而OpenAI自己的大模型未能提供正确响应。

图片

网友故意郑重其事地宣布:

突发事件!xAI的Grok1.0击败OpenAI新推出的GPT-4o。

当然了,这必须归功于xAI背后拥有推特(X)上的实时数据/帖子/新闻,没有什么比这更快、更丰富、更真实了。

还有个有意思的是,Hacker News上大家发起了一个神奇的讨论。

有人亮出了一个链接,跳转的是一个2021年发布的打油诗数据集Needle in a Needlestack(只能说世界之大无奇不有),称他坚信GPT-4o训练时,用了里面的数据,

图片

事情的起因是这样的——

Needle in a Needlestack用于衡量大模型对上下文窗口中的信息的关注程度,包含数千首打油诗的提示,该提示询问有关特定位置的一首打油诗的问题。

简单来说就是一个有点意思版本的大海捞针。

不过目前而言,还没有谁家的大模型在这个测试中表现惊艳。

图片

然而,GPT-4o却取得了突破!

图片

这是一个接近完美的表现。

于是网友就开始激情讨论,OpenAI做了啥,让GPT-4o的表现从GPT-4-Turbo大幅跃升。

最主要的观点就如贴主所说,绝对是OpenAI用了Needle in a Needlestack来训练自己,不然数据集背后团队出来解释解释,是怎么检查并确保数据集没有被任何大模型用来作训练呢?

当然了,也有人发出了此前已经有的声音(我们在3月参加月之暗面发布会,以及采访上海人工智能实验室的领军科学家林达华都听过类似的发言):

大海捞针测试对模型实际的长上下文功能的了解非常有限。

它之所以被广泛使用,是因为早期的模型在这方面表现很糟糕,而且很容易测试。

事实上,大多数最新模型现在在这一项任务上做得相当不错。

不过这次多了一点信息增量,不少人认为,大模型在执行超过32k tokens的长上下文时,进行任何复杂操作的能力都会大幅下降。

图片

最后话说回来,OpenAI真的是人干事?

在谷歌 I/O 开发者大会前贴脸输出GPT新功能,等谷歌发布会结束立马又带来了重磅消息,沉寂半年之久的OpenAI首席科学家Ilya,真的如众人猜测那样官宣离职。

好消息:

Ilya还活着。

图片

坏消息:

谷歌,你是一点流量都摊不上啊……

举报

  • 相关推荐
  • 大家在看
  • Stackpointer:一站式商业搜索引擎,洞察企业技术栈。

    Stackpointer是一个综合性商业搜索引擎,通过分析企业的技术栈来提供详细的商业洞察。用户可以通过关键词或特定技术来搜索企业,帮助创业者制定市场进入策略,识别市场饱和度,了解行业趋势,从而做出明智的商业决策。

  • Zest - Longevity:科学延长寿命,提升生活质量

    Zest - Longevity是一个旨在帮助用户实现更长寿、更健康生活的应用程序。它基于过去十年来科学研究对衰老生物学根源的探索,提供了一种工具,让用户能够从核心层面上应对衰老,甚至预防和逆转生物衰老过程。该应用程序由医生、长寿科学家和研究人员团队共同开发,并持续更新评估推荐方案。Zest通过跟踪8个关键的长寿支柱:情绪、睡眠、运动、阳光暴露、冷浸、禁食、补充剂和血液测试,帮助用户形成每日推荐目标,综合这些目标形成用户的长寿得分。此外,Zest与Vital SDK和数字生物标记的被动跟踪兼容,支持几乎所有可穿戴设备,结合行为科学和长寿科学,运用心理学和神经科学帮助用户维持延长生命的习惯。

  • Eve Coach:AI压力教练,助力管理工作相关压力。

    Eve Coach 是一款人工智能压力教练,旨在为用户提供工作场所中遇到的压力情境的支持和指导。产品通过AI技术,帮助用户管理和减轻工作压力,提高工作效率和生活质量。

  • anto:字幕文件 (srt) 翻译工具 Windows专用

    anto 是一款针对 Windows 的字幕文件 (srt) 翻译工具,提供便捷的翻译功能,旨在提高字幕翻译效率。

  • Interactive Graph by LLM:利用大型语言模型生成交互式图表

    Interactive Graph by LLM 是一个基于大型语言模型(LLM)的网站,它允许用户通过自然语言提示生成交互式图表。这项技术的重要性在于它简化了数据可视化的过程,使得非技术用户也能够轻松创建和理解复杂的数据。产品背景信息包括其创新的交互方式和对数据可视化的贡献。目前产品处于免费试用阶段,定位于希望简化数据展示流程的企业和个人。

  • Subtitle:开源字幕生成工具,实现内容无缝翻译。

    subtitle是一个开源的字幕生成工具,利用先进的机器学习技术,为用户提供准确且自然的声音字幕。它支持多种语言,易于集成到现有的工作流程中,并允许用户在自己的服务器上自托管,增强控制权和隐私保护。

  • KeepChatGPT:增强ChatGPT体验的插件,提供数据安全和效率。

    KeepChatGPT是一款旨在提升ChatGPT使用体验的插件,它通过自动刷新、保持活跃、数据安全、取消审计等创新功能,让AI聊天体验变得无比安全、顺畅、丝滑、高效和简洁。这款插件由兴趣驱动,完全免费共享,适合所有希望提升聊天效率和数据安全性的用户。

  • 快手可图大模型Kolors:智能创作与形象定制的AI艺术平台

    快手可图平台是一个结合了人工智能技术的在线艺术创作和形象定制服务。它允许用户通过输入文本或上传人像图片,快速生成具有多样风格和高画质的AI艺术作品。该平台的背景是快手公司,旨在为设计师、艺术家和普通用户提供一个创新的创作工具,帮助他们实现个性化的艺术创作需求。

  • Mapify:AI 思维导图,解析一切

    Mapify 是一款 AI 驱动的思维导图工具,能够帮助用户从多种文件格式、网页内容或视频等资料中快速提取核心观点,并整理输出为结构化的思维导图。它通过一键做图、缩放导图、内置 AI 模板等功能,极大提升了用户的生产力和创造力。Mapify 还具备与 AI 对话、实时网络访问和图像生成等高级功能,使用户能够更高效地展示和分享思维导图。

  • Perplexity Pages:将研究转化为视觉震撼、全面内容的新工具。

    Perplexity Pages 是一个旨在帮助用户将研究和知识转化为视觉吸引人、结构化且全面的内容的工具。它允许用户轻松创建、组织和分享信息,无论是深入文章、详细报告还是信息指南。该产品通过自定义、适应性和视觉元素的整合,使得内容创作更加个性化和吸引人,适合教育者、研究人员和爱好者等不同领域的内容创作者。

  • Hanabi.rest:AI驱动的API构建平台,快速部署全球REST API。

    Hanabi.rest是一个基于AI的API构建平台,它允许用户通过自然语言和截图来构建REST API,并且可以立即在全球范围内通过Cloudflare Workers部署。该平台支持多运行时API,能够生成与Cloudflare、Fastly、Deno、Bun、Lagon、AWS或Node.js兼容的代码,非常适合需要快速开发和部署API的开发者。

  • Betina:AI宠物护理专家,24/7即时指导。

    Betina是一个由AI驱动的宠物护理助手,旨在为宠物主人提供即时的宠物健康、行为、营养和福祉方面的专业指导。它通过创建宠物档案,提供个性化建议,并通过实时沟通和反馈来帮助宠物主人更好地理解和照顾他们的宠物。

  • Era3D:高分辨率多视角扩散模型,使用高效行注意力机制。

    Era3D是一个开源的高分辨率多视角扩散模型,它通过高效的行注意力机制来生成高质量的图像。该模型能够生成多视角的颜色和法线图像,支持自定义参数以获得最佳结果。Era3D在图像生成领域具有重要性,因为它提供了一种新的方法来生成逼真的三维图像。

  • ToonCrafter:生成卡通插值研究论文

    ToonCrafter是一个开源的研究项目,专注于使用预训练的图像到视频扩散先验来插值两张卡通图像。该项目旨在积极影响AI驱动的视频生成领域,为用户提供创造视频的自由,但要求用户遵守当地法律并负责任地使用。

  • AnimateAnyone:由Novita AI提供的非官方Animate Anyone实现

    AnimateAnyone是一个基于深度学习的视频生成模型,它能够将静态图片或视频转换为动画。该模型由Novita AI非官方实现,灵感来源于MooreThreads/Moore-AnimateAnyone的实现,并在训练过程和数据集上进行了调整。

  • ChatGPT Edu:AI助力教育,智能校园助手

    ChatGPT Edu是OpenAI为大学校园设计的一款AI模型,旨在负责任地将人工智能技术引入学生、教职工、研究人员和校园运营中。该模型基于GPT-4o构建,能够进行文本和视觉推理,并使用数据分析等高级工具。它具有企业级的安全和控制功能,价格对教育机构而言是可承受的。ChatGPT Edu的推出基于牛津大学、宾夕法尼亚大学沃顿商学院、德克萨斯大学奥斯汀分校、亚利桑那州立大学和纽约哥伦比亚大学等在使用ChatGPT企业版时取得的成功。

  • ChatTTS-ui:为ChatTTS创建的web界面和API接口

    ChatTTS-ui是一个为ChatTTS项目提供的web界面和API接口,允许用户通过网页进行语音合成操作,并通过API接口进行远程调用。它支持多种音色选择,用户可以自定义语音合成的参数,如笑声、停顿等。此项目为语音合成技术提供了一个易于使用的界面,降低了技术门槛,使得语音合成更加便捷。

  • ChatTTS.com:自然对话场景下的文字转语音模型

    ChatTTS是一个为对话场景设计的声音生成模型,特别适用于大型语言模型助手的对话任务,以及对话式音频和视频介绍等应用。它支持中英文,通过使用约10万小时的中英文数据训练,展现出高质量和自然度的语音合成能力。

  • Super Comments:利用AI技术,快速生成社交媒体评论

    Super Comments是一款旨在帮助用户在社交媒体上快速生成评论的Chrome扩展工具。它利用最新的GPT-4o模型,以人工智能技术生成评论,帮助用户提升社交媒体互动和关注度。产品支持多语言,用户可以自定义评论内容,以适应不同的社交媒体平台和个人风格。Super Comments适用于希望在社交媒体上提高曝光度和互动率的个人或企业。

  • Graphite Platform:AI驱动的内容优化平台,专注于主题SEO。

    Graphite Platform是一个以AI技术为核心,专注于主题SEO的在线平台。它通过机器学习将关键词集群化,帮助用户快速识别和优化高价值主题,从而提高网站流量和SEO效果。平台由经验丰富的SEO专家设计,旨在简化SEO工作流程,通过AI技术提高内容创作和优化的效率。

今日大家都在搜的词: