首页 > 业界 > 关键词  > ChatGPT最新资讯  > 正文

大神卡帕西安利爆火AI应用,称「或是下一个ChatGPT」

2024-10-01 09:47 · 稿源: 量子位公众号

声明:本文来自于微信公众号量子位 | 公众号 QbitAI,作者:衡宇,授权站长之家转载发布。

大神卡帕西墙裂推荐!

甚至预言这个AI应用,有可能开启「和ChatGPT一样大的机会」。

它就是来自谷歌的实验性AI产品,Notebook LM,背后由谷歌现在最强大的模型Gemini1.5Pro提供支持。

图片

最近这应用要多火就有多火,全因上线了一项新功能——

上传文件(文字、音频、视频),AI不仅能帮忙用文字提炼要点,还可以通过音频概述(Audio Overview)功能,把文件转换成AI生成的对话播客,根据文档内容进行讨论。

2个AI,用真人般的语音和口吻,围绕文件内容激情讨论,最后总结陈词。

这真的很酷!

而且不是卡帕西一个人在夸。逛了下互联网几大平台,网友们对Notebook LM普遍还是挺买账的。

AI界的KOL@elvis也在卡帕西评论区留言:

卡神称这“让人想起ChatGPT时刻”,绝对不是夸大其词!

真正让多种模型联合工作,会解锁Notebook LM这样独特的内容格式和用户体验。

图片

Notebook LM怎么玩?

玩法很简单,打开试玩页面,拖拽上传需要处理的文件。

可以是谷歌文档,可以是网站和视频链接,甚至干脆粘贴一大段文本都可以。

每个笔记本支持上传50个文件,每个文件内容上限500000个单词。

图片

这里我们上传了OpenAI o1的System Card文档,接下来就可以选择需要创建的内容。

内置支持问答、小测验、目录、时间线、摘要等文字版功能,以及两个主持人的深度对话音频内容。

如果有更个性化的需求也可以自己敲prompt。

图片

我们尝试用中文提问,结果AI是可以理解的。

很可惜的是Notebook LM不支持用中文回答,即使刻意要求也不行。

图片

选择创建音频的话,视文档长度需要等待几分钟到十几分钟。

趁这个时间来了解一下这背后的Gemini模型叭~

NotebookLM由Gemini1.5Pro来支持,也就是谷歌家目前旗舰级大模型。

Gemini1.5Pro支持超长128k上下文,这是能解读长文档的基础。

在最近的一次升级中,Gemini1.5Pro数学和推理能力还反超OpenAI o1预览版。

图片

好了,刚才生成的音频也处理完毕,英语好的朋友可以来听听看。

英语没那么好的朋友,也可以看看套娃AI转写、翻译出来的AI播客文字版,感受一下。

图片

单纯的上传文档,生成内容,还只是Notebook的实用玩法之一。

还有人介绍了学生上课录音,回家用AI整理重点的玩法,也广受好评。

(不是自己不听课了的意思)

具体来说,可以遵循以下步骤:、

  1. 上课时用手机录音;

  2. 上课期间不需要用电脑,只需(纸笔)记下简短的重点;

  3. (下课后)把录音和笔记扫描上传到NotebookLM,让它根据录音细节扩写笔记。

另外,还可以每周创建一份对所学内容重点的复习音频。

图片

一种与单纯Chat不同的交互范式

其实,NotebookLM并不是出道即爆火。

早在去年5月的Google I/O大会上它就已经出现了,不过那个时候,作为AI笔记本项目的它还叫Project Tailwind

到了去年7月,NotebookLM它才改成现在的名字。

起初,只支持美国局部地区的用户食用;功能也还是围绕着基础的Chat模式展开。

图片

NotebookLM自动生成文档指南(来自谷歌官网)

到了这个月11号,NotebookLM突然宣布面向全球玩家开放,并且新增了重磅功能,音频概述

谷歌给的官方介绍是这样的:

“新的音频概述功能,可以一键将文档、幻灯片、图表等转化为引人入胜的讨论。”

因为交互形式很新、AI语音逼真、讨论起来真的很像真人播客,大家一下就玩嗨了。

图片

到这两天,Notebook LM不仅已经能够把Youtube视频作为输入,还已经支持超100种语言。

现在,卡帕西的下场“示爱”,更为Notebook LM的热度添了一把火。

如卡帕西所说,Notebook LM爆火最主要的原因,是它提供了一种与单纯Chat不同的交互范式。

卡帕西表示,Notebook LM消除了大模型的两大享受障碍:

第一点,聊天其实挺难的。

有些人在日常生活中跟人交流都费尽心力,更别提要和Chatbot聊天,还得不停提问、追问。

NotebookLM好就好在,生成的二AI播客,其中有一方就会处于提问、引导角色。

咱把文档、音视频放进去,等待生成,美美听AI根据文件唠就是了。

第二点,阅读不是件容易的事。

信息爆炸的碎片化时代,挑个舒服的姿势,或者开车时候听别人讨论我需要的东西,比自己费劲吧啦搁那儿看容易得多。

——哪怕看的是AI已经帮我们总结出来的凝练版本(哎,没错,咱就是这么懒!doge)。

图片

本着精益求精的精神,也有网友表示了对Notebook LM更上一层楼的期待。

Hyperbolic Labs的联创兼CTO Yuchen Jin试玩过后,总结了两个局限性:

一个是它“看不到”,也就是没法处理文档里的图片信息。

不过背后的Gemini是多模态的嘛,相比Notebook LM长眼睛不会太晚。

另一个是用户无法引导AI播客的内容

Yuchen Jin喂给它两条推文,它就生成了近13分钟的音频内容,但它默认听众是普通受众,所以讲了很多很基本的概念。

如果能指定生成播客的目标群体,或者谈论主题、方向、角度,那真的是棒上加棒。

One More Thing

说时迟那时快,开发者搞出开源版的NotebookLM了!

不过暂时只能喂给它PDF嗷。

图片

咱就是说,人类真有意思哈!

以前在音频转文字方面费劲,追求把广播、会议录音啥的转成文字。

现在又开始用大模型把文字转成播客了……

有意思哇有意思哇(狗头)。

参考链接:

[1]https://notebooklm.google/

[2]https://x.com/karpathy/status/1840112692910272898

[3]https://x.com/omarsar0/status/1840145774874898506

[4]https://x.com/Yuchenj_UW/status/1840203324571943403

[5]https://github.com/gabrielchua/open-notebooklm

举报

  • 相关推荐
  • 大家在看
  • Chat with your Database:与数据库对话,用自然语言查询数据。

    Chat with your Database 是一个创新的数据库交互工具,它允许用户通过自然语言与Postgres数据库进行交互。利用AI技术,用户可以轻松地查询、分析和操作数据库,而无需编写复杂的SQL代码。该产品支持开源,鼓励社区参与开发和贡献,代码在GitHub上公开,用户可以自由探索、贡献或定制以满足特定需求。

  • AI Comic Factory.ai:在线AI漫画生成器,快速将创意转化为漫画故事。

    AI Comic Factory是一个创新的在线平台,旨在帮助用户轻松创建独特的漫画。用户可以通过输入描述性的提示或上传图片来生成各种风格的漫画,包括角色、场景和对话的选项。该平台提供定制选项,如版式布局、角色设计和对话生成,以增强漫画的视觉效果。凭借用户友好的步骤和可调设置,实现高质量的结果变得简单。无论是个人娱乐还是创意项目,AI Comic Factory都使得漫画创作过程变得高效且愉快。

  • AutoArena:自动化的生成式AI评估平台

    AutoArena是一个自动化的生成式AI评估平台,专注于评估大型语言模型(LLMs)、检索增强生成(RAG)系统和生成式AI应用。它通过自动化的头对头判断来提供可信的评估,帮助用户快速、准确、经济地找到系统的最佳版本。该平台支持使用来自不同供应商的判断模型,如OpenAI、Anthropic等,也可以使用本地运行的开源权重判断模型。AutoArena还提供了Elo评分和置信区间计算,帮助用户将多次头对头投票转化为排行榜排名。此外,AutoArena支持自定义判断模型的微调,以实现更准确、特定领域的评估,并可以集成到持续集成(CI)流程中,以自动化评估生成式AI系统。

  • GodmodeHQ:销售和市场营销AI,自动增长您的业务。

    GodmodeHQ是一个AI驱动的销售和市场营销平台,旨在通过自动化的方式帮助企业提高销售效率和市场覆盖。它通过集成多个B2B数据库,利用自然语言处理技术,帮助用户寻找和验证潜在客户,生成个性化的营销信息,并管理整个销售流程。产品的主要优点包括节省时间、提高销售团队的工作效率、以及通过个性化的营销信息提高转化率。GodmodeHQ的背景信息显示,它是由一群对销售和市场营销有深刻理解的团队开发的,旨在解决传统销售过程中的痛点,如寻找潜在客户、客户资格审查、个性化营销等。产品的价格策略是免费试用,之后根据功能的不同,提供不同的付费套餐。

  • Echo:使用AI整理和提炼你的想法的语音和文本笔记应用

    Echo是一款结合了人工智能技术的语音和文本笔记应用,它通过AI技术帮助用户组织和提炼思考。Echo利用GPT-4o大型语言模型进行转录、回忆和洞察力生成,能够准确转录用户的语音输入,并根据用户过去的想法提供有意义的答案,使日记体验更具互动性和吸引力。该产品注重隐私和安全性,笔记加密,不查看用户数据,也不使用数据训练AI,遵循行业最佳实践进行数据保护。目前Echo处于免费测试阶段,未来计划引入高级功能。

  • JobJump:个性化AI面试助手,助你在面试中脱颖而出。

    JobJump - AI Interview Copilot是一款专为求职者设计的Chrome插件,它通过人工智能技术提供个性化的面试辅导。这款插件能够识别面试官的问题,并即时生成定制化的答案提示,帮助用户更自信地回答问题。它支持50多种面试语言,并针对200多个行业和角色进行了定制化。JobJump插件易于安装和使用,用户可以通过Google账号注册并免费开始使用。它适用于多种在线面试平台,能够帮助用户在面试中更好地展示自己,提高获得理想工作的机会。

  • Coverr AI Workflows:利用AI技术提升视频创作效率

    Coverr AI Workflows是一个专注于AI视频生成的平台,提供多种AI工具和工作流程,帮助用户通过简单的步骤生成高质量的视频内容。该平台汇集了AI视频专家的智慧,通过社区分享的workflows,用户可以学习如何使用不同的AI工具来创作视频。Coverr AI Workflows的背景是基于人工智能技术在视频制作领域的应用日益广泛,它通过提供易于理解和操作的工作流程,降低了视频创作的技术门槛,使得非专业人士也能创作出专业级别的视频内容。Coverr AI Workflows目前提供免费的视频和音乐资源,定位于满足创意工作者和小型企业的视频制作需求。

  • Emploio:AI驱动的员工成长平台

    Emploio是一个利用人工智能技术来支持个人成长、增强职业发展,并培养一个充满活力的工作场所文化的平台。它通过提供AI驱动的洞察力来最大化团队潜力,帮助企业跟踪员工成长和团队表现,分享跨部门的洞察力,并构建完美的团队。此外,Emploio还提供一对一的协助,确保每个团队成员都能获得成功所需的指导。它还可以与日常使用的工具集成,优化生产力,并通过统一的仪表板与团队保持联系。

  • Handinger:从互联网提取数据的简单且经济的方式

    Handinger是一个提供数据提取服务的网站,它允许用户通过HTTP端点轻松提取网页内容,包括Markdown、截图、元数据和HTML等格式。这种服务对于训练大型语言模型、存储内容或获取网页特定内容非常有用。Handinger的价格非常低廉,每URL的成本仅为0.0005美元,且每月前2000个URL免费,没有前期成本,也无需复杂的API积分。该服务支持所有类型的网站,并且为用户提供了慷慨的速率限制,每分钟可进行1000次请求。

  • 笔灵AI小说生成器:智能AI辅助小说创作工具

    AI小说生成器是一个专为小说创作者设计的智能AI辅助工具,它通过提供各种写作模板、灵感词库、人物设定、剧情生成等功能,帮助作者快速构思和创作小说。该产品背景信息显示,它由上海简办网络科技有限公司开发,旨在解决作者在创作过程中遇到的灵感枯竭、写作效率低下等问题。产品的主要优点包括丰富的写作模板、AI智能生成和改写功能、以及对不同小说类型的全面支持。价格方面,产品提供终身会员服务,每月只需极低的费用,性价比极高。

  • Swarm:多智能体系统构建、编排和部署框架

    Swarm是由OpenAI Solutions团队管理的实验性框架,旨在构建、编排和部署多智能体系统。它通过定义智能体(Agent)和交接(handoffs)的抽象概念,实现了智能体之间的协调和执行。Swarm框架强调轻量级、高可控性和易于测试,适用于需要大量独立功能和指令的场景,允许开发者拥有完全的透明度和对上下文、步骤和工具调用的细粒度控制。Swarm框架目前处于实验阶段,不推荐在生产环境中使用。

  • AI Hairstyle:AI驱动的发型变换和发色更换工具

    AI 发型是一个在线平台,利用人工智能技术为用户提供个性化的发型和发色更换体验。用户可以通过上传自己的照片,尝试不同的发型和颜色,无需实际剪发或染发即可预览效果。该平台的AI技术能够分析用户的面部特征,推荐最适合的发型和颜色,帮助用户在做出实际改变前做出更明智的决定。AI 发型的主要优点包括:个性化推荐、真实预览效果、云端存储生成的图片、用户友好的界面以及多种发型和颜色选择。产品背景信息显示,AI 发型已经拥有超过10K+用户和2M+生成的发型数量,显示了其受欢迎程度。价格方面,AI 发型提供免费计划,同时也提供不同级别的付费计划,以满足不同用户的需求。

  • Enjoy App:AI辅助的英语学习应用,专注发音训练和记忆提升。

    Enjoy App是一款专注于英语学习的应用程序,它通过AI技术帮助用户纠正发音,提供学习记录跟踪,并利用丰富的在线素材进行语言学习。该应用提倡直接上手学习,忽略繁琐的方法论,旨在通过1000小时的专注训练帮助用户掌握英语技能。它支持音频和视频的可视化跟读,AI自然对话,以及记忆增强系统,是学习英语的有力工具。Enjoy App的价格策略是按使用功能计费,新用户有初期余额,之后可以通过充值享受更多服务。

  • AI视频生成神器:利用AI技术快速生成视频内容

    AI视频生成神器是一款利用人工智能技术,将图片或文字转换成视频内容的在线工具。它通过深度学习算法,能够理解图片和文字的含义,自动生成具有吸引力的视频内容。这种技术的应用,极大地降低了视频制作的成本和门槛,使得普通用户也能轻松制作出专业级别的视频。产品背景信息显示,随着社交媒体和视频平台的兴起,用户对视频内容的需求日益增长,而传统的视频制作方式成本高、耗时长,难以满足快速变化的市场需求。AI视频生成神器的出现,正好填补了这一市场空白,为用户提供了一种快速、低成本的视频制作解决方案。目前,该产品提供免费试用,具体价格需要在网站上查询。

  • AI答案生成器:免费无需注册的智能问答系统,为营销人员提供AI驱动的洞察和解决方案。

    AI答案生成器是一个专为营销人员设计的智能问答系统,它利用先进的人工智能技术,为用户提供关于数字营销趋势和策略的最新信息。该产品的主要优点包括免费使用、无需注册、用户友好界面、精确的语言模型、独特和创意的答案以及节省时间的解决方案。它适用于SEO优化、社交媒体内容规划、电子邮件营销等多种营销需求,帮助用户提高工作效率,快速生成营销策略和内容创意。

  • 派欧算力云:AI云端一体化解决方案,提供模型API、Serverless和GPU租赁服务。

    派欧算力云是一个一站式AIGC云服务平台,提供高性价比的GPU基础设施和无缝集成的最前沿AI推理技术。它全面覆盖不同业务阶段的AI需求,加速业务发展。派欧算力云的主要优点包括:高性能的云服务产品、无需管理和运维GPU基础设施、自动弹性扩缩容、全球覆盖的GPU容器实例、7X24小时客户服务。产品背景信息显示,派欧算力云旨在为AI应用开发者提供强大的算力支持,降低开发成本,提高开发效率。

  • FLUX.1-dev-LoRA-One-Click-Creative-Template:一键式创意图像生成模型

    FLUX.1-dev-LoRA-One-Click-Creative-Template 是一个基于 LoRA 训练的图像生成模型,由 Shakker-Labs 提供。该模型专注于创意照片生成,能够将用户的文本提示转化为具有创意性的图像。模型使用了先进的文本到图像的生成技术,特别适合需要快速生成高质量图像的用户。它是基于 Hugging Face 平台,可以方便地进行部署和使用。模型的非商业使用是免费的,但商业使用需要遵守相应的许可协议。

  • rag-chatbot:一个可以本地与多个PDF文件进行对话的聊天机器人。

    rag-chatbot是一个基于人工智能技术的聊天机器人模型,它能够让用户通过自然语言与多个PDF文件进行交互。该模型使用了最新的机器学习技术,如Huggingface和Ollama,来实现对PDF内容的理解和回答生成。它的重要性在于能够处理大量文档信息,为用户提供快速、准确的问答服务。产品背景信息表明,这是一个开源项目,旨在通过技术创新提升文档处理的效率。目前该项目是免费的,主要面向开发者和技术爱好者。

  • AI Anime Generator:免费AI动漫生成器,轻松创造独特的动漫风格图片

    Free AI Anime Generator是一个基于人工智能技术的在线平台,它允许用户通过简单的点击操作生成高质量的动漫风格图片。这个平台利用先进的AI算法,使得即使是非专业人士也能轻松创造出独特的艺术作品。它不仅为动漫爱好者提供了一个实现创意的平台,也为艺术家和设计师提供了一个探索新创意的工具。该平台完全免费,易于使用,是动漫艺术创作领域的一次创新。

  • Flux 1.1 Pro AI:高级AI图像生成工具,将文本提示转化为专业级图像

    Flux 1.1 Pro AI是一个基于人工智能的高级图像生成平台,它利用尖端的AI技术将用户的文本提示转化为高质量的视觉效果。该平台在图像生成速度上提高了6倍,图像质量显著改善,并增强了对提示的遵从性。Flux 1.1 Pro AI不仅适用于艺术家和设计师,还适用于内容创作者、营销人员等专业人士,帮助他们在各自的领域中实现视觉想法,提升创作效率和质量。

今日大家都在搜的词: