首页 > 业界 > 关键词  > Kimi最新资讯  > 正文

Kimi用浏览器插件落地AI:比网页方便,但功能局限

2024-07-10 08:44 · 稿源: 雷科技

初创公司月之暗面旗下的 Kimi 智能助手,可能是国内大模型市场上最大的一匹「黑马」,几乎从今年春节之后就开启了一路狂飙,很快就成为了二级市场和 AI 圈内议论的焦点。

就算到了6月,Kimi 的网站访问量在 AIGCRank 的统计中依然遥遥领先于其他 AI 聊天机器人和 AI 搜索引擎,包括百度文心一言和秘塔 AI 搜索等一众 ,位列国内第一

更重要的是,凭借长文本处理的优势、产品层面的尝试以及免费使用,Kimi 获得了用户的认可和青睐:

从长达80集的《甄嬛传》剧本到90万字的《三体》原著的提炼和总结,从链接到各种格式的文件都能进行快速总结和解答,越来越多普通用户日常使用 Kimi 用于工作、学习和娱乐,并分享到社交网络上。

然而真正深入到用户场景之中,网页版的产品形态固然有其优势,也有其局限性,尤其是对于一款需要高频使用的前台应用。所以就在最近,Kimi 终于推出了官方浏览器插件:

Kimi 浏览器助手。

SCR-20240709-rmvn.png

Chrome 扩展商店截图,图/雷科技

Kimi 浏览器助手可以免去很多繁琐的步骤,不光是不用跳转到 Kimi 主页才能进行一系列的询问和处理,还可以直接在正在浏览的网页中选中相关文本,让 Kimi 进行解释或拓展等处理。

这不是第一款 Kimi 的浏览器插件,此前就有开发者基于 Kimi 网页版开发了第三方的浏览器插件,比如 Kimi 阅读助手等。但 Kimi 官方一直没有动作,一度让人以为官方不看好或是已经放弃了浏览器插件的开发计划。

而在体验完 Kimi 浏览器助手之后,坦白讲,并没有看到太多惊喜。小雷从没有期望它能够像网页版一样提供完整的能力,但作为网页浏览的助手,就算相比第三方插件,Kimi 浏览器助手也还是有很多有待改进的地方。

用好 Kimi,从浏览器助手开始

首先需要指出的是,目前 Kimi 浏览器助手只支持了基于 Chromium 引擎的浏览器,如 Google Chrome。换言之,Safari、Firefox 等采用其他引擎的浏览器并不支持。(多提一句:Chrome 之于 Chromium,就如 Android 之于 AOSP。)

但考虑到现在绝大部分的浏览器都是基于 Chromium 引擎进行开发,大部分 Kimi 网页版的用户都还是可以安装使用,在 Kimi 主页的侧边栏找到「浏览器助手」再跟着引导安装即可。

SCR-20240709-rmhw.jpeg

图/Kimi

另外从介绍页,也能看出 Kimi 浏览器助手核心的功能——选字解释、文章总结,以及侧边栏模式。这里单独说下侧边栏模式,实际上很多 ChatGPT 的相关插件早就用上了这种交互设计,包括微软的 C opi lot 甚至可以实现系统级的侧边栏交互。

因为可以平行于正在浏览的网页,侧边栏的对话模式在事实上成为了各家 AI 聊天机器浏览器插件的标配。

不过 Kimi 对侧边栏模式的看法可能有些不同。在应用场景上,Kimi 浏览器助手在介绍中更强调在写作时,使用侧边栏模式进行持续对话和搜索。

SCR-20240709-rnlw.png

图/Kimi

在其他场景下,Kimi 更推崇另一种模式。

在插件配置上,可以看到 Kimi 浏览器助手默认打开「选取文字后显示 Kimi 按钮」以及「Kimi 悬浮按钮」,同时窗口展示默认是「全局浮窗」而非「侧边栏」,从侧面说明了 Kimi 浏览器助手在设计上的偏好和想法。

SCR-20240709-rrlr.png

Kimi 浏览器助手设置界面,图/雷科技

但这些功能和交互设计,到底用起来如何,才是最关键的。

浏览器助手,让 Kimi 更好用了吗?

Kimi 浏览器助手的用法很简单,你可以直接将其当作是一个 Kimi 的对话启动器,通过快捷键或者是点击浏览器右下角的悬浮按钮,就能呼出 Kimi 的对话窗口。

SCR-20240709-pkho.png

Kimi 浏览器助手启动界面,图/雷科技

这里的对话窗口非常简单,最核心的就是「输入框」和「总结全文」,此外还能一键跳转 Kimi 主页,看到呼出对话窗口的快捷键。

接着,你就能询问 Kimi 各种问题,比如 Kimi 为什么要推出 Kimi 浏览器助手这个插件,甚至调用 Kimi 推出的各种智能体。但显然,不同于网页版的完整对话窗口,你不能在这里上传各种文件,必须回到官网主页进行处理。

不过,Kimi 浏览器助手的产品定位决定了它不只是一个「启动器」,也不需要「全能」。

事实上,Kimi 浏览器助手的核心在于「浏览助手」,是基于用户正在浏览的网页。比如最近广受关注的罐车运输乱象,在阅读相关新闻时,可以呼出 Kimi 对话窗口,一键总结文章内容。

SCR-20240709-rocf.png

图/雷科技

当然,用户也可以单独选中「煤制油」或者其他不理解的词或句,再点击出现的 Kimi 按钮,Kimi 就会结合上下文解释一下这个普通大众并不太熟悉的概念。

而在解释过后,选中部分的文本还会留下「下划线」,只要将光标移至下划线部分,就会弹出之前与 Kimi 的对话。

同时,作为雷科技的一名编辑,小雷也经常需要了解很多此前并不了解的信息,往往需要花费不少的时间,尤其是涉及外文材料的时候。

比如最近有 AMD 前员工在 X(原 Twitter)上分享了他在 AMD 工作期间的经历,其中就谈到了 AMD 曾经差点与英伟达合并的故事。当找到最初的信息源,首先就可以呼出通过插件呼出 Kimi 的对话窗口,让 Kimi「总结全文」,用中文概括十多条英文推文:

直接省去翻译、阅读和梳理等步骤,节省了时间,提高了效率。

而在确认他有提到 AMD 差点并购英伟达之后,我还能继续让 Kimi 展开讲讲 AMD 差点并购英伟达的部分,进行更详细地了解。

SCR-20240709-qbfh.png

图/雷科技

从回答来看,Kimi 也确实给出了让人满意的答案,不仅完整涵盖了 AMD 前员工分享的相关信息,还将其梳理成「AMD 的收购尝试」「市场地位和战略」等6个部分,方便理解故事背景。

甚至如果不需要总结全文,可以让 Kimi 直接跳到这一步进行处理。

不过,Kimi 浏览器助手的帮助也仅限于正在浏览的网页。比如前面提到的油罐车事件的报道,如果问到文章没有涉及的问题,Kimi 就开始「答非所问」了:

SCR-20240709-qmhz.png

图/雷科技

连编都不想编。

与此相对的是,如果是在网页版中将链接丢给 Kimi 再询问,先不谈回答的质量,但至少可以得到相对应的回答。目前来看,Kimi 浏览器助手应该是限制了大模型的「信息来源」,将其限制在浏览的网页中。

SCR-20240709-rpic.png

图/雷科技

但 Kimi 浏览器助手的这种策略,并不符合用户的实际需求,我们在浏览网页遇到疑问的时候,需要的解答不太可能由一篇文章能够全部涵盖的,往往需要发挥大模型更广泛的「知识储备」和「联网能力」。

相比之下,如果是要从长篇的 PDF 文件甚至一组论文中高效地获取信息,可能才需要将大模型的「信息来源」限制在上传文件之中。

此外,Kimi 浏览器助手还有不少地方有待改进。

比如前文已经提到了相比网页版,Kimi 浏览器助手对话窗口的功能并不齐全,能力也受到了一定限制,小雷在使用过程中就多次想跳转到网页版。但实际使用中,只要开启了对话,就再也看不到初始界面一键访问 Kimi 官网的快捷方式,当然更不支持在网页版中打开该对话。

又比如在同一网页内,如果在多处选中解释,实际会产生 N 个对话,分散在文章的各处,即便点击浏览器右下角的「Kimi 悬浮按钮」,也没办法快速回顾之前的对话列表。

总的来说,相比第三方 Kimi 的浏览器插件,官网推出的这款 Kimi 浏览器助手有着更差异化的定位,比较核心的作用是对文章进行快速总结,以及对文章中不了解的概念和词语进行简单的解释,并不鼓励用户进行多轮对话,来深入了解和研究一个主题。

写在最后

经常尝试各种 AI 工具的读者应该不难发现,在这一轮的 AI 大潮中,很多产品逻辑发生了改变,移动时代的「App 先行」到了 AI 时代就摇身一变成了「Web 先行」,从 ChatGPT 到谷歌 Gemini,从百度文心一言到 Kimi、阿里通义:

概莫能外。

原因其实不难理解。以 AI 聊天机器人为例,日常办公和学习是目前最为核心的使用场景,从这个角度,PC 端无疑是比移动端更重要的平台。同时在 PC 端,浏览器是最为核心的软件,浏览网页也是 PC 用户最主要的需求之一。

因此,浏览器插件也就成为了 AI 聊天机器人提高用户体验、提高用户使用频率的关键途径之一。Kimi 浏览器助手的推出,正是为了满足这一需求,核心就是进一步简化用户在浏览网页时处理信息、获取信息的过程。

SCR-20240709-qyyk.png

Kimi 第三方浏览器插件,图/雷科技

而在 ChatGPT 一直没有推出官方浏览器插件的当下,AI 聊天机器人的浏览器插件实质还处于草莽阶段,第三方和官方都没有形成一套公认且行之有效的交互设计。

至于 Kimi 的尝试,虽然没有带来太多的惊喜,但 Kimi 浏览器助手「轻度使用」的产品定位,对于不少 Kimi 用户来说仍是一个可以提高日常使用体验的手段。

举报

  • 相关推荐
  • 大家在看
  • AI写作宝:AI驱动的文字生产力工具

    AI写作宝是一个利用人工智能技术提供多种写作辅助服务的在线平台。它通过各种功能帮助用户快速生成高质量文本内容,提高写作效率,适用于多种场景,如社媒写作、教育、工作、短视频、电商和娱乐等。

  • RTVI-AI:实时语音和视频推理的开放标准

    RTVI-AI是一个旨在简化构建AI语音到语音和实时视频应用的开放标准。它提供了开源SDK代码和标准端点形状、事件消息以及数据结构的文档,支持开发者使用任何推理服务,并允许推理服务利用开源工具为实时多媒体开发复杂的客户端工具。

  • File Transcribe:AI驱动的音频转文字服务

    File Transcribe 是一款利用先进人工智能技术将音频文件转换为文本的服务。它通过高精度的AI模型,提供即时、准确的转录服务,并具备多种高级功能,如说话人识别、情绪检测、主题检测等。该服务支持多种语言,能够满足不同用户的需求,提高工作效率,适用于记者、学生、企业等各类用户。

  • NinjaRIP:AI驱动的文档处理工具,快速准确。

    NinjaRIP是一款AI驱动的文档处理服务,它通过先进的机器学习模型来识别模式和提取有意义的信息,从而简化文档工作流程。它以99%以上的准确率在文档识别和数据提取方面提供无与伦比的精确度,确保了数据的可靠性和可信度。NinjaRIP在beta阶段免费提供,一旦过渡到正式版,将提供不同业务需求的定价计划,价格透明且具有竞争力。

  • DeepL Chrome扩展:在Chrome浏览器内翻译阅读或书写的内容

    DeepL Chrome扩展是一款由全球最精确的人工智能翻译器支持的浏览器插件,它允许用户在Chrome浏览器中即时翻译阅读或书写的内容。它利用神经网络和人工智能技术,能够捕捉最细微的差别,提供比同行业竞争对手更准确的翻译结果,准确度高达三倍以上。

  • 豆包浏览器插件:浏览器AI助手,提升工作学习效率

    豆包浏览器插件旨在通过AI技术提升用户的工作效率和学习效率。它具备快速视频与一键从网页、PDF和视频中总结并生成亮点的功能,同时支持在网页任意地方划词进行全方位AI搜索。此外,它还提供全文对照翻译功能,帮助用户在阅读外文资料时更轻松地理解内容。豆包插件的设计理念是将AI技术与日常使用场景相结合,让用户在进行网页浏览、文档阅读和视频观看时能够更加便捷地获取信息和知识。

  • 聚好用AI:一站式创意平台,激发无限创意。

    聚好用AI是一个集成了多种创意工具的在线平台,旨在帮助用户快速生成和编辑各种创意内容。它结合了AI技术,使得设计、绘画、音乐创作等变得更加简单和高效。平台的主要优点在于其易用性、高效性和创新性,能够满足不同用户在创意表达上的需求。聚好用AI背后的技术团队拥有丰富的行业经验,致力于通过AI技术推动创意产业的发展。目前,该平台提供免费试用,但部分高级功能可能需要付费。

  • E象:AI技术助力电商,提升运营效率

    E象 HiDream.ai 是一家专注于电商行业的AI技术公司,通过人工智能技术提供高质量的商品图,帮助商家提高商品上架和运营活动的效率。产品通过AI技术替代传统拍摄,降低成本,提升人效,缩短上架时间。主要技术包括AI生成商品图、模特效果图、商品视频生成等,适用于跨境电商和本地电商。

  • HackerPulse.io:开发者成长助手

    HackerPulse 是一个专门为开发者设计的个人资料聚合平台。它通过整合 GitHub、LinkedIn 等多个开发者常用的平台数据,帮助开发者构建一个全面的个人资料。这个平台不仅可以展示开发者的技能和成就,还能识别技能差距和提升空间,从而支持开发者的职业成长。

  • SuperCoder 2.0:开源自主软件开发系统

    SuperCoder 2.0是一个开源的自主软件开发系统,利用大型语言模型(LLMs)和大型动作模型(LAMs)针对Python代码生成进行微调,以实现更高精度的一次性或少次编程。它结合特定于开发框架的软件护栏,如Flask和Django,与SuperAGI的通用智能开发代理一起,提供复杂的现实世界软件系统。SuperCoder 2.0还确保了您的知识产权和代码免受AI相关的滥用,并与现有的开发栈如Jira、Github或Gitlab、Jenkins、CSPs以及QA解决方案如BrowserStack/Selenium Clouds深度集成,确保无缝的软件开发体验。

  • Llama Tutor:个性化AI教学助手,学习更高效

    Llama Tutor是一个基于Llama 3.1和Together AI的个性化AI教学助手,旨在为用户提供定制化的学习体验。它完全开源,用户可以在GitHub上找到相关代码并进行个性化的调整。该产品通过用户输入的学习主题和教育水平,生成个性化的学习计划,帮助用户更高效地掌握知识。

  • HoloDreamer:从文本描述生成全息3D全景世界

    HoloDreamer是一个文本驱动的3D场景生成框架,能够生成沉浸式且视角一致的全封闭3D场景。它由两个基本模块组成:风格化等矩形全景生成和增强两阶段全景重建。该框架首先生成高清晰度的全景图作为完整3D场景的整体初始化,然后利用3D高斯散射(3D-GS)技术快速重建3D场景,从而实现视角一致和完全封闭的3D场景生成。HoloDreamer的主要优点包括高视觉一致性、和谐性以及重建质量和渲染的鲁棒性。

  • MusiConGen:基于Transformer的文本到音乐生成模型

    MusiConGen是一个基于Transformer的文本到音乐生成模型,它通过时间条件增强对节奏和和弦的控制。该模型从预训练的MusicGen-melody框架中微调而来。它使用符号表示的和弦和节奏控制,并结合五种不同风格的文本描述来生成样本。生成样本的和弦通过BTC和弦识别模型进行估计,如论文中所述。

  • PixVerse V2:轻松创建视觉冲击的视频内容。

    PixVerse V2是一个革命性的更新,它赋予每个用户轻松创建令人惊叹的视频内容的能力。使用V2,您可以轻松制作视觉冲击力强的电影,甚至可以加入现实世界中不存在的元素。主要优点包括模型升级、画质提升、剪辑间的一致性等。

  • KLING AI:激发你的想象力,开启创意生产的新时代。

    KLING AI是快手可灵的国际版,是一个以AI技术为核心的创意生产平台,提供AI图像和视频生成服务。其背后的技术由KOLORS和KLING提供支持,旨在通过先进的算法快速生成高质量的视觉内容,帮助用户实现创意想法,提升生产效率。

  • Comfy Deploy:快速部署AI应用的协作平台

    Comfy Deploy是一个面向产品团队的开源平台,专注于将ComfyUI工作流程快速转化为生产就绪的API。它提供了一键部署API、强大的管理GPU支持、任何模型和自定义节点的安装,以及无需自托管即可享受的ComfyUI的强大功能。该平台通过简化复杂流程,帮助团队协作、迭代和部署AI应用,显著提高了生产效率。

  • NVIDIA AI Foundry: 提供定制化的 AI 模型和解决方案。

    NVIDIA AI Foundry 是一个平台,旨在帮助企业构建、优化和部署 AI 模型。它提供了一个集成的环境,使企业能够利用 NVIDIA 的先进技术来加速 AI 创新。NVIDIA AI Foundry 的主要优点包括其强大的计算能力、广泛的 AI 模型库以及对企业级应用的支持。通过这个平台,企业可以更快速地开发出适应其特定需求的 AI 解决方案,从而提高效率和竞争力。

  • HeyGen Interactive Avatar:在线创建AI虚拟形象视频,实时互动。

    HeyGen Interactive Avatar是一个在线AI视频生成器,专注于创建和优化虚拟形象视频,支持实时互动。它允许用户创建一个为连续流媒体优化的虚拟形象,同时提醒用户保持头部和手部的最小动作。HeyGen的背景信息包括与Baron David和Ryan Hoover等知名人士的合作,产品目前处于Beta测试阶段,提供免费试用。

  • Adobe Firefly Vector AI:创意生成AI工具

    Adobe Firefly Vector AI是Adobe推出的一系列创意生成AI模型,旨在通过生成AI功能增强创意工作。Firefly模型和服务于Photoshop、Illustrator、Lightroom等Adobe创意应用中。它通过文本到图像、生成填充、生成扩展等功能,帮助用户以前所未有的控制力和创造力生成丰富、逼真的图像和艺术作品。Firefly的训练数据包括Adobe Stock的授权内容、公开许可内容和公共领域内容,确保其商业使用安全。Adobe致力于负责任地开发生成AI,并通过与创意社区的紧密合作,不断改进技术,支持和提升创意过程。

  • Jelled.ai:使用AI数字孪生优化职场沟通

    Jelled.ai是一个利用人工智能技术来提升职场沟通效率的平台。它通过创建用户的数字孪生,帮助用户从Gmail和Slack等主要通信渠道中提取、总结关键信息,并生成及时、知情的邮件草稿。数字孪生能够学习用户的邮件回复模式,节省时间和精力。此外,它还提供了即时回复、智能代理聊天、消息审查等功能,帮助用户有效管理日常沟通。Jelled.ai致力于保护用户数据安全,通过年度安全审计和符合Google API服务用户数据政策的措施,确保数据安全。

今日大家都在搜的词: