首页 > AI头条  > 正文

​Cohere推出多模态搜索模型Embed3,可用文本、图片检索文件

2024-10-23 09:40 · 来源: AIbase基地

Cohere 发布了最先进的多模态 AI 搜索模型 Embed3—— 现在支持多模态搜索,这意味着用户不仅可以通过文本,还能通过图像进行企业级的检索。

Embed3自去年推出以来,一直在不断优化,帮助企业将文档转化为数字化的表示形式,而这次的升级将让它在图像搜索方面表现更为出色。

Cohere 的联合创始人兼首席执行官 Aidan Gonzales 在社交媒体上分享了 Embed3在图像搜索方面的性能提升图表。

image.png

Cohere 在一篇博客中表示,这一新功能将帮助企业充分挖掘存储在图像中的海量数据,提升工作效率。企业可以更快速、准确地搜索复杂报告、产品目录和设计文件等多模态资产。

image.png

随着多模态搜索的不断发展,Cohere 的 Embed3可以同时生成文本和图像的嵌入。这种新的嵌入方法能够让用户在一个统一的潜在空间中管理图像和文本,而不是将它们分开存储。这种方式的改进将大幅提升搜索结果的质量,避免偏向于文本数据,从而更好地理解数据背后的含义。

image.png

以下是Embed3实际使用案例:

image.png

  • 图形和图表:视觉表示是理解复杂数据的关键。用户现在可以毫不费力地找到合适的图表来为他们的业务决策提供信息。只需描述一个特定的见解,Embed3就会检索相关的图形和图表,使跨团队的员工能够更高效地做出数据驱动的决策。

  • 电子商务产品目录:传统的搜索方法通常限制客户通过基于文本的产品描述来查找产品。Embed3改变了这种搜索体验。零售商可以构建应用程序,除了文本描述之外,还可以搜索产品图片,从而为购物者创造差异化体验并提高转化率。

  • 设计文件和模板:设计师经常使用大量的资产库,依赖内存或严格的命名规则来组织视觉效果。Embed3使根据文本描述查找特定 UI 模型、可视化模板和演示幻灯片变得简单。这简化了创作过程。

Embed3的支持语言也超过100种,这意味着它能够服务于更广泛的用户群体。目前,这款多模态的 Embed3已在 Cohere 的平台和 Amazon SageMaker 上推出。

随着越来越多的用户习惯于图像搜索,企业也在不断追赶这一趋势,Cohere 的更新让他们有机会享受到更为灵活的搜索体验。Cohere 在9月更新了其 API,使客户能够轻松地从竞争对手的模型切换到 Cohere 模型。

官方博客:https://cohere.com/blog/multimodal-embed-3

划重点:

🌟 Embed3支持多模态搜索,用户可通过图像和文本进行检索。  

📈 更新后的模型大幅提升图像搜索性能,助力企业挖掘数据价值。  

🔄 Cohere 在九月更新了 API,简化客户从其他模型切换的过程。  

  • 相关推荐
  • 微信新功能上线:长按图片“搜一搜” 检索购物转表一键达

    微信近日推出创新功能“搜一搜”,用户长按图片即可快速检索相关信息、直达购物或转换表格。该功能在信息检索方面表现突出,用户无需打开浏览器即可获取图片相关的历史、科学等专业内容。同时支持购物直达,系统自动关联商品购买渠道,实现“看图购物”。此外,还能一键将图片中的表格转为可编辑格式,提升工作效率。适用于iOS 8.0.59及以上、安卓8.0.58及以上版本,网友称赞其便捷高效。

  • AI日报:阿里推多模态模型Qwen3-Omni;谷歌推出AP2协议;百度推出Qianfan-VL 模型

    本期AI日报聚焦多领域技术突破:阿里云推出全球首个全模态AI模型Qwen3-Omni,支持文本、图像、音频和视频统一处理;百度发布多尺寸视觉理解模型Qianfan-VL,优化企业级应用。苹果扩展Image Playground平台,引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议,推动AI支付安全创新。钉钉上线AI表格助手,支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型,性能显著提升。Kimi推出Agent会员服务,智元机器人开源全球首个通用具身智能模型GO-1,降低技术门槛促进行业创新。

  • 既能读懂情绪,还能多模态交互!INDEMIND用空间智能重新定义陪伴机器人

    TCL与INDEMIND合作推出的陪伴机器人“Ai Me”通过空间智能技术实现突破,从传统2D感知升级为3D语义感知,赋予机器人动态语义建图、实时环境适应及多模态交互能力。该平台借助立体视觉与多传感器融合,让机器人精准构建三维地图,识别家居属性,实现主动避障与个性化服务。同时,结合低算力混合模型与情感交互功能,机器人可感知用户情绪、提供安全防护,并支持宠物看护等场景拓展,从“工具”升级为有温度的“家庭伙伴”,真正满足复杂家庭需求。

  • 小度发布多模态智能摄像机,AI大模型重塑家庭看护体验

    小度科技推出首款多模态智能摄像机C800,搭载800万像素4K超清摄像头,支持AI大模型技术。该产品不仅能实现高清监控,还具备智能行为识别、语音交互等功能,可自定义看护提醒。结合视觉与语音交互,支持复杂语义查询和家庭设备联动,扩展智能家居应用场景。目前产品已全网发售,年底还将推出三摄版本,持续探索AI硬件创新。

  • AI日报:腾讯重磅发布混元图像3.0;快手发布KAT系列Agentic Coding大模型;苹果悄然研发ChatGPT式应用

    快手发布KAT系列代码大模型,腾讯推出“混元图像3.0”实现多模态突破,苹果研发类ChatGPT应用升级Siri,谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型,YouTube Music测试AI音乐主播功能,VideoFrom3D框架简化3D视频生成,Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型,展现强大性能。

  • QQ传文件功能升级,闪传功能便捷支持长假批量传图

    国庆假期临近,QQ推出“闪传”功能,解决大文件传输难题。单文件上限提升至10GB,支持批量发送与不限速传输,用户可生成链接或二维码直接分享至微信等平台,接收方无需登录QQ即可下载。该功能适用于旅行照片、婚礼影像快速分享,也便于办公人群传输设计稿、项目资料,实现跨平台无缝协作。测试期间获用户好评,摄影师称其大幅提升节日期间紧急交片效率。QQ持续优化核心功能,强化独特价值。

  • 腾讯QQ闪传功能上线 支持单文件最大10GB传输

    国庆假期临近,旅游、婚礼Vlog等大文件传输需求激增。QQ闪传功能正式上线,支持单个文件最高10G传输,多个文件同时上传无需压缩,可在线预览并直接下载所需照片。文件可通过链接或二维码分享,接收方无需登录QQ即可获取,且支持跨设备同步传输记录。此外还具备文件夹直发、秒传及视频边传边看等功能,满足用户多样化传输需求。

  • 小米开源首个原生端到端语音大模型 支持音频重建任务和音频转文本任务

    小米发布首款开源端到端语音大模型Xiaomi-MiMo-Audio,拥有12亿参数,在智能性、情感表达和交互适配方面接近人类水平。该模型最大技术突破在于少样本学习能力,通过创新预训练架构和超一亿小时训练数据,成功突破传统语音模型依赖大规模标注数据的技术瓶颈。基于Transformer架构,支持音频重建和音频转文本等多任务处理。小米已在Huggingface平台发布预训练和指令微调版本,并在Github开源Tokenizer模型,为研究者和开发者提供完整工具链。

  • 声启未来新章 BANG & OLUFSEN 铂傲 推出全新Beo grace耳机

    Bang & Olufsen推出全新无线耳机Beo Grace,融合纤薄铝制机身与卓越音质,体现品牌对声学创新与永恒设计的追求。耳机灵感源自高级珠宝,采用标志性抛光铝材打造,支持杜比全景声与自适应主动降噪技术,降噪效果较前代提升四倍。配备12毫米钛金属驱动单元,续航达4.5小时(搭配充电盒可达17小时),具备IP57防水防尘。通过NearTap™手势操控与定制电池管理系统,兼顾便捷使用与长效耐用,开启可佩戴声学新纪元。

  • AI日报:DeepSeek发布V3.2-exp模型;Claude Sonnet4.5发布;ChatGPT 推出即时结账功能

    本期AI日报聚焦多项技术突破:DeepSeek发布V3.2-exp模型,通过稀疏注意力机制降低API成本50%;Anthropic推出Claude Sonnet 4.5,在编码任务表现卓越;ChatGPT新增即时结账功能,实现对话界面直接购物;OpenAI将推出AI版TikTok,所有内容由Sora2模型生成;百度地图升级小度想想2.0,提供智能出行服务;蚂蚁集团开源万亿参数模型Ring-1T-preview;DeepMind提出“帧链”概念,推动视频模型实现全面�

今日大家都在搜的词: