首页 > 业界 > 关键词  > Prompt最新资讯  > 正文

用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用

2023-11-26 15:07 · 稿源: 量子位公众号

用视觉来做Prompt,是种什么体验?只需在图里随便框一下,结果秒秒钟圈出同一类别!即便是那种GPT-4V都难搞定的数米粒的环节。只需要你手动拉一下框,就能找出所有米粒来。新的目标检测范式,有了!刚刚结束的IDEA年度大会上,IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋展

......

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 一个被忽视的Prompt技巧,居然是复制+粘贴。

    ​前两天,我在网上发现了一个关于很有趣Prompt技巧。 就是,通过重复输入提示词,可以将非推理类大模型的准确率,从21.33%提高到97.33%。 这个技巧,出自Google的一篇好玩的新论文。

  • MiroMind 破局:在大语言模型的夹缝中,陈天桥在造什么?

    本文阐述了陈天桥创立的MiroMind在AI领域的独特路径。文章将当前主流AI分为“文科模型”(如OpenAI,侧重语言生成与模拟)和“理科模型”(MiroMind追求的方向,强调因果推理与可验证性)。MiroMind反对单纯追求“行为主义”(图灵测试)或“功能主义”(替代工作),提出构建“通用推理引擎”的新定位。其核心是放弃“全知全能”幻想,承认模型会出错,通过引入“自我纠错”机制和外部反馈闭环来生存。目标不是聊天机器人,而是“可审计、可验证的通用问题求解器”,瞄准科研、工业等高容错门槛的B端“深水区”。文章以BrowseComp案例说明,小参数模型通过Agent交互可战胜更大模型,证明了推理能力可通过架构创新实现。最终,作者将理想的AGI比作一把精准剔除谬误的“手术刀”,而非无所不知的“神”。

  • 小米发布机器人基座模型Xiaomi-Robotics-0

    小米机器人团队开源发布全新具身智能VLA模型Xiaomi-Robotics-0,参数规模达47亿,具备视觉语言理解与高性能实时执行能力。该模型在三大主流仿真测试中横扫行业标杆,拿下全项SOTA成绩,并在真实机器人上实现流畅动作。其创新点在于能在消费级显卡上实现实时推理,打破高端模型依赖昂贵专业显卡的局限,降低技术落地门槛。小米自研的Mixture-of-Transformers架构为机器人装上“�

  • 7.8英寸大屏融汇HiFi交互逻辑:开博尔DMP-K8 PRO高端数播解码一体机,全面提升烧友的听音体验!

    开博尔DMP-K8PRO以7.8英寸超大高清触控屏提升传统HiFi台机交互体验。搭载双ES9039PRO解码芯片,实现140dB信噪比与高动态范围,支持硬解DSD512与PCM768kHz。采用专业排线屏蔽技术,确保大屏无电磁干扰。支持跨设备APP操控与本地/云端存储,内置CD机与SSD插槽。配备8GB内存与可升级系统,构建“大屏+移动端”双生态,为用户提供全面进化的居家HiFi体验。

  • 酷哇发布 WAM 2.0 世界模型,加速构建“自动驾驶+机器人”RoboCity 新基建

    酷哇科技发布通用世界模型底座Coowa WAM2.0,并率先实现年度EBITDA回正。公司已完成从“单点技术”向“城市通用智能”的战略跃迁,构建起“技术底座+商业规模”双轮驱动体系,开启万台级“城市新基建”规模化部署。依托三大业务矩阵(智慧出行、智慧物业、智慧城市管家),酷哇已在全球超50个城市实现商业化落地,累计安全运营里程突破500万公里。其规模化订单市场占有率约80%,一线城市业务占比从2022年的不足2%跃升至2025年的25%,客户长期价值认可度持续提升。

  • 比2200MPa小米超强钢更强!小米汽车:正在进行2400MPa热成型钢的预研

    小米汽车2月9日透露,新一代SU7、小米YU7将采用2200MPa超强钢打造防滚架和车门防撞梁,这是目前行业量产最高强度的热成型钢。该材料由小米、育材堂、东北大学联合研发,产学研结合打破了高校与企业间的壁垒。东北大学提供理论支撑,育材堂搭建技术转化桥梁,小米以市场需求牵引创新方向。材料开发中引入AI模型,筛选2443万种配方,大大缩短研发周期。目前小米正预研2400MPa热成型钢,希望早日量产。

  • 性能对标Gemini 2.5 Pro!蚂蚁开源新一代全模态大模型Ming-Flash-Omni 2.0

    今日,蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0。 在多项公开基准测试中,该模型在视觉语言理解、语音可控生成、图像生成与编辑等关键能力表现突出,部分指标超越 Gemini 2.5 Pro,成为开源全模态大模型性能新标杆。 Ming-Flash-Omni 2.0 也是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。 用户只需用自然语言下指令,即可对音色�

  • 逗哥配音“臻品达人”:以独家声音赋能创作者冲击“独家&精选”流量

    在短视频竞争白热化的当下,配音的独特性和品质已成为作品能否获得平台青睐、进入“精选”或“独家”推荐池的关键因素之一。逗哥配音平台通过推出“臻品达人”独家配音系列音色,为创作者提供从声音质感、内容辨识度到流量提升的全方位支持。平台以自研声音模型为基础,构建了包含上千款配音员的音色库,覆盖中、英、日、韩等十几种语言,适配多种热门创作类型。平台不仅提供高质量的配音服务,还集成了“去水印”、“文案提取”、“声音克隆”、“SRT字幕配音”等实用工具,形成从内容构思到成品输出的一站式创作闭环,显著提升了创作者的产出效率。

  • 字节狂飙、阿里亮剑……大模型混战春节档,没人敢躺

    除夕的烟花尚未绽放,AI战场早已硝烟弥漫。2026年马年春节,表面上是百度5亿、腾讯元宝10亿红包、阿里30亿免单的混战,实则是国产大模型阵营一次史无前例的“集体亮剑”。我投给那些让对手感到脊背发凉的玩家。

  • 提升7倍 DeepSeek官宣测试全新大模型:或为V4 Lite

    前几天国产AI来了一波爆发,智谱GLM-5、Minimax2.5及DeepSeek在11日同一天都发布了新的大模型,其中DeepSeek的自然最受关注。此前我们已经报道过了,这次更新主要是提升了上下文能力,达到了1M之前的DeepSeeV3系列也就是128K,这方面相对前代V3系列大模型提升了7倍。传闻中的DeepSeekV4满血版是1.5万亿参数,比V3系列翻倍还多会使用之前DeepSeek研究的Engram、mHC等新技术,性能全面提升的同时成本还低,这个期待值还是很高的。

今日大家都在搜的词: