用视觉来做Prompt！沈向洋展示IDEA研究院新模型，无需训练或微调，开箱即用

2023-11-26 15:07 · 稿源：量子位公众号

用视觉来做Prompt，是种什么体验?只需在图里随便框一下，结果秒秒钟圈出同一类别!即便是那种GPT-4V都难搞定的数米粒的环节。只需要你手动拉一下框，就能找出所有米粒来。新的目标检测范式，有了!刚刚结束的IDEA年度大会上，IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋展

......

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台，本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间，为了保证文章信息的及时性，内容观点的准确性，平台将不提供完全的内容展现，本页面内容仅为平台搜索索引使用。需阅读完整内容的用户，请查看原文，获取内容详情。

即将跳转到外部网站

安全性未知，是否继续

继续前往

（举报）

相关推荐

关键词：

荐300元一学期，谁在教县城老人写AI“prompt”

我回了一趟湖北老家。只见妈妈急匆匆地出了门，丢下一句:“老年大学的AI课要赶不及了!”啥?老年大学已经这么紧跟时代了?连我们这个三线城市都开上了AI课?我的妈妈是一名非常善于使用智能手机的退休人士，很多APP甚至用得比我都顺溜。在AI时代，老年人也会面临跟年轻人一样，甚至更复杂的技术衍生问题。

老年大学 AI 课程
DeepSeek上新！开源发布DeepSeek-Prover-V2-671B新模型

快科技4月30日消息，今日，DeepSeek 今日在 AI 开源社区 Hugging Face 发布了一个名为 DeepSeek-Prover-V2-671B 的新模型。据介绍，DeepSeek-Prover-V2-671B 其参数量达到6710亿，使用了更高效的 safetensors 文件格式，并支持 BF16、FP8、F32 等多种计算精度，方便模型更快、更省资源地训练和部署。在模型架构上，该模型使用了DeepSeek-V3架构，采用MoE（混合专家）模式，具有61层Transformer层，7168维隐藏层。同时支持超长上下文，最大位置嵌入达163840，使其能处理复杂的数学证明，并且采用了FP8量化，可通过量化技术减小模型大小，提

DeepSeek AI模型发布开源社区
荐媲美OpenAI-o3，刚刚开源模型DeepCoder，训练方法、数据集大公开

今天凌晨4点，著名大模型训练平台TogetherAI和智能体平台Agentica，联合开源了新模型DeepCoder-14B-Preview。该模型只有140亿参数，但在知名代码测试平台LiveCodeBench的测试分为60.6%，高于OpenAI的o1模型，略低于o3-mini。TogetherAI刚获得3.05亿美元的B轮融资，其估值也从去年的12.5亿美元翻倍至33亿美元。

大模型深度学习开源模型
IQ 过百的 AI 模型名单发布：ChatGPT、Deepseek等上榜

人工智能IQ哪家强？o3 智商高达 132、Gemini 2.5 Pro Exp. 拿下 128 分、Claude 凭借 3.7 Sonnet Extended 位列第四、Deepsee R 1……

AI智商 ChatGPT Deepseek
奥特曼：ChatGPT不是AGI！OpenAI最强开源模型直击DeepSeek

【新智元导读】代码截图泄露，满血版o3、o4-mini锁定下周!更劲爆的是，一款据称是OpenAI的神秘模型一夜爆红，每日处理高达260亿token，是Claude用量4倍。奥特曼在TED放话:将推超强开源模型，直面DeepSeek挑战。持续的创新、丰富的资源和智能AI将会无缝融入日常生活，未来一代人将会觉得当前人们又辛苦又落后。

代码泄露 OpenAI 模型发布
荐AI日报：kimi宣布降价；OpenRouter发布免费模型Quasar Alpha；Midjourney V7重磅上线

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、IDC:到2028年中国人工智能投资将突破1000亿美元根据国际数据公司的预测，中国在人工智能领域的投资将显著增长，预计到2028年总投资将突破1000亿美元，年均复合增长率达到35.2%。

人工智能投资预测生成式AI
外媒：ChatGPT新模型 o4 mini 的“AI幻觉率”高达48%

性能是提升了些，但，“胡说八道”的能力提升得更快，直接登顶……

ChatGPT openai o4mini
开源即支持！基于昇腾MindSpeed MM玩转InternVL3多模态理解最新模型

多模态理解领域当前已成了各家AI大模型公司“军备竞赛”的关键点之一，国内外知名AI大模型公司都争相通过发布最先进的多模态大语言模型展现其在多模态理解领域的前沿能力。近期，上海AI实验室推出了其最新的多模态大语言模型InternVL3 系列，相比上一代InternVL2. 5 模型，该模型展现出卓越的多模态感知和推理能力，同时进一步扩展了其工具使用、GUI代理、工业图像分析等

多模态理解 AI大模型 InternVL3
刚刚，OpenAI开源BrowseComp，重塑Agent浏览器评测

今天凌晨2点，OpenAI开源了专门用于智能体浏览器功能的测试基准——BrowseComp。这个测试基准非常有难度，连OpenAI自己的GPT-4o、GPT-4.5准确率只有0.6%和0.9%几乎为0，即便使用带浏览器功能的GPT-4o也只有1.9%。通过使用更多的计算资源，模型可以尝试更多的搜索路径，从提高找到正确答案的概率。

OpenAI 智能体测试基准
荐生成很强，推理很弱：GPT-4o的视觉短板

研究显示，GPT-4o在图像理解和推理上表现出色，能生成精美图片，但在基础逻辑测试中表现欠佳，暴露出理解、推断及多步骤逻辑处理的不足。例如，被要求画一只猫时，它先画了狗然后改为猫，但仍存在错误判断。这表明当前AI更像“精确指令机器”，需进一步优化以实现更精细的图像理解和复杂任务处理。

AI画图 GPT-4o 图像理解

热文

3 天
7天

用视觉来做Prompt！沈向洋展示IDEA研究院新模型，无需训练或微调，开箱即用

荐300元一学期，谁在教县城老人写AI“prompt”

DeepSeek上新！开源发布DeepSeek-Prover-V2-671B新模型

荐媲美OpenAI-o3，刚刚开源模型DeepCoder，训练方法、数据集大公开

IQ 过百的 AI 模型名单发布：ChatGPT、Deepseek等上榜

奥特曼：ChatGPT不是AGI！OpenAI最强开源模型直击DeepSeek

荐AI日报：kimi宣布降价；OpenRouter发布免费模型Quasar Alpha；Midjourney V7重磅上线

外媒：ChatGPT新模型 o4 mini 的“AI幻觉率”高达48%

开源即支持！基于昇腾MindSpeed MM玩转InternVL3多模态理解最新模型

刚刚，OpenAI开源BrowseComp，重塑Agent浏览器评测

荐生成很强，推理很弱：GPT-4o的视觉短板

热文

印度将中国电子投资压股至 10%，且要求“技术转让”

“AI教父”杰弗里·辛顿再次发出警告：AI可能正在“失控”！

累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

美国网购市场动荡，希音、Temu 率先在美开启“涨价潮”！

站长商机