突破分辨率极限，字节联合中科大提出多模态文档大模型

2023-12-04 13:48 · 稿源：量子位公众号

现在连文档都有大模型了，还是高分辨率、多模态的那种!不仅能准确识别出图像里的信息，还能结合用户需求调用自己的知识库来回答问题。比如，看到图中马里奥的界面，直接就回答出了这是任天堂公司的作品。这款模型由字节跳动和中国科学技术大学合作研究，于2023年11月24日上传至arX

......

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台，本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间，为了保证文章信息的及时性，内容观点的准确性，平台将不提供完全的内容展现，本页面内容仅为平台搜索索引使用。需阅读完整内容的用户，请查看原文，获取内容详情。

即将跳转到外部网站

安全性未知，是否继续

继续前往

（举报）

相关推荐

关键词：

小度发布多模态智能摄像机，AI大模型重塑家庭看护体验

小度科技推出首款多模态智能摄像机C800，搭载800万像素4K超清摄像头，支持AI大模型技术。该产品不仅能实现高清监控，还具备智能行为识别、语音交互等功能，可自定义看护提醒。结合视觉与语音交互，支持复杂语义查询和家庭设备联动，扩展智能家居应用场景。目前产品已全网发售，年底还将推出三摄版本，持续探索AI硬件创新。

AI大模型智能硬件小度科技
字节跳动发布 Seedream 4.0 图像创作模型，豆包App可免费体验

字节跳动Seed团队推出豆包图像创作模型Seedream4.0，支持文生图、图像编辑及多图参考等功能，在专业评测中达到业界领先水平。该模型已上线豆包App、即梦AI等平台供用户免费体验，并通过火山引擎开放给企业客户。Seedream4.0具备多模态创意能力，可生成4K分辨率商用图像，适用于教育、电商、广告设计等场景。团队表示将持续探索实时交互生成体验，深度融合多模态推理与世界知识。

豆包图像创作模型 Seedream4.0 文生图
荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

本期AI日报聚焦多领域技术突破：阿里云推出全球首个全模态AI模型Qwen3-Omni，支持文本、图像、音频和视频统一处理；百度发布多尺寸视觉理解模型Qianfan-VL，优化企业级应用。苹果扩展Image Playground平台，引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议，推动AI支付安全创新。钉钉上线AI表格助手，支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型，性能显著提升。Kimi推出Agent会员服务，智元机器人开源全球首个通用具身智能模型GO-1，降低技术门槛促进行业创新。

AI模型全模态阿里云
荐AI日报：快手推出AI视频制作助手Kwali；字节跳动推出USO模型；OpenAI推出ChatGPT开发者模式

本文介绍了AI日报栏目，聚焦AI领域最新动态。快手推出Kwali视频助手，简化视频制作流程；字节跳动发布USO模型，解决图像生成中风格与主题的矛盾；微软推出Copilot Audio音频模式，提供个性化语音交互；Stability AI升级Stable Audio 2.5，支持高质量音频生成；阿联酋推出开源大模型K2 Think，拥有320亿参数；微信上线智能回复功能，提升公众号运营效率；OpenAI推出ChatGPT开发者模式，支持AI控制外部工具；字节跳动Seed团队发布AgentGym-RL框架，提升语言模型决策能力；月之暗面开源Checkpoint Engine中间件，优化LLM推理效率；B站开源IndexTTS-2.0文本转语音系统，支持情感与时长控制；Replit推出Agent 3编程助手，自主性提升10倍。

AI视频制作快手Kwali 多Agent框架
荐AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking；阿里开源Wan-Animate模型革新AI视频生成；字节跳动发布豆包翻译模型，支持28种语言互译；华为与浙大联合推出安全大模型DeepSeek-R1-Safe；阿里云即将发布跨模态模型Qwen3-Omni；xAI推出计算成本降低98%的Grok4Fast模型；YouTube发布多项AI创作辅助功能；IBM推出轻量级文档处理模型Granite-Docling-258M；中科院发布类脑大模型SpikingBrain实现百倍速度突破；OpenAI将推出仅限Pro用户的计算密集型新功能。

AI日报美团大模型 LongCat-Flash-Thinking
荐AI日报：生数科技上线Vidu Q1参考生图；字节跳动发布Seedream4.0；百度文心大模型X1.1发布

本期AI日报聚焦多项AI技术突破与应用进展。生数科技推出Vidu Q1参考生图功能，支持多图输入与一致性生成；字节跳动发布Seedream4.0多模态图像创作模型，推理速度提升10倍；腾讯推出国内首款全形态AI编程工具CodeBuddy，编码效率提升40%；百度文心大模型X1.1升级深度学习能力；OpenAI支持AI动画长片《Critterz》制作；上海AI实验室发布XTuner V1训练引擎提升效率20%；谷歌AI搜索新增5种语言支持；我国发布30项人工智能和15项人形机器人国家标准，推动行业规范化发展。

AI 多模态创作生数科技
Panduit 泛达荣获EcoVadis企业可持续发展表现银牌评级

泛达公司宣布荣获EcoVadis企业可持续发展银牌评级，位列全球前6%，彰显其在环境责任与可持续商业实践方面的坚定承诺。该评估覆盖环境、劳工与人权、商业道德及可持续采购四大核心领域，包含21项可持续发展指标。泛达全球可持续发展经理Mark Dehmlow表示，这一成就证明公司在环境管理、道德采购及员工健康安全方面的努力正产生可衡量影响。作为全球领先的电气与网络基础设施解决方案制造商，泛达将持续提升可持续发展表现，契合市场期望，并支持合作伙伴生态系统及行业优先发展事项。
荐AI日报：阿里云开源通义DeepResearch；夸克推医师考试大模型

本期AI日报聚焦多项前沿动态：阿里云开源轻量级AI代理DeepResearch，性能媲美OpenAI；夸克推出国内首个全阶段医师考试大模型测试集；微软Copilot将上线类ChatGPT记忆管理功能；迪士尼等巨头起诉MiniMax侵犯版权；OpenAI提升ChatGPT搜索准确性；Notion推出个性化AI助手；谷歌发布更小巧高效的时间序列预测模型TimesFM-2.5；Figma推出AI设计功能简化创作流程。整体展现AI技术在开源、医疗、�

AI 开源轻量级
推荐国内优势智驾：Momenta凭借飞轮大模型，带来极致流畅的驾驶体验

Momenta作为国内智能驾驶领域的领先者，凭借其创新的飞轮大模型技术，实现了端到端的自动驾驶解决方案。该技术将感知与规划整合，有效解决长尾问题，提升系统可靠性和稳定性。其R6飞轮大模型采用强化学习，具备持续进化能力，适应复杂路况。Momenta与宝马、奥迪等全球主流车企深度合作，方案已成功应用于广汽丰田、东风日产等车型，并在欧洲、澳大利亚等市场落地，展现出强大的全球适应性和技术优势。选择Momenta，即选择了经过验证的可靠技术和持续升级的智能驾驶体验。

智能驾驶系统技术实力 Momenta
没想到，音频大模型开源最彻底的，居然是小红书

不难发现，近几个月，开源频频成为 AI 社区热议的焦点。尤其是对于国内科技公司来说，开源成为主旋律。根据 Hugging Face 中文 AI 模型与资源社区的数据显示，国内厂商在七八月接连开源33款、31款各类型大模型。这些开源成果大多落在了文本、图像、视频、推理、智能体以及世界模型领域，而音频生成占比很小。

开源 AI社区音频生成

今日大家都在搜的词：

热文

3 天
7天

突破分辨率极限，字节联合中科大提出多模态文档大模型

小度发布多模态智能摄像机，AI大模型重塑家庭看护体验

字节跳动发布 Seedream 4.0 图像创作模型，豆包App可免费体验

荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

荐AI日报：快手推出AI视频制作助手Kwali；字节跳动推出USO模型；OpenAI推出ChatGPT开发者模式

荐AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

荐AI日报：生数科技上线Vidu Q1参考生图；字节跳动发布Seedream4.0；百度文心大模型X1.1发布

Panduit 泛达荣获EcoVadis企业可持续发展表现银牌评级

荐AI日报：阿里云开源通义DeepResearch；夸克推医师考试大模型

推荐国内优势智驾：Momenta凭借飞轮大模型，带来极致流畅的驾驶体验

没想到，音频大模型开源最彻底的，居然是小红书

今日大家都在搜的词：

热文

雷军公布小米17标准版外观：1.18mm窄边框、6.3英寸直屏

全新问界M7小订破22万：将于明晚上市公布价格

AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-

折叠屏iPhone细节曝光采用超薄钛合金：预计售价2000美元起

小米平板8系列搭载11.2英寸3.2K旗舰屏

雷军演讲主题《改变》官宣：聊玄戒芯片和小米汽车背后的故事

鸿蒙智行尚界H5小订破15万台：明晚上市

iPhone17遭首批用户吐槽客服回应：建议新机带壳

realme真我GT8系列官宣10月发布

转转宣布逐步关停自由市场全面聚焦“官方验”模式

AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-A

小米召回116887辆SU7电动汽车：将OTA升级消除安全隐患

雷军回应小米召回11.7万辆SU7：将为用户带来更多期待功能

鸿蒙智行秋季发布会定档9月23日：尚界H5、新问界M7来了

雷军公布小米17标准版外观：1.18mm窄边框、6.3英寸直屏

苹果 iPhone 17/Pro 系列今日发售多维度升级

全新问界M7小订破22万：将于明晚上市公布价格

京东：iPhone 17开卖4小时全国超3万人签收

AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-

小米平板8 Pro官宣搭载骁龙8至尊版处理器

站长商机