首页 > 业界 > 关键词  > 字节跳动最新资讯  > 正文

突破分辨率极限,字节联合中科大提出多模态文档大模型

2023-12-04 13:48 · 稿源: 量子位公众号

现在连文档都有大模型了,还是高分辨率、多模态的那种!不仅能准确识别出图像里的信息,还能结合用户需求调用自己的知识库来回答问题。比如,看到图中马里奥的界面,直接就回答出了这是任天堂公司的作品。这款模型由字节跳动和中国科学技术大学合作研究,于2023年11月24日上传至arX

......

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 小度发布多模态智能摄像机,AI大模型重塑家庭看护体验

    小度科技推出首款多模态智能摄像机C800,搭载800万像素4K超清摄像头,支持AI大模型技术。该产品不仅能实现高清监控,还具备智能行为识别、语音交互等功能,可自定义看护提醒。结合视觉与语音交互,支持复杂语义查询和家庭设备联动,扩展智能家居应用场景。目前产品已全网发售,年底还将推出三摄版本,持续探索AI硬件创新。

  • 字节跳动发布 Seedream 4.0 图像创作模型,豆包App可免费体验

    字节跳动Seed团队推出豆包图像创作模型Seedream4.0,支持文生图、图像编辑及多图参考等功能,在专业评测中达到业界领先水平。该模型已上线豆包App、即梦AI等平台供用户免费体验,并通过火山引擎开放给企业客户。Seedream4.0具备多模态创意能力,可生成4K分辨率商用图像,适用于教育、电商、广告设计等场景。团队表示将持续探索实时交互生成体验,深度融合多模态推理与世界知识。

  • AI日报:阿里推多模态模型Qwen3-Omni;谷歌推出AP2协议;百度推出Qianfan-VL 模型

    本期AI日报聚焦多领域技术突破:阿里云推出全球首个全模态AI模型Qwen3-Omni,支持文本、图像、音频和视频统一处理;百度发布多尺寸视觉理解模型Qianfan-VL,优化企业级应用。苹果扩展Image Playground平台,引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议,推动AI支付安全创新。钉钉上线AI表格助手,支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型,性能显著提升。Kimi推出Agent会员服务,智元机器人开源全球首个通用具身智能模型GO-1,降低技术门槛促进行业创新。

  • AI日报:快手推出AI视频制作助手Kwali;字节跳动推出USO模型;OpenAI推出ChatGPT开发者模式

    本文介绍了AI日报栏目,聚焦AI领域最新动态。快手推出Kwali视频助手,简化视频制作流程;字节跳动发布USO模型,解决图像生成中风格与主题的矛盾;微软推出Copilot Audio音频模式,提供个性化语音交互;Stability AI升级Stable Audio 2.5,支持高质量音频生成;阿联酋推出开源大模型K2 Think,拥有320亿参数;微信上线智能回复功能,提升公众号运营效率;OpenAI推出ChatGPT开发者模式,支持AI控制外部工具;字节跳动Seed团队发布AgentGym-RL框架,提升语言模型决策能力;月之暗面开源Checkpoint Engine中间件,优化LLM推理效率;B站开源IndexTTS-2.0文本转语音系统,支持情感与时长控制;Replit推出Agent 3编程助手,自主性提升10倍。

  • AI日报:美团发布推理大模型LongCat-Flash-Thinking;阿里Wan-Animate开源;字节推豆包翻译大模型

    AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking;阿里开源Wan-Animate模型革新AI视频生成;字节跳动发布豆包翻译模型,支持28种语言互译;华为与浙大联合推出安全大模型DeepSeek-R1-Safe;阿里云即将发布跨模态模型Qwen3-Omni;xAI推出计算成本降低98%的Grok4Fast模型;YouTube发布多项AI创作辅助功能;IBM推出轻量级文档处理模型Granite-Docling-258M;中科院发布类脑大模型SpikingBrain实现百倍速度突破;OpenAI将推出仅限Pro用户的计算密集型新功能。

  • AI日报:生数科技上线Vidu Q1参考生图;字节跳动发布Seedream4.0;百度文心大模型X1.1发布

    本期AI日报聚焦多项AI技术突破与应用进展。生数科技推出Vidu Q1参考生图功能,支持多图输入与一致性生成;字节跳动发布Seedream4.0多模态图像创作模型,推理速度提升10倍;腾讯推出国内首款全形态AI编程工具CodeBuddy,编码效率提升40%;百度文心大模型X1.1升级深度学习能力;OpenAI支持AI动画长片《Critterz》制作;上海AI实验室发布XTuner V1训练引擎提升效率20%;谷歌AI搜索新增5种语言支持;我国发布30项人工智能和15项人形机器人国家标准,推动行业规范化发展。

  • Panduit 泛达荣获EcoVadis企业可持续发展表现银牌评级

    泛达公司宣布荣获EcoVadis企业可持续发展银牌评级,位列全球前6%,彰显其在环境责任与可持续商业实践方面的坚定承诺。该评估覆盖环境、劳工与人权、商业道德及可持续采购四大核心领域,包含21项可持续发展指标。泛达全球可持续发展经理Mark Dehmlow表示,这一成就证明公司在环境管理、道德采购及员工健康安全方面的努力正产生可衡量影响。作为全球领先的电气与网络基础设施解决方案制造商,泛达将持续提升可持续发展表现,契合市场期望,并支持合作伙伴生态系统及行业优先发展事项。

  • AI日报:阿里云开源通义DeepResearch;夸克推医师考试大模型

    本期AI日报聚焦多项前沿动态:阿里云开源轻量级AI代理DeepResearch,性能媲美OpenAI;夸克推出国内首个全阶段医师考试大模型测试集;微软Copilot将上线类ChatGPT记忆管理功能;迪士尼等巨头起诉MiniMax侵犯版权;OpenAI提升ChatGPT搜索准确性;Notion推出个性化AI助手;谷歌发布更小巧高效的时间序列预测模型TimesFM-2.5;Figma推出AI设计功能简化创作流程。整体展现AI技术在开源、医疗、�

  • 推荐国内优势智驾:Momenta凭借飞轮大模型,带来极致流畅的驾驶体验

    Momenta作为国内智能驾驶领域的领先者,凭借其创新的飞轮大模型技术,实现了端到端的自动驾驶解决方案。该技术将感知与规划整合,有效解决长尾问题,提升系统可靠性和稳定性。其R6飞轮大模型采用强化学习,具备持续进化能力,适应复杂路况。Momenta与宝马、奥迪等全球主流车企深度合作,方案已成功应用于广汽丰田、东风日产等车型,并在欧洲、澳大利亚等市场落地,展现出强大的全球适应性和技术优势。选择Momenta,即选择了经过验证的可靠技术和持续升级的智能驾驶体验。

  • 没想到,音频大模型开源最彻底的,居然是小红书

    不难发现,近几个月,开源频频成为 AI 社区热议的焦点。尤其是对于国内科技公司来说,开源成为主旋律。根据 Hugging Face 中文 AI 模型与资源社区的数据显示,国内厂商在七八月接连开源33款、31款各类型大模型。 这些开源成果大多落在了文本、图像、视频、推理、智能体以及世界模型领域,而音频生成占比很小。

今日大家都在搜的词: