首页 > 业界 > 关键词  > DocOwl1.5最新资讯  > 正文

AI日报:阿里开源文档模型DocOwl 1.5;Midjourney图像编辑器新功能下周上线;Viggle AI推对口型功能

2024-10-21 15:39 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、表格、图表统统拿下!阿里达摩院开源DocOwl1.5无需OCR,高效“读懂”文档!

阿里巴巴达摩院与中国人民大学联合开源了mPLUG-DocOwl1.5文档处理模型,无需OCR即可理解文档内容,在多个视觉文档理解基准测试中表现领先。该模型强调结构信息的重要性,提出“统一结构学习”来提升MLLM性能。

2.png

【AiBase提要:】

🔍 mPLUG-DocOwl1.5无需OCR即可理解文档内容,在视觉文档理解基准测试中领先。

📊 强调结构信息对于文档理解的重要性,提出“统一结构学习”来提升MLLM性能。

🔗 提供了开源代码、模型和数据集,取得了在多个下游任务中的最先进性能。

详情链接:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5

2、Midjourney图像编辑器新功能下周上线

Midjourney的创始人David Holz宣布,一款全新的图像编辑器即将上线,该编辑器利用上传图像的深度信息生成新图片,保留原始构图和内容的同时彻底改变纹理、颜色和细节。这一创新提升了用户创作自由度,为设计师和艺术家提供强大工具。Midjourney通过AI技术不断优化图像生成质量,最新v6.1模型进一步提升图像清晰度和准确性。新图像编辑器的加入将拓宽AI在创意领域的应用,预示着Midjourney在图像编辑工具方面的重大进步。

【AiBase提要:】

✨ 利用上传图像的深度信息生成新图片,保留原始构图和内容,彻底改变纹理、颜色和细节。

🎨 Midjourney致力于通过AI技术提升图像生成质量,最新v6.1模型进一步优化图像清晰度和准确性。

💡 新编辑器的加入将拓宽AI在创意领域的应用,为设计师和艺术家提供更灵活的图像操控和修改方式。

3、Viggle AI再推新功能 可通过录制声音让角色说话

Viggle AI推出了令人兴奋的新功能,用户可以通过录制声音让角色说话并实现口型同步。这项创新技术让用户完全控制角色的表现方式,无论是唱歌还是跳舞,都能轻松实现。Viggle应用程序以其创新性在社交媒体上引起了广泛关注,利用先进的JST-1视频3D基础模型,用户可以轻松创造和混合视频内容。

【AiBase提要:】

🎤 角色说话功能:用户可以通过录制声音让角色说话,实现口型同步。

🎭 角色替换功能:用户可以将任何角色置入视频场景,创造个性化沉浸式体验。

🔄 静态图像动画化:用户可以将静态照片转化为动态影像,增加视频趣味性和互动性。

详情链接:https://viggle.ai/home

4、即使是顶尖AI模型也难以应对复杂旅行规划,OpenAI o1-preview也犯难

最新研究表明,即使是先进的AI语言模型,如OpenAI最新的o1-preview,在复杂的规划任务中也面临挑战。研究发现模型在整合规则和条件方面表现不佳,且随规划时间增加会逐渐失去对问题的关注。尽管一些模型在BlocksWorld中表现尚可,但在更复杂的TravelPlanner任务中表现不佳。

【AiBase提要:】

🌍 OpenAI的o1-preview等AI模型在复杂旅行规划上表现不佳,GPT-4o成功率仅7.8%。

📉 大多数模型在BlocksWorld中表现尚可,但在TravelPlanner上难以达到理想效果。

🧠 模型存在对规则的整合不足及随时间推移而失去焦点的问题。

详情链接:https://github.com/hsaest/Agent-Planning-Analysis

5、开源工具Vulnhuntr可发现Python零日漏洞,巧妙利用Claude AI

Protect AI公司推出的Vulnhuntr工具利用Claude AI帮助开发者发现Python代码中的零日漏洞。该工具与传统静态分析不同,能够追踪用户输入到服务器输出的完整调用链,提高漏洞检测准确性。Vulnhuntr已在多个大型开源项目中发现零日漏洞,即将在GitHub上发布供开发者使用。

【AiBase提要:】

🌟 Vulnhuntr是开源工具,利用Claude AI发现Python零日漏洞。

🛠️ 工具工作方式不同于静态分析,能追踪完整调用链。

🚀 Vulnhuntr已发现多个大型开源项目中的零日漏洞,即将在GitHub上发布。

6、字节跳动回应“实习生破坏大模型训练”:未影响正式商业项目

字节跳动近期针对实习生破坏大模型训练的传闻进行了官方回应,确认实习生恶意干扰研究项目模型训练,但未影响正式商业项目和线上业务。公司指出传闻严重夸大,已辞退实习生并通报相关机构。事件暴露安全管理问题,公司计划大力投资AI技术。

【AiBase提要:】

🔍 实习生恶意干扰大模型训练,未影响商业项目和线上业务。

🔒 公司确认传闻夸大,已辞退实习生并通报相关机构。

💡 事件暴露安全管理问题,公司计划大力投资AI技术。

7、Meta最新黑科技SPIRIT-LM:能说会写还能懂你的情绪,这个 AI 语言模型有点强!

SPIRIT-LM 是一款具有革命性意义的多模态基础语言模型,能够自由混合文本和语音,理解和表达情感。它结合了文本模型的语义能力和语音模型的表达能力,完成跨模态任务,只需少量样本即可学习新任务。SPIRIT-LM-EXPRESSIVE在情感表达方面优于基础版,开创了多模态语言理解和生成的新可能性。

【AiBase提要:】

⚙️ SPIRIT-LM 是多模态基础语言模型,能混合文本和语音,理解情感。

🔑 SPIRIT-LM 结合了文本模型的语义能力和语音模型的表达能力,完成跨模态任务。

💡 SPIRIT-LM-EXPRESSIVE在情感表达方面优于基础版,开创了多模态语言理解和生成的新可能性。

详情链接:https://arxiv.org/pdf/2402.05755

8、颠覆 Stable Diffusion!智源重磅发布 Emu3,图像、文本、视频全拿下!

Emu3团队发布了一套全新的多模态模型Emu3,颠覆了传统的扩散模型和组合模型架构,在生成和感知任务上取得了最先进的性能。该模型基于下一个token预测进行训练,实现了多模态任务的统一,超越了特定任务模型,甚至旗舰模型。Emu3的成功为多模态模型的未来发展指明了方向,也为实现AGI带来了新的希望。

image.png

【AiBase提要:】

🚀 Emu3基于下一个token预测进行训练,颠覆了传统模型架构,取得了最先进的性能。

💡 Emu3实现了多模态任务的统一,无需依赖扩散或组合架构,超越了特定任务模型和旗舰模型。

🔗 Emu3团队开源了关键技术和模型,为多模态智能领域的进一步研究提供支持。

详情链接:https://github.com/baaivision/Emu3

9、Perplexity AI 寻求90亿美元估值

Perplexity AI 宣布在新一轮融资中希望将估值提升至90亿美元,当前估值为30亿美元。公司面临抄袭指控,但坚决否认。在激烈市场竞争中努力提升技术和服务水平。

image.png

【AiBase提要:】

🌟 Perplexity AI 计划将估值提高至90亿美元,吸引大量投资者关注。

💰 公司自今年初以来进行了三轮融资,迅速发展。

📰 面临抄袭指控,公司坚决否认并保护知识产权。

10、前OpenAI CTO重磅打造新AI公司,融资目标高达1亿美元

Mira Murati正筹集超过1亿美元的风险投资,准备创办新的AI创业公司。她离开OpenAI希望进行个人探索,而OpenAI在她离职后筹集了创纪录的66亿美元风险投资。期待Murati的新公司未来发展。

【AiBase提要:】

✨ Mira Murati正筹集超过1亿美元的风险投资,打造新AI公司。

🚀 Murati离开OpenAI希望进行个人探索,未透露具体计划。

📈 OpenAI在Murati离职后筹集了创纪录的66亿美元风险投资。

11、苹果AI发展滞后两年,计划未来两年全线设备引入Apple Intelligence

在今年的WWDC大会上,苹果展示了AI新特性,但分析师称苹果在AI技术发展上落后竞争对手约两年。苹果计划未来两年在所有带屏设备上推出“Apple Intelligence”功能,尽管起步较晚,但有信心迎头赶上。

【AiBase提要:】

📅 苹果在AI发展上落后竞争对手约两年,正努力追赶行业标准。

💡 苹果计划未来两年内在所有带屏设备上推出“Apple Intelligence”功能。

📱 新款iPad和即将推出的iPhone都将配备支持“Apple Intelligence”的硬件。

12、北京市新增12款生成式AI服务备案,累计达94款

北京市最近新增了12款生成式人工智能服务备案,使得累计备案数量达到了94款,为用户带来更多选择与便利。已上线的AI应用需公示备案情况,包括模型名称和备案编号。本次新增备案名单中包括快手科技公司的可灵AI和昆仑万维科技股份有限公司的天工图像。

image.png

【AiBase提要:】

📈 北京市新增12款生成式AI服务备案,累计达94款

🔍 已上线AI应用需公示备案情况,包括模型名称和备案编号

📋 本次新增备案名单中包括快手科技公司的可灵AI和昆仑万维科技股份有限公司的天工图像

举报

  • 相关推荐
  • 1.5万元LV外套撞衫中学校服:价差超 185 倍

    ​今日,长沙市长郡中学一名学生在社交平台发布对比图,称该校冬季校服设计与奢侈品牌路易威登(LV) 2024 年秋冬系列男士大衣存在高度相似性,引发网友广泛讨论。该学生调侃“长郡版LV联名校服终于来了,这次扳回一局”,相关话题迅速登上本地热搜榜。 据对比图片显示,长郡中学新款校服与LV大衣在版型、配色及细节设计上确有相似之处:两者均采用藏青色为主色调

  • 快手进军AI Coding,开发工具、模型和Maas平台齐登场

    10月23日,快手StreamLake发布全新AI编程产品矩阵,以“工具+模型+平台”三位一体战略布局AI Coding领域。核心产品包括智能开发助手CodeFlicker、自研高性能编码模型KAT-Coder系列及企业级服务平台快手万擎。CodeFlicker提供全流程开发支持,KAT-Coder在权威测试中性能超越GPT-5,平台保障99.95%服务可用性。该生态旨在通过技术普惠,为企业与开发者提供颠覆性研发体验,推动AI编程普及。

  • 一加15为何放弃2K屏幕 李杰:165Hz+1.5K是最优解

    一加中国区总裁李杰回答了网友提问,解释了一加15为何放弃2K屏幕而是选择1.5K屏。 李杰解释,我们首先选定165Hz”这个体验更显性的方案,目前的技术限制导致2K和165Hz无法兼得,165Hz 1.5K是当前技术的最优解、最高峰。 受限于发光材料、电路技术等限制,目前整个行业暂时还无法同时做到165Hz 2K的规格,165Hz 1.5K第三代东方屏已经是目前手机屏幕技术的最优解和最高峰。

  • 斩获G-Mark优良设计奖,RingConn智能戒指凭创新设计与技术实力获国际认可

    中国智能戒指品牌RingConn凭借突破性设计、精准健康监测及卓越用户体验,荣获2025年G-Mark优良设计奖,实现年内连夺iF、IDEA、G-Mark三大国际顶级设计奖项的佳绩。产品以2克超轻机身融合医疗级技术,首创睡眠呼吸暂停监测功能,通过指尖光电容积脉搏波信号实现无感佩戴下的精准健康管理。其人性化设计兼顾12天超长续航与时尚佩戴体验,彰显中国智能穿戴设备在技术创新与实用美学融合领域的国际领先地位。

  • AI日报:阿里夸克“C计划”曝光;Veo3.1将增加视频“精确编辑”功能;Anthropic推出Claude Code网页版

    今日AI领域动态:阿里夸克启动"C计划"布局对话式AI应用,剑指字节"豆包";Anthropic推出Claude Code网页版,支持浏览器直接编码;谷歌Veo新增视频"精确编辑"功能,提升创作效率;Fish Audio升级S1语音克隆模型,10秒即可复刻真人声音;AWS美东故障影响ChatGPT等多项服务;DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈;Adobe推出AI Foundry服务,支持企业定制品牌AI模型;Anthropic发布Claude for Life Sciences,加速生命科学研究。

  • 正浩EcoFlow荣登《时代》杂志2025年度“最佳发明”榜单,OCEAN Pro获评绿色能源类创新典范

    《时代》杂志公布2025年度最佳发明榜单,正浩EcoFlow旗舰家庭储能系统OCEAN+Pro入选绿色能源类榜单。该系统通过AI驱动的智能能源管理,实现家庭高效储电与清洁电力调度,支持停电供电与高峰用电优化。这是正浩第三次获此殊荣,其北美洲业务总裁表示奖项印证了品牌在清洁能源创新领域的持续引领力。同时该企业今年还入选《时代》"全球顶尖绿色科技企业250强",凸显行业领导地位。

  • Checkout.com正式推出Flow Remember Me: 一键支付,全球通用

    Checkout.com推出嵌入式支付产品Flow的"记住我"功能,消费者仅需存储一次银行卡信息即可在全球商户网络实现跨平台快捷支付。测试数据显示,该功能最高可缩短70%付款时间并提升7%支付成功率。同时公司升级AI分析套件、支付优化工具及收单网络,并与Visa、Mastercard和Google达成AI智能体合作,助力商户在数字支付领域保持领先地位。

  • 最先进的手机屏幕!一加15 165Hz+1.5K屏成本比2K屏更高

    有网友问一加15用1.5K屏幕是为了降低成本吗? 一加中国区总裁李杰表示,当然不是,事实上这块165Hz的第三代东方屏比一加13那块第二代2K东方屏成本还高,因为要做165Hz,当前技术无法兼容2K,除了分辨率这一个参数之外,这块屏幕的其他方面都提升到了行业最顶级。 要做到165Hz和1.5K兼容,确保超高刷新率、顶级显示效果、真硬件1nit,从电路设计、发光材料、芯片、驱动、�

  • elexcon官宣定档|深圳国际电子展 2026年8月25-27日福田启幕

    第23届Elexcon深圳国际电子展暨嵌入式展将于2026年8月25-27日在深圳举办。展会以"链接全球电子与嵌入式生态圈"为主题,聚焦电子元器件、嵌入式系统、AI硬件及存储等创新技术。在电子产业面临供应链波动与重构的背景下,展会将汇聚500余家优质供应商及3万余名工程师,通过五大同期活动推动产业对接。往届展会满意度超85%,平台将持续助力企业把握AI、汽车电子、工�

  • AI日报:腾讯发布全新ima2.0;微软发布 Copilot 一系列重磅更新;阿里夸克AI眼镜开启预售

    本文汇总近期AI领域重要动态:月之暗面再获数亿美元融资,显示资本对国产大模型的信心;Anthropic为Claude推出记忆功能,兼顾个性化与隐私保护;中科大与字节发布MoGA长视频生成模型,实现分钟级高质量生成;腾讯ima2.0升级任务模式,可自主拆解复杂流程;阿里夸克AI眼镜开启预售,融合拍摄与智能功能;微软Copilot新增群聊、记忆与Edge AI模式;Opera推出深度研究代理ODRA提升�

今日大家都在搜的词: