首页 > 业界 > 关键词  > DocOwl1.5最新资讯  > 正文

AI日报:阿里开源文档模型DocOwl 1.5;Midjourney图像编辑器新功能下周上线;Viggle AI推对口型功能

2024-10-21 15:39 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、表格、图表统统拿下!阿里达摩院开源DocOwl1.5无需OCR,高效“读懂”文档!

阿里巴巴达摩院与中国人民大学联合开源了mPLUG-DocOwl1.5文档处理模型,无需OCR即可理解文档内容,在多个视觉文档理解基准测试中表现领先。该模型强调结构信息的重要性,提出“统一结构学习”来提升MLLM性能。

2.png

【AiBase提要:】

🔍 mPLUG-DocOwl1.5无需OCR即可理解文档内容,在视觉文档理解基准测试中领先。

📊 强调结构信息对于文档理解的重要性,提出“统一结构学习”来提升MLLM性能。

🔗 提供了开源代码、模型和数据集,取得了在多个下游任务中的最先进性能。

详情链接:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5

2、Midjourney图像编辑器新功能下周上线

Midjourney的创始人David Holz宣布,一款全新的图像编辑器即将上线,该编辑器利用上传图像的深度信息生成新图片,保留原始构图和内容的同时彻底改变纹理、颜色和细节。这一创新提升了用户创作自由度,为设计师和艺术家提供强大工具。Midjourney通过AI技术不断优化图像生成质量,最新v6.1模型进一步提升图像清晰度和准确性。新图像编辑器的加入将拓宽AI在创意领域的应用,预示着Midjourney在图像编辑工具方面的重大进步。

【AiBase提要:】

✨ 利用上传图像的深度信息生成新图片,保留原始构图和内容,彻底改变纹理、颜色和细节。

🎨 Midjourney致力于通过AI技术提升图像生成质量,最新v6.1模型进一步优化图像清晰度和准确性。

💡 新编辑器的加入将拓宽AI在创意领域的应用,为设计师和艺术家提供更灵活的图像操控和修改方式。

3、Viggle AI再推新功能 可通过录制声音让角色说话

Viggle AI推出了令人兴奋的新功能,用户可以通过录制声音让角色说话并实现口型同步。这项创新技术让用户完全控制角色的表现方式,无论是唱歌还是跳舞,都能轻松实现。Viggle应用程序以其创新性在社交媒体上引起了广泛关注,利用先进的JST-1视频3D基础模型,用户可以轻松创造和混合视频内容。

【AiBase提要:】

🎤 角色说话功能:用户可以通过录制声音让角色说话,实现口型同步。

🎭 角色替换功能:用户可以将任何角色置入视频场景,创造个性化沉浸式体验。

🔄 静态图像动画化:用户可以将静态照片转化为动态影像,增加视频趣味性和互动性。

详情链接:https://viggle.ai/home

4、即使是顶尖AI模型也难以应对复杂旅行规划,OpenAI o1-preview也犯难

最新研究表明,即使是先进的AI语言模型,如OpenAI最新的o1-preview,在复杂的规划任务中也面临挑战。研究发现模型在整合规则和条件方面表现不佳,且随规划时间增加会逐渐失去对问题的关注。尽管一些模型在BlocksWorld中表现尚可,但在更复杂的TravelPlanner任务中表现不佳。

【AiBase提要:】

🌍 OpenAI的o1-preview等AI模型在复杂旅行规划上表现不佳,GPT-4o成功率仅7.8%。

📉 大多数模型在BlocksWorld中表现尚可,但在TravelPlanner上难以达到理想效果。

🧠 模型存在对规则的整合不足及随时间推移而失去焦点的问题。

详情链接:https://github.com/hsaest/Agent-Planning-Analysis

5、开源工具Vulnhuntr可发现Python零日漏洞,巧妙利用Claude AI

Protect AI公司推出的Vulnhuntr工具利用Claude AI帮助开发者发现Python代码中的零日漏洞。该工具与传统静态分析不同,能够追踪用户输入到服务器输出的完整调用链,提高漏洞检测准确性。Vulnhuntr已在多个大型开源项目中发现零日漏洞,即将在GitHub上发布供开发者使用。

【AiBase提要:】

🌟 Vulnhuntr是开源工具,利用Claude AI发现Python零日漏洞。

🛠️ 工具工作方式不同于静态分析,能追踪完整调用链。

🚀 Vulnhuntr已发现多个大型开源项目中的零日漏洞,即将在GitHub上发布。

6、字节跳动回应“实习生破坏大模型训练”:未影响正式商业项目

字节跳动近期针对实习生破坏大模型训练的传闻进行了官方回应,确认实习生恶意干扰研究项目模型训练,但未影响正式商业项目和线上业务。公司指出传闻严重夸大,已辞退实习生并通报相关机构。事件暴露安全管理问题,公司计划大力投资AI技术。

【AiBase提要:】

🔍 实习生恶意干扰大模型训练,未影响商业项目和线上业务。

🔒 公司确认传闻夸大,已辞退实习生并通报相关机构。

💡 事件暴露安全管理问题,公司计划大力投资AI技术。

7、Meta最新黑科技SPIRIT-LM:能说会写还能懂你的情绪,这个 AI 语言模型有点强!

SPIRIT-LM 是一款具有革命性意义的多模态基础语言模型,能够自由混合文本和语音,理解和表达情感。它结合了文本模型的语义能力和语音模型的表达能力,完成跨模态任务,只需少量样本即可学习新任务。SPIRIT-LM-EXPRESSIVE在情感表达方面优于基础版,开创了多模态语言理解和生成的新可能性。

【AiBase提要:】

⚙️ SPIRIT-LM 是多模态基础语言模型,能混合文本和语音,理解情感。

🔑 SPIRIT-LM 结合了文本模型的语义能力和语音模型的表达能力,完成跨模态任务。

💡 SPIRIT-LM-EXPRESSIVE在情感表达方面优于基础版,开创了多模态语言理解和生成的新可能性。

详情链接:https://arxiv.org/pdf/2402.05755

8、颠覆 Stable Diffusion!智源重磅发布 Emu3,图像、文本、视频全拿下!

Emu3团队发布了一套全新的多模态模型Emu3,颠覆了传统的扩散模型和组合模型架构,在生成和感知任务上取得了最先进的性能。该模型基于下一个token预测进行训练,实现了多模态任务的统一,超越了特定任务模型,甚至旗舰模型。Emu3的成功为多模态模型的未来发展指明了方向,也为实现AGI带来了新的希望。

image.png

【AiBase提要:】

🚀 Emu3基于下一个token预测进行训练,颠覆了传统模型架构,取得了最先进的性能。

💡 Emu3实现了多模态任务的统一,无需依赖扩散或组合架构,超越了特定任务模型和旗舰模型。

🔗 Emu3团队开源了关键技术和模型,为多模态智能领域的进一步研究提供支持。

详情链接:https://github.com/baaivision/Emu3

9、Perplexity AI 寻求90亿美元估值

Perplexity AI 宣布在新一轮融资中希望将估值提升至90亿美元,当前估值为30亿美元。公司面临抄袭指控,但坚决否认。在激烈市场竞争中努力提升技术和服务水平。

image.png

【AiBase提要:】

🌟 Perplexity AI 计划将估值提高至90亿美元,吸引大量投资者关注。

💰 公司自今年初以来进行了三轮融资,迅速发展。

📰 面临抄袭指控,公司坚决否认并保护知识产权。

10、前OpenAI CTO重磅打造新AI公司,融资目标高达1亿美元

Mira Murati正筹集超过1亿美元的风险投资,准备创办新的AI创业公司。她离开OpenAI希望进行个人探索,而OpenAI在她离职后筹集了创纪录的66亿美元风险投资。期待Murati的新公司未来发展。

【AiBase提要:】

✨ Mira Murati正筹集超过1亿美元的风险投资,打造新AI公司。

🚀 Murati离开OpenAI希望进行个人探索,未透露具体计划。

📈 OpenAI在Murati离职后筹集了创纪录的66亿美元风险投资。

11、苹果AI发展滞后两年,计划未来两年全线设备引入Apple Intelligence

在今年的WWDC大会上,苹果展示了AI新特性,但分析师称苹果在AI技术发展上落后竞争对手约两年。苹果计划未来两年在所有带屏设备上推出“Apple Intelligence”功能,尽管起步较晚,但有信心迎头赶上。

【AiBase提要:】

📅 苹果在AI发展上落后竞争对手约两年,正努力追赶行业标准。

💡 苹果计划未来两年内在所有带屏设备上推出“Apple Intelligence”功能。

📱 新款iPad和即将推出的iPhone都将配备支持“Apple Intelligence”的硬件。

12、北京市新增12款生成式AI服务备案,累计达94款

北京市最近新增了12款生成式人工智能服务备案,使得累计备案数量达到了94款,为用户带来更多选择与便利。已上线的AI应用需公示备案情况,包括模型名称和备案编号。本次新增备案名单中包括快手科技公司的可灵AI和昆仑万维科技股份有限公司的天工图像。

image.png

【AiBase提要:】

📈 北京市新增12款生成式AI服务备案,累计达94款

🔍 已上线AI应用需公示备案情况,包括模型名称和备案编号

📋 本次新增备案名单中包括快手科技公司的可灵AI和昆仑万维科技股份有限公司的天工图像

举报

  • 相关推荐
  • 再次定义行业创新范式 跃然创新推出全球首款端到端 AI 玩具 CocoMate

    8月26日,跃然创新推出全球首款搭载端到端语音模型的AI玩具CocoMate系列。该产品采用可拆卸设计,配备3000mAh电池,支持4G和WiFi网络。依托端到端技术,具备丰富交互表现和拟人化情感能力,支持多重唤醒、主题游戏及聊天室等功能。新品将于8月27日开售,首发包含奥特曼及原创IP“泡泡”等角色,后续还将上线财神爷、塔罗猫等系列,目标人群从儿童延伸至成年人。

  • AI日报:Wan 2.2-S2V模型即将发布;​字节跳动内测3D Model Generator;微软开源 VibeVoice-1.5B 模型

    本期AI日报聚焦多项技术突破:阿里通义万相发布Wan 2.2-S2V模型,实现视频音频同步生成;字节跳动研发3D模型生成工具,降低建模门槛;面壁智能推出MiniCPM-V4.5端侧多模态模型;苹果提出RLCF训练法提升模型性能;微软开源VibeVoice-1.5B支持超长语音合成;谷歌Imagen 4正式上线;英伟达发布Jetson Thor机器人计算平台;Genspark推出AI Designer一键生成品牌方案;豆包上线未成年人保护模式。

  • MCP服务库完整指南:如何选择最适合的Model Context Protocol服务

    本文介绍了MCP(Model Context Protocol)作为连接大型语言模型与外部数据源的重要桥梁。随着AI技术发展,选择合适的MCP服务库对开发者至关重要。文章分析了MCP服务库的核心价值:提升开发效率、增强系统互操作性、降低技术门槛。评估MCP服务库质量需考虑协议兼容性、安全性、生态系统丰富度及社区活跃度等维度。建议开发者根据业务需求选择服务,初创公司可侧重简便性,大型企业应关注安全性和扩展性。文章还指出MCP服务未来将向云原生化、智能化运维和标准化方向发展,并推荐使用专业对比平台(如mcp.aibase.cn)辅助决策。

  • 忆联新一代eMMC 5.1产品:容量倍增、功耗降低18%,以卓越TCO重塑智能终端存储体验

    忆联新一代eMMC5.1产品针对智能终端高清化、强交互性需求,推出256GB大容量版本,性能功耗双升级。关键优势:1)顺序读写速度达330/290MB/s,随机读写33K/30K IOPS;2)功耗降低18%,优化电源管理;3)采用3D NAND和动态SLC缓存技术,写入寿命提升50%至200TBW;4)创新分级睡眠机制,非活跃状态自动切换至微安级模式。通过"大容量+高能效+长寿命"三角模型,显著降低用户TCO,助力智能设备厂商构建可持续发展生态。

  • CoinW 全栈融合 ,智能驱动——开启未来交易新格局

    全球领先加密货币交易平台CoinW宣布全面升级,构建"交易无界"一体化生态。平台通过统一账户体系整合中心化与去中心化交易、底层公链基础设施及机构级服务,形成协同互通的全球数字资产生态系统。升级后的CoinW具备三大核心特性:1)智能策略执行系统自动优化交易路径;2)支持链上结算、MPC自托管及RWA等多元资产接入;3)模块化功能组合满足不同交易需求。平�

  • 豆包1.5轻量版 vs Gemini 2.5闪存版:生成5000字深度文章,哪个模型更合适?

    AIbase选型工具通过多维度数据对比,帮助用户精准选择AI模型。文章以豆包和Gemini为例,展示平台如何解决模型选型痛点:自动生成对比报告,评估关键指标如术语准确性、本土案例适配度等。实际案例显示,使用该工具后内容团队效率提升40%,编辑成本下降65%。核心价值在于用数据驱动决策,规避局部优势导致的全局误判,实现场景化精准匹配。

  • WEEX亮相0xConnect线下活动,深化全球化布局与行业伙伴交流

    WEEX交易所受邀出席圣彼得堡0xConnect线下活动,与全球加密品牌共同探讨行业趋势并拓展合作机会。该活动聚集了来自交易所、公链项目、钱包及投资机构的代表,通过面对面交流碰撞出新的合作火花。WEEX团队借此机会向与会者介绍了平台在合规建设、资金安全和用户体验方面的价值理念,展示了打造安全透明交易环境的品牌承诺。未来WEEX将继续参与全球行业活动,以开放姿态推动加密生态健康发展。

  • 豆包1.5 Vision Lite 对比 GPT-5-min,谁更适合你?实测AI模型选型利器|AIBase

    文章探讨了企业选择AI大模型时面临的实际决策难题,指出单纯比较学术参数无法满足业务需求。AIBase模型对比平台(https://model.aibase.cn/compare)通过三大核心价值解决痛点:1)聚焦业务场景而非参数堆砌,突出价格、语言支持、上下文长度等实用维度;2)透明化成本计算,标注长文本溢价规则和多模态附加费;3)一键生成对比报告。平台特别强调中文场景的特殊性(如豆包1.5在中文处理成本的优势),并揭示厂商宣传中容易忽略的隐藏成本(如GPT-5-min超5000字符的30%溢价)。典型电商客服案例显示,需综合中文理解、多模态、性价比等维度决策,最终选择取决于具体业务需求而非绝对性能排名。

  • OPPO ColorOS宣布升级无网畅聊 没网也能发图片、语音

    日前,OPPO ColorOS宣布无网畅聊全新升级,在无网状态下,不仅能打语音电话,还能发送图片、文字和语音。 使用路径:打开设置”-选择移动网络”-开启无网畅聊”,选择你想联系的欧加手机-发送消息。 据了解,无网畅聊是一项利用蓝牙技术解决近场通信问题的功能。

  • DTCC2025丨达梦以智算多模与AI创新引领行业变革

    近日,IT168联合旗下ITPUB、ChinaUnix两大技术社区主办的第十六届中国数据库技术大会(DTCC2025)在京隆重召开。大会以“智能创新 数赢未来”为主题,汇聚超百位行业专家及上千名嘉宾,聚焦数据库领域前沿技术。达梦数据作为领军企业受邀参会,重点展示了其在多模数据处理与AI+数据库融合方面的突破,推出“智算多模”引擎,实现统一存储与智能查询,为行业智能化发展注入新动能。

今日大家都在搜的词:

热文

  • 3 天
  • 7天