首页 > 原创 > 关键词  > 谷歌Gemini最新资讯  > 正文

AI日报:谷歌Gemini 3.0 Pro小范围推送;爱诗科技完成1亿元B+轮融资;百度发布文档解析模型 PaddleOCR-VL

2025-10-17 15:54 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://app.aibase.com/zh

1、谷歌Gemini 3.0 Pro开始小范围推送:强化推理能力,正式发布或在本月底

谷歌DeepMind团队开始向部分用户推送Gemini 3.0 Pro模型,该模型在推理能力和多模态处理上有所提升,并计划在10月底正式发布。

image.png

【AiBase提要:】

🧠 Gemini 3.0 Pro引入Deep Think推理架构,提升多步骤复杂任务处理能力。

🌐 支持文本、图像、音频和视频等多种输入格式,可生成完整前端代码。

🚀 谷歌计划推出轻量级Flash变体版本,满足移动设备和边缘计算需求。

2、百度发布全球领先文档解析模型 PaddleOCR-VL,重塑OCR技术格局!

百度发布的PaddleOCR-VL模型在文档解析领域表现出色,凭借其轻量高效、多语言支持和高精度识别能力,成为OCR技术的新标杆。

image.png

【AiBase提要:】

🌍 支持109种语言,适用于多种文档处理任务。

⚙️ 核心参数仅为0.9B,实现高效计算与精准识别。

🚀 推理速度显著提升,较其他主流模型表现更优。

3、AI视频公司爱诗科技完成1亿元B+轮融资:ARR突破4000万美元,用户超1亿

爱诗科技在AI视频生成领域取得了显著进展,完成了1亿元人民币的B+轮融资,并实现了ARR突破4000万美元和注册用户超过1亿的里程碑。其产品策略和技术创新为市场提供了强大的竞争力。

image.png

【AiBase提要:】

🚀 爱诗科技完成1亿元B+轮融资,显示出资本市场的认可与支持。

📈 年度经常性收入(ARR)突破4000万美元,用户数量达到1亿以上。

💡 技术创新不断,PixVerse V5版本提升生成效率和视频质量,引入Agent创作助手功能。

4、Anthropic 推出 Claude “skills” 功能,提升 AI 工作效率

Anthropic 推出了 Claude AI 的新功能 'skills',旨在增强 AI 在工作场景中的实用性。该功能通过文件夹形式提供指令、脚本和资源,使 Claude 能够更高效地处理特定任务,如 Excel 文档或品牌指南。用户还可以创建自定义技能,并在多个平台上使用。此功能与 OpenAI 的 AgentKit 相呼应,标志着 AI 行业向实用化迈进。

image.png

【AiBase提要:】

🌟 Anthropic 推出 Claude 'skills' 功能,提升 AI 在工作中的实用性。

🛠️ 用户可以创建自定义技能,以便 Claude 更好地适应特定工作场景。

🚀 此举与 OpenAI 发布的 AgentKit 等新功能同步,显示 AI 行业持续向实用化迈进。

5、Pinterest推出AI内容限制工具:用户可自定义减少生成式AI图像

Pinterest推出了新的内容控制工具,允许用户限制信息流中AI生成内容的比例,以回应用户的不满情绪。该平台通过引入AI修改标签和提供用户可选的设置,试图在AI创新与用户体验之间取得平衡。

image.png

【AiBase提要:】

🖼️ 用户可以自定义减少生成式AI图像的显示比例。

🤖 Pinterest引入AI修改标签,用于标识AI生成内容。

🌐 Pinterest在平衡AI技术与用户体验之间寻求折中方案。

6、全面开源的 LLaVA-OneVision-1.5,超越 Qwen2.5-VL 的多模态模型登场

LLaVA-OneVision-1.5 是一款开源多模态模型,具有处理图像和视频等多种输入的能力,并在多个基准测试中表现出色,超越了 Qwen2.5-VL 模型。

image.png

【AiBase提要:】

🧠 LLaVA-OneVision-1.5 是一个全新的多模态模型,能够处理图像和视频等多种输入形式。

📈 训练过程分为三个阶段,旨在高效提升模型的视觉与语言理解能力。

🏆 在基准测试中,LLaVA-OneVision-1.5 表现优异,超越了 Qwen2.5-VL 模型。

详情链接:https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5 https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct

7、OpenAI视频生成模型Sora 2上线微软Azure平台:定价每秒0.1美元,进入公共预览阶段

微软宣布OpenAI的Sora2视频生成模型已在Azure AI Foundry国际版上线,进入公共预览阶段,标志着生成式AI视频工具开始商业化应用。

【AiBase提要:】

🎥 Sora2 是一款多模态视频生成模型,支持文本、图像和视频输入并生成新视频内容。

💰 定价为每秒0.1美元,采用按生成时长计费模式,适合企业用户批量使用。

🌐 Sora2 仅在Azure AI Foundry国际版上线,中国区用户暂时无法直接访问。

8、旅行搜索引擎Kayak推出 “AI 模式” 旅行规划与预订更便捷

Kayak推出了全新的 'AI 模式',通过内置聊天机器人帮助用户研究、规划和预订旅行。该功能利用ChatGPT技术提供更具上下文的搜索结果,并支持开放性问题以获取旅行建议。

image.png

【AiBase提要:】

🌍 Kayak推出 'AI 模式',让用户可以通过聊天机器人方便地规划和预订旅行。

🗣️ 该功能支持询问旅行建议和比较各种旅行服务,利用 ChatGPT 技术提供精准信息。

📅 'AI 模式' 初期仅支持英语,后续将扩展至更多语言及平台,并加入语音请求功能。

举报

  • 相关推荐
  • 新Siri或明年春季发布 苹果公司或引入谷歌Gemini大模型 AI技术

    苹果因自研大模型项目遇瓶颈,决定引入谷歌Gemini大模型升级Siri,计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数,将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能,支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送,后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

  • AI日报:豆包视频1.0pro fast发布;谷歌Gemini新功能上线;百度推上体体育大模型 2.0

    本期AI日报聚焦多项技术突破:火山引擎发布豆包视频生成模型1.0pro+fast,速度提升3倍且价格下降72%;百度与上海体育大学推出“上体体育大模型2.0”,拓展AI在运动员训练等场景应用;谷歌Gemini新增一键生成PPT功能;美团发布LongCat-Video模型,支持5分钟连贯视频生成;xAI推出虚拟女友Mika引发热议;MiniMax开源高性能M2编码模型;OpenAI上线企业知识管理功能;另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万,展现年轻创业者的技术影响力。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • Mini LED时代即将终结!MacBook Pro将升级为OLED屏

    苹果爆料人Mark Gurman透露,MacBook Pro会率先升级OLED,时间是明年下半年,然后MacBook Air再跟进OLED,时间是2028年,届时MacBook Pro和MacBook Air都将全面迈入OLED时代。 Mark Gurman指出,苹果旗下的iPad系列、MacBook机型全部都将启用OLED屏幕,包括iPad mini、MacBook Pro、iPad Air和MacBook Air,且大概率会按此顺序推进。PS:入门款iPad暂无搭载OLED的计划。 值得注意的是,MacBo

  • AI日报:李飞飞Marble 3D世界模型公测;OpenAI首次推出ChatGPT群聊功能;百度发布多模态 AI助手超能小度

    本期AI日报聚焦多项技术突破:World Labs推出Marble 3D模型,实现多模态生成可交互虚拟世界;OpenAI在韩新试点ChatGPT群聊功能,支持多人协作互动;苹果更新隐私政策,要求第三方AI调用需明示授权;百度发布多模态助手“超能小度”,支持空间感知与设备免费升级;LinkedIn推出AI人脉搜索,通过自然语言精准匹配专业人士;Cursor完成23亿美元融资,估值达293亿;Character AI与耶鲁合作实现音画同步技术Ovi;Google NotebookLM上线深度研究工具,支持多格式文件分析与知识库构建。

  • Billus AI高交会全球首发多模态大模型 以AI Agent重构创意产业文明进化路径

    2025年11月15日,Billus AI在高交会首发多模态大模型Billus0.57EDIT及“超级员工智能体”初阶版,依托自研生存式大模型与AI Agent技术,打破创意领域垂直局限,构建覆盖文创、时尚、艺术等全场景智能创作生态。该模型通过自然语言指令直达创意成果,实现从平面图到施工图的全流程高效生成。同时,Billus AI同步打造“创意设计超级员工+产业链智能体”体系,探索生成式创意与供应链智能推荐的新商业路径,助力行业从“经验驱动”向“数据智能”跃迁。

  • 今年双11,为什么买百吋电视更推荐RGB-Mini LED?

    今年双11,百吋电视因用户消费升级与居住改善需求增长显著。京东数据显示其销量同比增长200%,反映用户不再满足“够用”尺寸,而是追求影院级沉浸体验。百吋电视受追捧源于超高清内容普及与技术门槛降低,但需注意大屏对显示技术要求更高。RGB-Mini LED技术通过红绿蓝三原色独立背光实现精准控光,解决传统电视色彩与亮度矛盾,如海信UX等产品以高色域、分区控光提升画质。选购时需关注画质芯片与屏幕抗反射能力,确保色彩真实与观看舒适。尺寸是基础,画质才是灵魂。

  • 视觉暴击!海信RGB-Mini LED电视乌镇实测《黑神话》,拉满沉浸感

    在2025世界互联网大会乌镇峰会上,海信与《黑神话:悟空》合作展示RGB-Mini LED电视技术,精准还原游戏画面细节,如武器光泽、服饰纹理,引发玩家排队体验。该技术突破传统显示方案,通过RGB三原色发光芯片实现100% BT.2020色域和108bits控光精度,消除色彩失真,呈现“真、纯、透”视觉效果。海信E8S Pro作为代表机型,凭借12项影音优化功能,成为体验3A大作的理想设备,彰显“好游戏+好设备”的双重魅力。

  • MiniMax让AI语音有了新基建

    熟悉MiniMax的人都了解这家公司的调性——不鸣则已,一鸣惊人。 要么选择低调,要么发动技术连招,其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。 十月的最后一周,再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化,基础文本模型M1升级至M2,“专为Agent和代码而生”;视频模型升级至Hailuo2.3,Hailuo Video Agent迭代为“全模态全�

  • AI浪潮下,项目经理如何破局 | 2025 PMI项目管理大会

    人工智能正重塑项目管理模式,项目经理需超越传统技能,掌握AI赋能下的效率提升、创新促进与决策优化能力。个人应通过组织平台与业务深度绑定,构建不可替代的核心价值。2025PMI项目管理大会将探讨AI前沿应用,助力从业者系统掌握转型路径,实现个体与组织的双向赋能,在AI时代保持竞争力。

今日大家都在搜的词: