首页 > 原创 > 关键词  > AI最新资讯  > 正文

AI日报:腾讯元宝推视频模型HunyuanVideo1.5;谷歌Nano Banana Pro上线;夸克AI眼镜与高德合作加码

2025-11-21 16:21 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://app.aibase.com/zh

1、腾讯元宝推出新功能:一句话或一张图即可生成视频!

腾讯元宝推出了一个创新功能,允许用户通过一句话或一张图片生成视频,基于腾讯混元团队最新开源的HunyuanVideo1.5模型。该模型采用Diffusion Transformer(DiT)架构,拥有8.3亿个参数,支持生成5至10秒的高清视频。这一功能不仅为普通用户提供了便捷的创作工具,也为内容创作者带来了新的灵感来源,进一步增强了社交媒体内容的丰富性。

image.png

【AiBase提要:】

🎥 腾讯元宝推出新功能,让用户通过一句话或一张图生成视频。

🚀 HunyuanVideo1.5模型支持生成5至10秒的高清视频,使用简单。

💡 新功能为用户提供了更多创作灵感,助力内容丰富化。

2、谷歌推出Nano Banana Pro:基于Gemini 3,支持4K、联网搜索与C2PA验证

谷歌推出Nano Banana Pro,基于Gemini 3模型,支持4K分辨率、14对象融合、5人身份一致性保持,并新增联网搜索与C2PA验证功能。定价上调,功能亮点包括专业控制、联网生成和双重水印,开发者可通过多种方式接入。

image.png

【AiBase提要:】

📷 专业控制:用户可在提示词中指定机位、景深、焦点、光效与色彩分级,默认提供6张高保真成片供挑选。

🌐 联网生成:模型可实时搜索网络,自动抓取食谱、资讯或股价并生成对应信息图,已在NotebookLM、Flow、Slides与Vids中集成。

🔒 双重水印:SynthID隐形水印+C2PA内容凭证同时写入,用户上传图片即可在Gemini App验证是否由谷歌模型生成或修改。

3、夸克AI眼镜与高德合作加码,陆续接入扫街榜、打车等出行服务

夸克AI眼镜与高德深化合作,推出多项新功能,如导航投屏、方向指引随头转动等,提升用户出行体验。

image.png

【AiBase提要:】

🚀 夸克AI眼镜新增导航投屏功能,实现手机与眼镜无缝连接。

🧭 导航方向随头部转动调整,提升步行和骑行时的便捷性与安全性。

🍽️ 支持周边搜索及打车行程提醒,优化城市探索体验。

4、豆包输入法低调现身小米商店,主打智能语音交互

豆包输入法作为豆包生态的新成员,搭载了与豆包App同源的语音输入技术,支持多种语言和输入方式,同时具备智能联想功能,旨在提升用户的输入效率。

【AiBase提要:】

🎙️ 支持多种方言、纯英文及中英混合输入,优化了“轻声说话”功能。

⌨️ 提供经典9键与26键布局,并内置剪贴板、常用语及即时翻译等实用工具。

🧠 智能联想功能覆盖文字、标点符号、Emoji、数学公式及日期等多个维度,提升输入效率。

5、月之暗面计划明年下半年上市,估值或达 40 亿美元

月之暗面计划于明年下半年进行首次公开募股(IPO),融资完成后公司估值可能达到约40亿美元。该项目致力于探索月球资源及其在地球的应用,吸引了众多科技爱好者和投资者的关注。

【AiBase提要:】

🌕 月之暗面计划于明年下半年进行首次公开募股(IPO)

💰 融资完成后,公司估值可能达到约40亿美元

🚀 月之暗面致力于探索月球资源及其在地球的应用

6、MOSS-Speech开源:国内首个语音到语音大模型,告别文本中介

MOSS-Speech是复旦大学MOSS团队推出的国内首个端到端语音到语音对话模型,无需依赖ASR→LLM→TTS流水线,具备语音问答、情绪模仿与笑声生成能力。其在多项评测中表现优异,且已开源代码和权重,支持商用许可。

image.png

【AiBase提要:】

🚀 MOSS-Speech实现端到端语音到语音对话,无需文本中介。

📊 在ZeroSpeech2025任务中WER降至4.1%,情感识别准确率91.2%。

📦 提供48kHz超采样版与16kHz轻量版,支持实时推理与本地私有声音克隆。

7、ChatGPT 群聊功能正式上线:最多可容纳 20 人,AI 参与头脑风暴

ChatGPT 的群聊功能正式上线,支持最多20人同时在线,并允许 AI 参与讨论。用户可以通过生成分享链接邀请他人加入,增强了团队协作能力。同时,OpenAI 强调了隐私保护,确保群聊创建者的个人数据不会被共享。

image.png

【AiBase提要:】

🤖 ChatGPT 群聊功能现已全面上线,支持最多20人同时参与。

🌟 用户可通过分享链接轻松邀请他人加入群聊,增强团队协作。

🔒 群聊创建者的个人数据安全得到了保护,AI 可以在对话中灵活参与。

8、谷歌NotebookLM重磅更新:AI一键生成专业PPT,配图惊艳碾压Gemini App!

谷歌NotebookLM的升级版引入了Slide Decks功能,能够将用户上传的资料转化为专业级演示文稿,同时配图由Nano Banana Pro模型驱动,确保视觉效果高质量。此外,支持自定义提示词,提升用户体验。

image.png

【AiBase提要:】

🖼️ 新增Slide Decks功能,可将资料一键生成专业PPT。

🎨 配图由Nano Banana Pro模型驱动,视觉效果惊艳。

⚙️ 支持自定义提示词,实现深度定制化生成。

举报

  • 相关推荐
  • NVIDIA RTX 加速 PC 端 4K AI 视频生成,LTX-2 与 ComfyUI全面升级

    2025年是PC端AI发展的突破之年,小语言模型(SLM)准确率相比2024年提升近2倍,显著缩小了与云端大语言模型(LLM)的差距。NVIDIA在CES上宣布了一系列针对RTX设备的AI升级,以解锁PC上的生成式AI性能。通过优化ComfyUI、开源LTX-2视频生成模型、加速Ollama和llama.cpp等工具,实现了视频/图像生成性能最高提升3倍、显存占用最多降低60%,以及SLM推理性能最高提升35%。这些改进让用户能在本地RTX AI PC上无缝运行先进的工作流,同时享受隐私、安全和低延迟优势。全新的视频生成工作流和由Nexa.ai推出的Hyperlink本地智能搜索工具,将进一步推动生成式AI在2026年全面走向大众创作者、游戏玩家和生产力用户。

  • AI日报:实时世界模型 PixVerse R1发布;Vidu发布AI一键生成MV功能;可灵AI ARR达2.4亿美元

    本期AI日报聚焦多项AI领域突破:爱诗科技发布全球首个通用实时世界模型PixVerse R1,实现虚拟世界实时交互;Vidu推出AI一键生成MV功能,打造“虚拟制片厂”;MiniMax发布编程智能体基准测试OctoCodingBench;快手可灵AI年化收入达2.4亿美元;智谱联合华为开源多模态模型GLM-Image,全链路跑通国产芯片;百川智能发布医疗大模型Baichuan-M3;谷歌重构电商未来,推出Agentic AI购物系统;谷歌开源医疗AI模型MedGemma 1.5与语音识别模型MedASR。

  • 腾讯回应用户被元宝AI辱骂:小概率模型异常输出

    近日,有用户反映在使用腾讯元宝AI修改代码时,遭遇AI多次辱骂。此事迅速引发网络关注。腾讯元宝官方紧急回应称,经核查日志,该情况与用户操作无关,不存在人工干预回复,纯属小概率模型异常输出。腾讯方面坦言,AI模型在内容生成过程中,偶尔可能出现不符合预期的失误,这正是技术团队持续优化改进的重点方向。目前,腾讯已启动内部排查机制,将通过技术升级尽量避免类似情况再次发生,同时对用户反馈表示感谢。随着AI技术加速渗透日常生活,用户对智能工具的稳定性要求日益提高。此次事件为整个行业敲响了警钟——在追求技术创新的同时,如何建立更完善的质量监控体系,确保AI服务始终在可控范围内运行,将成为技术厂商必须面对的核心课题。

  • 实时生成开放世界:新AI模型贴脸开大,游戏研发慌不慌?

    这两天,又有一款全新的AI模型出现了。 虽说如今AI改变各行各业的事情早就屡见不鲜,在游戏业,很多岗位也或多或少已经用上了AI技术,但最近发布的这款AI模型,它真不一样。 这款AI模型名叫PixVerse R1,按官方说法,PixVerse R1是全球首个真正意义上的「实时生成世界模型(Real-time World Model)」。

  • 腾讯元宝电脑版上线“AI录音笔”功能

    腾讯元宝电脑版迎来重大更新,新增“AI录音笔”功能。该功能支持实时语音转写、AI内容总结和实时翻译,适用于会议、学习、创作等多种场景。用户可通过工具栏或输入“@”符号快速开启,并享受跨设备数据同步的便捷体验。

  • 千问App一口气上线400多项新功能 AI从聊天迈入办事时代

    今日,千问App宣布全面接入淘宝、支付宝、淘宝闪购、飞猪、高德等阿里生态业务,在全球首次实现点外卖、买东西、订机票等AI购物功能,并向所有用户开放测试。 此次升级将上线超400项AI办事功能,让千问App成为全球首个能完成真实生活复杂任务的AI助手,引领AI行业从聊天对话”迈入办事时代”。 接入淘宝后,千问App可以真正帮助用户解决买什么、怎么选、值不值得买�

  • “扣子”官宣2.0品牌升级,推出全新功能Agent Skills、Agent Plan

    字节跳动旗下AI+Agent平台“扣子”于1月19日宣布品牌升级至2.0版本。此次升级基于超千万真实开发场景经验,对平台进行了全局重构,定位为帮助更多职场人的“工作伙伴”。核心升级包括:Agent+Skills(技能),通过封装行业知识与工具,让通用AI具备处理复杂专业任务的能力,并推出技能商店供用户一键安装使用;Agent+Plan(计划),支持AI理解长期目标、分解任务并持续执行与汇报,实现从即时问答到“可持续运作智能体”的升级;Agent+Office(办公),深度优化职场场景任务处理,如撰写报告、制作PPT、整理数据等,提供更贴合实际需求的解决方案;Agent+Coding(编程),升级为一站式云开发平台,支持通过自然对话轻松构建智能体、工作流、网站及移动应用等,并提供一键部署上线能力。整体而言,扣子2.0旨在通过集成多项核心能力,让AI真正成为用户解决专业、复杂任务的智能工作伙伴。

  • 即构推出AI音视频能力矩阵 助力应用突围增长

    如今,移动应用市场竞争进入了存量博弈新阶段,应用内的新玩法复制成本低,单靠独创模式难以吸引用户留存。Sensor Tower数据显示,全球应用商店双寡头垄断格局稳固,头部应用占据超60%用户时长,中小应用突围愈发艰难。行业增长逻辑已转向内容质量与优质体验,音视频质量低下可能导致用户留存与转化显著下滑。尤其是在直播语聊、网课、电商、音视频创作工具等高频�

  • 存储领域再迎突破!绿算发布FPGA NVMe RAID加速卡,重新定义高性能存储

    绿算技术发布FPGA NVMe RAID加速卡,突破传统RAID性能瓶颈。该产品基于自主LightBoat2300 FPGA平台,采用并行硬件架构,实现IO命令解析、校验运算硬件加速,CPU占用率降至零。实测8块NVMe SSD组RAID5,读写带宽达传统方案3-4倍,延迟仅增约8微秒。支持多种RAID级别,单卡最大支持16块NVMe SSD,后续可升级至24甚至32块。产品适用于数据中心、云计算、金融科技等领域,提供极速安全存储体验,标志着国内存储加速领域迈入全新阶段。

  • 京东京造第二批AI玩具全新上线:全年龄段覆盖 搭载JoyInside大模型

    京东京造1月19日上线第二批自研AI玩具,覆盖全年龄段用户需求。接入JoyInside智能系统的硬件产品,平均对话轮次增长超120%。多款产品上线后迅速售罄且退货率极低,市场反响热烈。在原有儿童陪伴玩具基础上,此次拓展了产品线,推出针对年轻人和老年人的AI玩具,包括专为银发人群设计的“唠唠鹦”,以及面向年轻人的“球球”和“墨墨”。“唠唠鹦”内置方言、养生知识、戏曲、评书等内容,并提供紧急呼救、健康服务联动、子女日志同步等守护功能。针对年轻人的产品则以情绪感知和善解人意为特点,能主动提供安慰与陪伴。

今日大家都在搜的词: