AI日报：复旦、百度新模型可生成1小时长视频；全新ChatGPT Windows版本上线；NotebookLM又上2个新功能

2024-10-18 15:51 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、面向付费用户!全新ChatGPT Windows版本上线:快捷键即可召唤AI助手

OpenAI推出了全新的ChatGPT Windows应用早期版，为付费用户提供便捷的AI助手体验。用户只需按下Alt + Space组合键即可召唤ChatGPT，无需每次打开网页。应用目前仅对付费用户开放，但计划在完善后也会让免费用户有机会体验。虽然测试版应用功能暂不完善，但OpenAI承诺会持续更新以提升用户体验。

【AiBase提要:】
🌟 ChatGPT Windows应用仅对付费用户开放，支持多种付费账号类型。
💡 按下Alt + Space组合键即可轻松召唤ChatGPT进行对话，方便快捷。
🔧 测试版应用暂时缺少一些复杂功能，但将持续更新以完善体验。

2、OpenAI重磅发布GPT-4O-Audio-Preview

OpenAI最新推出的GPT-4O-Audio-Preview模型在语音处理领域展现出惊人能力，不仅能生成自然流畅的语音响应，还具备情感分析和语音交互功能，开启了新的人机交互可能性。该模型灵活支持多种模式组合，定价策略反映了音频处理的复杂性。推出将在客户服务、教育、娱乐和辅助技术领域带来革新。

【AiBase提要:】
🔊 模型具备生成自然流畅语音响应能力，支持语音助手和虚拟客服应用。
🎶 具备分析音频情感、语调和音调的能力，适用于情感计算和用户体验分析领域。
🗣 支持语音到语音的互动，为全方位语音交互系统打下基础。
详情链接:https://platform.openai.com/docs/guides/audio/quickstart

3、Google升级AI笔记和研究助手NotebookLM

Google宣布对NotebookLM进行重大升级，增强音频概览功能，让用户更精准引导AI生成对话内容。更新包括自定义音频概览和后台收听功能，提升用户体验。商业版试点计划启动，展望更广泛的应用场景。

【AiBase提要:】
🔊 音频概览功能升级，用户可自定义引导AI对话内容。
🎙️ 新增后台收听功能，用户可同时工作和收听音频。
💼 商业版试点计划启动，企业可提前体验新功能并获得支持。

4、复旦、百度联手打造全新AI模型Hallo2可生成4K超高清+1小时超长视频!

复旦大学和百度公司联合开发的Hallo2AI模型将彻底改变人物动画生成的现状，为电影制作、虚拟助手、游戏开发等领域带来革命性变化。该模型结合了latent diffusion models、Patch-drop数据增强技术、高斯噪声增强技术、VQGAN离散码本预测技术和文本提示控制机制，在生成高质量、长序列人物动画方面表现优异。

【AiBase提要:】
⚙️ Hallo2模型结合了多项创新技术，包括Patch-drop数据增强、高斯噪声增强、VQGAN离散码本预测和文本提示控制机制。
🌟 Hallo2在多个公开数据集上验证，超越现有方法，在生成高质量、长序列人物动画方面表现出色。
🚀 Hallo2模型的发布标志着AI人物动画生成技术迈上新的台阶，未来将进一步优化效率和探索更多应用领域。
详情链接:https://fudan-generative-vision.github.io/hallo2/#/

5、特斯拉Optimus机器人再进化:自主导航、爬楼梯、与人互动成现实

特斯拉最新发布的Optimus机器人展示了令人瞩目的新功能，从自主导航到与人类互动，彰显人工智能和机器人技术的飞速进步。Optimus的自主导航能力、能源管理自主性、负载能力提升等方面都展现出巨大潜力。

【AiBase提要:】
🤖 自主导航能力:Optimus能在复杂环境中自如穿行，多台机器人可协同工作优化导航效率。
🔋 能源管理自主性:Optimus能自动定位充电站实现自主充电，提高工作持续性和效率。
🏋️‍♂️ 负载能力提升:Optimus能搬运重达11公斤的电池托盘，开拓工业和物流应用新可能性。

6、谷歌人事大调整:Gemini团队并入DeepMind，搜索领导层大变动

谷歌最近进行了重要的领导层变动和团队结构调整，包括K&I团队和Gemini团队。新任领导人的接任和团队整合将对公司的技术发展和AI项目合作产生重大影响。

【AiBase提要:】
🌟 Nick Fox接任谷歌K&I团队新负责人，将继续推动搜索、广告、地理和商务产品的发展。
🔧 Prabhakar Raghavan转任谷歌首席技术官，致力于为公司的技术发展提供方向和支持。
🤖 Gemini团队与谷歌DeepMind整合，旨在加强应用团队和Gemini模型团队之间的合作。

7、上传一段音乐秒变钢琴曲!AMT-APC算法一键生成大师级钢琴演奏

近日，武蔵野大学数据科学学院的研究人员开发了AMT-APC算法，通过结合AMT模型和微调技术，实现更精准生成接近原曲的钢琴演奏版本。该算法突破了现有自动生成钢琴曲技术的局限，提升了音质保真度和表现力。

【AiBase提要:】
⭐ AMT-APC算法利用AMT模型优势，通过微调生成更接近原曲的钢琴演奏版本。
🎵 核心策略包括预训练和微调，使AMT模型能够处理更长音乐片段并生成符合原曲风格的钢琴演奏。
🎹 引入风格向量概念，学习不同演奏风格，提升生成钢琴曲的表现力和音质保真度。
详情链接:https://misya11p.github.io/amt-apc/

8、苹果Siri AI新功能:ChatGPT 集成和图像生成

苹果正致力于为iOS18、iPadOS18和macOS15添加新的Apple Intelligence功能，其中包括ChatGPT集成和图像生成。ChatGPT将为Siri提供更先进的文本和图像生成能力，而Visual Intelligence则将为iPhone16用户提供相机控制按钮功能。iOS18.1、iPadOS18.1和macOS Sequoia15.1预计将于10月28日发布，而iOS18.2、iPadOS18.2和macOS Sequoia15.2的测试版也将很快推出。

【AiBase提要:】
🔍 Siri将集成ChatGPT，提供更先进的文本和图像生成能力。
📸 iPhone16将获得Visual Intelligence功能，通过相机控制按钮提供周围物体信息。
🚀 iOS18.2将支持Image Playground图像生成、Genmoji和Image Wand。

9、仅十亿参数!AI图像生成模型Meissonic

Meissonic是一款仅用十亿个参数就能生成高质量图像的开源AI模型。其采用了并行迭代优化的训练方法，使得在图像生成速度上比传统模型快99%。尽管参数量小，Meissonic在多项测试中表现超越更大模型，且能实现无训练的图像修补和扩展功能。

【AiBase提要:】
🌟 紧凑设计的Meissonic适合普通游戏PC和未来的移动设备使用。
⚡ 采用并行迭代优化的训练方法，Meissonic在图像生成速度上比传统模型快99%。
🏆 尽管参数量小，Meissonic在多项测试中表现超越更大模型，且能实现无训练的图像修补和扩展功能。
详情链接:https://huggingface.co/spaces/MeissonFlow/meissonic

10、Perplexity推出内部知识搜索功能，企业可同时查询内外部数据

Perplexity公司推出了新功能“内部知识搜索”，旨在提高企业工作效率，让用户更便捷获取所需信息。用户上传自选文件，避免低价值信息干扰搜索，提高效率。新增“空间”功能支持团队文件共享与AI助手定制。

【AiBase提要:】
📁 用户只能上传自选文件，避免低价值信息干扰搜索，提高效率。
🔍 Perplexity推出“内部知识搜索”功能，支持用户同时查询内外部数据。
🤝 新增“空间”功能，支持团队文件共享与AI助手定制。

11、自动驾驶公司小马智行拟赴美IPO 估值已超85亿美元

小马智行计划赴美IPO，估值超过85亿美元。公司成立于2016年，专注自动驾驶解决方案，已完成9轮融资超过10亿美元。营收主要来自Robotaxi业务，2024年上半年同比增长86%。

【AiBase提要:】
🌍 小马智行计划赴美IPO，股票代码为“PONY”，估值超过85亿美元。
💰 公司成立于2016年，已完成9轮融资超过10亿美元，估值达85亿美元。
🚖 Robotaxi业务是主要收入来源，2024年上半年同比增长86%。

（举报）

相关推荐

关键词：

Hallo2

强强联手！深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

2025年9月29日，深度求索公司发布新一代模型架构DeepSeek-V3.2，引发行业关注。寒武纪同步宣布适配该模型并开源vLLM-MLU推理引擎代码。新发布的DeepSeek-V3.2-Exp是实验性版本，在V3.1-Terminus基础上引入稀疏注意力机制，优化长文本训练和推理效率。目前官方应用端已同步更新，API大幅降价。此次模型体积达671GB，下载需8-10小时。业内专家指出，此次快速适配表明双方早有深度技术协�

DeepSeek-V3.2 大模型架构稀疏注意力机制
Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

Reviews.ai是一个消费者反馈聚合平台，帮助品牌将客户评论转化为可执行的洞察。该平台专注于评论分析，通过AI驱动功能（如按需报告、主题分类和智能代理）提升产品与服务。近期从Review Monitor更名后，团队迁移至DigitalOcean云平台，解决了原有专用服务器架构的扩展瓶颈。迁移过程在合作伙伴Aquazeel支持下高效完成，仅用数周，成本降低近30%。新架构采用Droplets、托管数据库和负载均衡器，支持灵活扩展。未来计划利用GPU Droplets增强AI能力，进一步优化大型语言模型处理效率。

消费者反馈品牌洞察评论分析
远东股份：ALL IN“电能+算力+AI”，智能驱动未来

远东股份（600869）凭借“电能+算力+AI”战略，在能源与算力融合领域形成先发优势。公司深耕特高压输电、新能源等关键技术，自主研发高导铝绞线提升输电效率，产品应用于多条国家级特高压线路。同时布局液冷技术研发，为数据中心提供高效散热方案。未来将持续推进“AI+能源”产业生态建设，助力制造业智能化升级和绿色高效算能模式构建。

人工智能能源算力
放大招！百度复旦视觉生成模型Hallo2或将落地数字人等场景

百度联合复旦大学等发布Hallo2，一个可以生成长达数小时且分辨率为4K的人物动画的视觉模型。Hallo2目前已经在GitHub平台开源，供全球开发者免费使用和研究，预计将促进视频生成技术的广泛应用和发展。大会目前已开放免费报名通道，可通过大会官网报名参会。

视频生成技术 Hallo2模型人像动画
专业级、电影感还是随手拍？佳能、富士、大疆三款热门Vlog视频机怎么选？

文章介绍了三款适合Vlog拍摄的热门设备：佳能R50V、富士X-S20和大疆Pocket 3。佳能R50V以轻巧机身（约323克）和6K超采4K视频为核心优势，支持全像素双核自动对焦、专业视频格式及竖屏直播优化，适合日常记录到专业创作。富士X-S20搭载2610万像素APS-C传感器，提供胶片模拟色彩和6.2K视频录制，兼顾画质与便携性。大疆Pocket 3主打稳定拍摄，配备1英寸传感器和三轴云台，支持4K/120fps视频，适合旅行快速出片。三款设备各具特色，满足不同Vlog创作者的需求。

佳能R50V 富士X-S20 大疆Pocket3
ColorOS 16阶段性爆料总结：拥有安卓首个跨级融合编译技术

ColorOS 16将于10月15日正式发布，流畅度、AI、设计、互联四大方面全面升级。系统带来安卓首个无缝架构和芯片级动态追帧技术，确保全场景流畅体验；AI功能全面覆盖相册、便签等日常应用，新增AI人像补光、AI写作等实用功能；设计语言全新升级，图标动画交互全面优化；生态互联支持通知流转、电脑投屏等跨设备协同。目前Beta版已开启招募，支持一加13、Find X8系列等多款机型。

ColorOS16 流畅度 AI功能
OPPO Pad5官宣10月16日发布首发ColorOS 16

OPPO Pad5将于10月16日发布，搭载全新ColorOS 16系统，主打流畅体验。系统升级三大核心技术引擎，实现无缝动画效果，并首次将原生级流畅能力开放给第三方应用。硬件方面配备12.1英寸3K高刷屏和联发科天玑9400处理器，支持67W快充，兼顾高性能与长续航。针对海外用户优化虚拟键盘操作，提升切换效率。产品定位“丝滑板王”，旨在引领安卓平板体验新高度。

OPPO Pad5 ColorOS16
三星全线产品亮相北京京东MALL 全场景呈现有AI的科技·艺术·家

9月12日，三星家电以“AI的呵护”为主题在北京京东MALL举办线下体验展，集中展示搭载AI技术的全线产品，包括冰箱、洗衣机、电视及手机等。重点展出了荣获IFA创新奖的AI神·黑钻热泵洗烘旗舰等产品，通过五大主题展区呈现科技与艺术融合的家电新形态。观众可现场体验食材管理、衣物护理等智能功能，感受AI技术带来的生活便利。展览将持续至9月17日，并提供互动礼品。

三星家电 AI科技线下体验展
性能超越GPT-4o及Qwen2.5-VL，百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

百度发布超轻量级文字识别模型PP-OCRv5，仅0.07B参数却实现媲美700亿参数大模型的OCR精度。在多项测试中超越GPT-4o等通用视觉大模型，尤其在文本定位和边界框精度上表现优异。该模型支持5种文字类型识别，适用于教育、医疗、法律等多行业数字化需求，累计下载量超900万，是GitHub上唯一Star数超5万的中国OCR项目。

PP-OCRv5 轻量级OCR 文字识别模型
小米17 Pro系列攻克手机逆光摄影难题：搭载第三代高动态技术LOFIC

小米14 Pro系列搭载第三代LOFIC技术，通过横向溢出积分电容解决逆光拍摄难题。该技术让单帧影像实现高动态HDR，有效保留高光细节，避免过曝，动态范围达16.5EV。配备光影猎人950传感器与光学镀膜，显著改善鬼影、发雾等问题。样张显示逆光照片纯净，高光不过曝，暗部细节清晰，告别传统逆光“黑脸”照。

逆光摄影小米17 Pro

今日大家都在搜的词：

热文

3 天
7天

AI日报：复旦、百度新模型可生成1小时长视频；全新ChatGPT Windows版本上线；NotebookLM又上2个新功能

强强联手！深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

远东股份：ALL IN“电能+算力+AI”，智能驱动未来

放大招！百度复旦视觉生成模型Hallo2或将落地数字人等场景

专业级、电影感还是随手拍？佳能、富士、大疆三款热门Vlog视频机怎么选？

ColorOS 16阶段性爆料总结：拥有安卓首个跨级融合编译技术

OPPO Pad5官宣10月16日发布首发ColorOS 16

三星全线产品亮相北京京东MALL 全场景呈现有AI的科技·艺术·家

性能超越GPT-4o及Qwen2.5-VL，百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

小米17 Pro系列攻克手机逆光摄影难题：搭载第三代高动态技术LOFIC

今日大家都在搜的词：

热文

雷军：小米17系列开售仅5天销量破100万台

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

雷军：小米17系列首销权益延续至10月31日

理想汽车推出焕新版L系限时优惠 10 月 8 日前享1.5万置换补贴

比特币价格突破12.5万美元刷新历史最高纪录

小米回应“小米汽车突然自己开走”：排除车辆质量问题

小米17 1TB版明日开售售价5299元

雷军：小米17系列开售仅5天销量破100万台

腾讯混元图像3.0登顶LMArena榜一

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

雷军：小米17系列首销权益延续至10月31日

站长商机