首页 > 业界 > 关键词  > Hallo2最新资讯  > 正文

AI日报:复旦、百度新模型可生成1小时长视频;全新ChatGPT Windows版本上线;NotebookLM又上2个新功能

2024-10-18 15:51 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、面向付费用户!全新ChatGPT Windows版本上线:快捷键即可召唤AI助手

OpenAI推出了全新的ChatGPT Windows应用早期版,为付费用户提供便捷的AI助手体验。用户只需按下Alt + Space组合键即可召唤ChatGPT,无需每次打开网页。应用目前仅对付费用户开放,但计划在完善后也会让免费用户有机会体验。虽然测试版应用功能暂不完善,但OpenAI承诺会持续更新以提升用户体验。

image.png

【AiBase提要:】

🌟 ChatGPT Windows应用仅对付费用户开放,支持多种付费账号类型。

💡 按下Alt + Space组合键即可轻松召唤ChatGPT进行对话,方便快捷。

🔧 测试版应用暂时缺少一些复杂功能,但将持续更新以完善体验。

2、OpenAI重磅发布GPT-4O-Audio-Preview

OpenAI最新推出的GPT-4O-Audio-Preview模型在语音处理领域展现出惊人能力,不仅能生成自然流畅的语音响应,还具备情感分析和语音交互功能,开启了新的人机交互可能性。该模型灵活支持多种模式组合,定价策略反映了音频处理的复杂性。推出将在客户服务、教育、娱乐和辅助技术领域带来革新。

image.png

【AiBase提要:】

🔊 模型具备生成自然流畅语音响应能力,支持语音助手和虚拟客服应用。

🎶 具备分析音频情感、语调和音调的能力,适用于情感计算和用户体验分析领域。

🗣 支持语音到语音的互动,为全方位语音交互系统打下基础。

详情链接:https://platform.openai.com/docs/guides/audio/quickstart

3、Google升级AI笔记和研究助手NotebookLM

Google宣布对NotebookLM进行重大升级,增强音频概览功能,让用户更精准引导AI生成对话内容。更新包括自定义音频概览和后台收听功能,提升用户体验。商业版试点计划启动,展望更广泛的应用场景。

【AiBase提要:】

🔊 音频概览功能升级,用户可自定义引导AI对话内容。

🎙️ 新增后台收听功能,用户可同时工作和收听音频。

💼 商业版试点计划启动,企业可提前体验新功能并获得支持。

4、复旦、百度联手打造全新AI模型Hallo2可生成4K超高清+1小时超长视频!

复旦大学和百度公司联合开发的Hallo2AI模型将彻底改变人物动画生成的现状,为电影制作、虚拟助手、游戏开发等领域带来革命性变化。该模型结合了latent diffusion models、Patch-drop数据增强技术、高斯噪声增强技术、VQGAN离散码本预测技术和文本提示控制机制,在生成高质量、长序列人物动画方面表现优异。

【AiBase提要:】

⚙️ Hallo2模型结合了多项创新技术,包括Patch-drop数据增强、高斯噪声增强、VQGAN离散码本预测和文本提示控制机制。

🌟 Hallo2在多个公开数据集上验证,超越现有方法,在生成高质量、长序列人物动画方面表现出色。

🚀 Hallo2模型的发布标志着AI人物动画生成技术迈上新的台阶,未来将进一步优化效率和探索更多应用领域。

详情链接:https://fudan-generative-vision.github.io/hallo2/#/

5、特斯拉Optimus机器人再进化:自主导航、爬楼梯、与人互动成现实

特斯拉最新发布的Optimus机器人展示了令人瞩目的新功能,从自主导航到与人类互动,彰显人工智能和机器人技术的飞速进步。Optimus的自主导航能力、能源管理自主性、负载能力提升等方面都展现出巨大潜力。

【AiBase提要:】

🤖 自主导航能力:Optimus能在复杂环境中自如穿行,多台机器人可协同工作优化导航效率。

🔋 能源管理自主性:Optimus能自动定位充电站实现自主充电,提高工作持续性和效率。

🏋️‍♂️ 负载能力提升:Optimus能搬运重达11公斤的电池托盘,开拓工业和物流应用新可能性。

6、谷歌人事大调整:Gemini团队并入DeepMind,搜索领导层大变动

谷歌最近进行了重要的领导层变动和团队结构调整,包括K&I团队和Gemini团队。新任领导人的接任和团队整合将对公司的技术发展和AI项目合作产生重大影响。

【AiBase提要:】

🌟 Nick Fox接任谷歌K&I团队新负责人,将继续推动搜索、广告、地理和商务产品的发展。

🔧 Prabhakar Raghavan转任谷歌首席技术官,致力于为公司的技术发展提供方向和支持。

🤖 Gemini团队与谷歌DeepMind整合,旨在加强应用团队和Gemini模型团队之间的合作。

7、上传一段音乐秒变钢琴曲!AMT-APC算法一键生成大师级钢琴演奏

近日,武蔵野大学数据科学学院的研究人员开发了AMT-APC算法,通过结合AMT模型和微调技术,实现更精准生成接近原曲的钢琴演奏版本。该算法突破了现有自动生成钢琴曲技术的局限,提升了音质保真度和表现力。

【AiBase提要:】

⭐ AMT-APC算法利用AMT模型优势,通过微调生成更接近原曲的钢琴演奏版本。

🎵 核心策略包括预训练和微调,使AMT模型能够处理更长音乐片段并生成符合原曲风格的钢琴演奏。

🎹 引入风格向量概念,学习不同演奏风格,提升生成钢琴曲的表现力和音质保真度。

详情链接:https://misya11p.github.io/amt-apc/

8、苹果Siri AI新功能:ChatGPT 集成和图像生成

苹果正致力于为iOS18、iPadOS18和macOS15添加新的Apple Intelligence功能,其中包括ChatGPT集成和图像生成。ChatGPT将为Siri提供更先进的文本和图像生成能力,而Visual Intelligence则将为iPhone16用户提供相机控制按钮功能。iOS18.1、iPadOS18.1和macOS Sequoia15.1预计将于10月28日发布,而iOS18.2、iPadOS18.2和macOS Sequoia15.2的测试版也将很快推出。

image.png

【AiBase提要:】

🔍 Siri将集成ChatGPT,提供更先进的文本和图像生成能力。

📸 iPhone16将获得Visual Intelligence功能,通过相机控制按钮提供周围物体信息。

🚀 iOS18.2将支持Image Playground图像生成、Genmoji和Image Wand。

9、仅十亿参数!AI图像生成模型Meissonic

Meissonic是一款仅用十亿个参数就能生成高质量图像的开源AI模型。其采用了并行迭代优化的训练方法,使得在图像生成速度上比传统模型快99%。尽管参数量小,Meissonic在多项测试中表现超越更大模型,且能实现无训练的图像修补和扩展功能。

image.png

【AiBase提要:】

🌟 紧凑设计的Meissonic适合普通游戏PC和未来的移动设备使用。

⚡ 采用并行迭代优化的训练方法,Meissonic在图像生成速度上比传统模型快99%。

🏆 尽管参数量小,Meissonic在多项测试中表现超越更大模型,且能实现无训练的图像修补和扩展功能。

详情链接:https://huggingface.co/spaces/MeissonFlow/meissonic

10、Perplexity推出内部知识搜索功能,企业可同时查询内外部数据

Perplexity公司推出了新功能“内部知识搜索”,旨在提高企业工作效率,让用户更便捷获取所需信息。用户上传自选文件,避免低价值信息干扰搜索,提高效率。新增“空间”功能支持团队文件共享与AI助手定制。

image.png

【AiBase提要:】

📁 用户只能上传自选文件,避免低价值信息干扰搜索,提高效率。

🔍 Perplexity推出“内部知识搜索”功能,支持用户同时查询内外部数据。

🤝 新增“空间”功能,支持团队文件共享与AI助手定制。

11、自动驾驶公司小马智行拟赴美IPO 估值已超85亿美元

小马智行计划赴美IPO,估值超过85亿美元。公司成立于2016年,专注自动驾驶解决方案,已完成9轮融资超过10亿美元。营收主要来自Robotaxi业务,2024年上半年同比增长86%。

【AiBase提要:】

🌍 小马智行计划赴美IPO,股票代码为“PONY”,估值超过85亿美元。

💰 公司成立于2016年,已完成9轮融资超过10亿美元,估值达85亿美元。

🚖 Robotaxi业务是主要收入来源,2024年上半年同比增长86%。

举报

  • 相关推荐
  • 比其它平台晚了几年!Apple Music Windows版本终于有了杜比景声

    近日,苹果在AppleMusicforWindows10/11版本中添加了杜比全景声支持,让Windows用户也能享受到沉浸式的音乐体验。此前AppleMusic的其他版本,如iOS版、iPadOS版、Mac版、AppleTV版和Android版都已经在2021年之后陆续支持杜比全景声,但Windows用户一直未能享受到这一功能。需要注意的是,AppleMusic没有免费版,用户需要订阅后才能收听。

  • 真正的Windows on Arm!大神最新魔改成果:智能手表运行Windows

    近日,名为GustaveMonce的开发者最新成果惊呆了众多网友,他成功将Windows操作系统运行在智能手表上。GustaveMonce是一位硬核极客开发者,在法国波尔多大学攻读博士学位,研究方向涉及软件工程、嵌入式系统和SoC开发热衷于挑战让Windows在各种不可能”的设备上运行。GustaveMonce的尝试吸引了众多网友的关注,有网友表示:可以给微软参考了,为SurfaceWatch铺路”也有人调侃:真正践行WindowsonArm的理念了。

  • 彻底告别Windows!华为鸿蒙PC版本月发布:自主可控、统一生态

    快科技5月1日消息,在3月份的华为Pura X发布会上,华为常务董事、终端BG董事长、智能汽车解决方案BU董事长余承东宣布,华为终端全面进入鸿蒙时代,今年5月将推出鸿蒙电脑。随着五一假期开启,也揭开了5月的序幕,鸿蒙PC版也越来越近,预计最快会在假期结束后正式官宣发布会时间。其实鸿蒙PC版的推出也是被逼上梁山”,因为微软对华为的Windows系统授权即将到期,华为将无法再继续使用Windows。华为近期就已经推出了Linux笔记本,出厂只有Linux系统,配置不变,比Windows版本便宜300元。后续华为PC将全面转向鸿蒙系统,完全自主可控,老款?

  • AI日报ChatGPT重磅上线图像库功能;白嫖!Veo2登陆谷歌AI Studio;蚂蚁宝箱推“MCP专区”

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、报道称字节跳动整合 AI 研发团队,AI Lab 即将并入 Seed字节跳动正在进行AI研发团队的整合,将独立的字节AI Lab并入Seed团队。这一举措体现了字节在AI领域战略布局的调整,旨在进�

  • AI日报:即梦3.0内测直出2K商业海报;ChatGPT又更新图片生成功能;饿了么推“AI入驻智能经理”

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。7、Genspark发布自动化AI代理SuperAgent具备自主思考、调用工具的能力Genspark最近推出了其全新的自动化AI代理SuperAgent,凭借其强大的自主思考和任务执行能力,迅速成为行业的焦点。用户只需输入感兴趣的主题,系统便能�

  • ChatGPT上线图库功能:可管理AI生成图片

    快科技4月16日消息,据报道,OpenAI近日宣布将为ChatGPT推出全新的Image Library图库功能,该功能将帮助用户更高效地管理和查看AI生成的图像。这项创新功能将逐步向所有用户开放,包括移动端和网页端的免费版、Plus版及Pro版用户。新功能的设计充分考虑了用户体验的便捷性。用户只需点击ChatGPT侧边栏的Library入口,就能进入一个直观的图像网格界面。在这个界面中,用户可以轻�

  • Windows XP蓝天白云经典壁纸拍摄者:后悔未索要税!

    美国微软WindowsXP系统那一张标志性的蓝天白云绿草壁纸《幸福》,堪称经典,被誉为史上最多人浏览的照片”。这张壁纸的拍摄者是前《国家地理》摄影师查尔斯奥里尔。这张照片并没有经过任何后期处理,完全是富士胶卷的色彩与相机镜头卓越表现力的完美结合,才成就了如今这般令人惊艳的画面。

  • 安装Windows 11四月更新后:C盘无故出现神秘文件夹

    微软日前发布了Windows11的KB5055523累积更新,主要修复漏洞并提升系统性能。不过许多用户在安装该更新后,却发现系统C盘根目录下出现了一个名为inetpub”的空文件夹。在实际测试中,删除该文件夹并未对系统的使用造成任何问题,因此这很可能是微软无意中制造的一个小Bug。

  • 微软Windows 11开始菜单大改部应用一页显示、推荐项可彻底关闭

    根据最新消息,微软正在对Windows11的开始菜单进行重大改版,这一更新将彻底改变其布局和功能。Windows11的开始菜单将从现有的多栏布局改为单栏可滚动视图,所有固定图标和已安装应用都将集中在一页上显示,用户无需再点击全部应用”按钮即可浏览所有应用。此次开始菜单的改版预计将在今年晚些时候推出。

  • AI日报:通义千问Qwen3重磅发布;抖音AI搜索能力开放;ChatGPT 搜索新增网购功能;Suno V4.5版本将发布

    本期AI日报重点内容: 1. 通义千问发布Qwen3大模型,在代码、数学和通用能力方面表现突出,支持两种思考模式并开源多个模型权重 2. 抖音开放AI搜索能力接口,为第三方应用提供丰富内容资源 3. ChatGPT新增网购功能,通过对话获取个性化商品推荐 4. Suno AI即将推出V4.5版本,提升音乐生成真实度 5. Simular AI登陆macOS,打造本地化智能助手 6. 暗月之面开源Kimi-VL模型,可处理文本、图像和视频 7. UCLA与Meta推出d1框架,提升大语言模型推理速度 8. 通义灵码上线Qwen3编程智能体 9. Gen-4References图像生成技术惊艳亮相 10. Hugging Face推出可编程机械臂SO-101 11. Windsurf推出全新品牌标志 12. Ollama全面支持Qwen3模型本地部署