首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:百川智能金融大模型发布;ChatGPT新增跨对话记忆功能;DeepSeek大模型一开发者将加盟小米;OpenAI推理模型o3

2024-12-23 15:20 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、OpenAI发布o3:AI 推理能力的重大突破,得分高达87.5%

OpenAI最近推出了其最新的o-Model推理系列模型o3,标志着在数学和科学推理领域的重大进展。o3在ARC AGI基准测试中得分87.5%,显示出其在解决复杂逻辑和数学问题方面的显著能力提升。该模型结合了神经符号学习与概率逻辑,能够有效处理多步推理挑战,展现出在教育、医疗和软件开发等多个领域的广泛应用潜力。

image.png

【AiBase提要:】

🧠 o3在ARC AGI基准测试中得分87.5%,展现出显著的推理能力提升。

🔍 在高级数学测试中,o3的成功率达到96.7%,科学推理准确率提升10%。

💻 o3的应用潜力广泛,能够在教育、医疗和软件开发等领域提供实际支持。

2、Adobe推新AI音频具Sketch2Sound ,只需哼唱和模仿声音就能创建音效

Adobe Research与西北大学联合推出的Sketch2Sound是一款创新的人工智能工具,旨在革新声音设计师的工作流程。用户可以通过哼唱、模仿声音和简单文本描述来生成专业音效。该系统分析音量、音色和音高,并结合文本生成所需声音,特别适合Foley艺术家,提升影视音效的制作效率。

【AiBase提要:】

🎵 Sketch2Sound是一个新开发的AI工具,能通过哼唱和文本描述来创建音效。

🔊 该系统分析音量、音色和音高,将用户的声音输入与文本结合生成目标音效。

🎬 特别适合Foley艺术家使用,能够快速生成影视音效,提升工作效率。

详情链接:https://hugofloresgarcia.art/sketch2sound/

3、百川智能发布金融大模型Baichuan4-Finance

百川智能最近发布了其全新的金融大模型Baichuan4-Finance,该模型通过创新的领域自约束训练方案,在金融能力和通用能力上实现了双重提升,显著增强了在金融场景中的适用性。根据评测数据,Baichuan4-Finance在多个金融领域的准确率均超越了竞争对手GPT-4o。

image.png

【AiBase提要:】

🚀 Baichuan4-Finance通过领域自约束训练方案,提升金融和通用能力。

🏆 在多个评测中,Baichuan4-Finance的整体准确率达到93.62%,领先GPT-4o近20%。

📊 该模型在银行、保险、基金和证券等领域的准确率均突破95%。

详情链接:https://platform.baichuan-ai.com/finPage

4、清华大学联合腾讯出品!ColorFlow:自动给黑白漫画上色,保持角色一致性

ColorFlow是清华大学与腾讯ARC实验室联合研发的新型图像序列上色模型,旨在解决黑白图像上色时角色身份一致性的问题。该模型通过双分支设计和创新的检索增强上色管道,显著提升了上色效果与效率。ColorFlow在多个指标上超越了现有先进模型,展现出更高的美学质量,适用于黑白漫画、线条艺术等多种艺术场景。

image.png

【AiBase提要:】

🌟 ColorFlow是创新的黑白图像序列上色模型,能够保持角色身份一致性。

🎨 该模型采用双分支设计,分别用于色彩身份提取和实际上色,提升了上色的效果和效率。

🏆 ColorFlow在多项指标上超越了现有的先进模型,展现出更高的美学质量和实用性。

详情链接:https://zhuang2002.github.io/ColorFlow/

5、CAP4D:上传参考图即可生成高质量4D角色头像

CAP4D模型是一项革命性的技术,能够通过任意数量的参考图像生成高质量的4D头像。该模型采用双阶段工作流程,首先生成不同视角和表情的图像,然后结合参考图像重建可实时控制的4D头像。通过使用先进的面部追踪技术和随机采样的方式,CAP4D显著提升了图像重建效果和细节呈现。

image.png

【AiBase提要:】

🌟 CAP4D模型通过任意数量的参考图像生成高质量的4D头像,采用双阶段工作流程。

🖼️ 该技术可以生成多种不同视角的头像,显著提高了图像重建效果和细节呈现。

🎤 CAP4D与语音驱动动画模型相结合,实现音频驱动的动态头像,拓展了虚拟头像的应用场景。

6、OpenAI推出ChatGPT新记忆功能:能跨对话回忆用户交流

OpenAI最近推出了一项全新的记忆功能,使得其AI助手ChatGPT能够在用户开启新对话时回忆起以往的交流内容。这一更新旨在提升用户体验,允许用户全面管理自己的记忆设置,包括删除或归档特定信息。与此类似,谷歌也加快了其聊天机器人Gemini的记忆功能的推出,显示出AI行业在个性化服务方面的持续努力。

image.png

【AiBase提要:】

🔍 OpenAI推出新记忆功能,ChatGPT可跨对话回忆用户过往交流。

🔒 用户可随时管理记忆设置,删除或归档特定信息。

🤖 谷歌也推出类似功能,旨在提升AI助手的个性化服务。

7、震惊!你的AI聊天对象竟然偷偷学会了“读心术”!—— INFP带你解锁双人对话新姿势

INFP技术的出现,标志着AI虚拟头像在双人对话中的互动能力得到了质的飞跃。通过模仿人类的表情和动作,INFP使得虚拟角色能够在对话中展现出真实的互动,仿佛与真人交流。其背后的技术创新,不仅提升了用户体验,也为未来的AI对话系统提供了新的可能性。

image.png

【AiBase提要:】

🤖 INFP技术通过模仿人类的表情和动作,提升了AI虚拟头像的互动能力。

🎤 该技术利用音频分析,动态调整AI头像的状态,实现自然流畅的对话。

📊 DyConv数据集为INFP提供了丰富的对话素材,确保学习效果和表现的优越性。

详情链接:https://grisoon.github.io/INFP/

8、DeepSeek开源大模型开发者之一罗福莉将加盟小米

罗福莉,DeepSeek-V2的关键开发者,近期宣布加入小米,担任AI实验室的领导,负责大模型团队的建设。此举引发广泛关注,尤其是在小米加大大模型领域布局的背景下。罗福莉拥有北京大学的硕士学位,并在自然语言处理领域表现突出,曾在阿里巴巴达摩院任职,参与多语言预训练模型的开发。

【AiBase提要:】

🌟 罗福莉将加盟小米,领导AI实验室的大模型团队。

💰 雷军对小米在AI大模型领域的发展表示担忧,并高薪挖人。

📈 小米AI实验室已经设立专门团队,致力于推动大模型技术的发展。

9、AI终于迈过这道槛!Livekit 开源模型精准识别“你是否说完”!

在语音助手和客服机器人领域,如何准确判断用户是否说完一直是个难题。Livekit推出的开源精准语音轮次检测模型,通过结合Transformer模型与传统语音活动检测,显著提升了人机对话的自然度与流畅性。该模型能够减少AI的错误打断,提升用户体验,未来有望使人机对话更加智能和自然。

【AiBase提要:】

🔍 结合Transformer和传统VAD技术,提升语音轮次检测的准确性。

💬 新模型减少AI的错误打断率达85%,使人机对话更加自然。

🎥 演示视频展示AI耐心等待用户说完,提升交互体验。

详情链接:https://github.com/livekit/agents/tree/main/livekit-plugins/livekit-plugins-turn-detector

10、李飞飞团队前瞻性研究 多模态AI模型初显空间智能

斯坦福大学教授李飞飞及其团队的研究揭示了多模态大模型在空间智能方面的初步能力,展示了它们在记忆和回忆空间的潜力。研究开发了VSI-Bench工具,评估视觉空间智能,尽管模型表现仍低于人类,但在某些任务上已接近人类水平。

image.png

【AiBase提要:】

🛠️ 研究团队推出VSI-Bench工具,评估视觉空间智能,包含5000多个高质量问答对。

📈 多模态模型在某些任务上已接近人类水平,Gemini-1.5Pro在房间大小估计任务中表现突出。

🌍 李飞飞创办的World Labs专注于开发具备空间智能的AI模型,已获得多家知名机构投资。

11、特朗普正式任命白宫AI政策高级顾问

近日,美国前总统唐纳德・特朗普确认Sriram Krishnan担任白宫科技政策办公室的人工智能高级政策顾问。Krishnan曾是Andreessen Horowitz的合伙人,将负责协调政府的AI政策,并与前PayPal首席运营官David Sacks合作。

image.png

【AiBase提要:】

🌟 Sriram Krishnan被任命为特朗普的人工智能政策高级顾问,负责协调政府的AI政策。

🤝 他将与前PayPal首席运营官David Sacks合作,共同推动AI和加密货币相关政策。

💼 Krishnan曾在多家知名科技公司担任领导职务,并在《纽约时报》中分享了对AI趋势的看法。

12、闪极AI拍拍镜宣布预售售罄:999元5万台一天抢光

闪极科技最近推出了其首款AI拍拍镜,标志着国内AI拍摄眼镜领域的重要进展。该产品以1499元的价格上市,首批5万台以999元的优惠价迅速售罄,显示出市场的热烈反响。此外,闪极还推出了一个吸引人的促销活动,用户在300天内打卡200天可获得全额退款。

image.png

【AiBase提要:】

📸 这款AI拍拍镜售价1499元,首批5万台以999元的优惠价售罄,显示出强劲的市场需求。

🎉 用户在300天内打卡200天可获得全额退款,增加了产品的吸引力。

🔍 该眼镜搭载索尼1600万像素摄像头,支持多种智能功能,提供丰富的用户体验。

举报

  • 相关推荐
  • DeepSeek更新R1推理AI模型,已发布Hugging Face

    更新后的 R1 拥有 6850 亿个参数,体量庞大。由于模型规模极大,普通消费者级别的硬件很可能无法直接运行。

  • AI日报ChatGPT免费开放记忆功能;华为WATCH 5智能手表接入双大模型Claude Pro升级重磅功能

    本期AI日报主要报道了多项AI领域重要进展:1)OpenAI向所有ChatGPT用户免费开放记忆功能;2)蚂蚁集团推出"AI健康管家",服务4000万用户;3)Anthropic与DeepLearning.AI合作推出免费MCP课程;4)谷歌DeepMind开发无需3D模型即可生成逼真运动视频的新技术;5)Exa与OpenRouter合作为400+大模型提供实时网络搜索功能;6)中国知网推出CNKI AI学术研究助手;7)Anthropic推出Claude Explains博客项目;8)Claude Pro新增研究模式和远程MCP整合功能;9)Fish Audio发布基于200万小时数据训练的OpenAudio S1语音模型;10)OpenAI升级Codex编程工具;11)华为WATCH5接入盘古和DeepSeek双大模型。

  • OpenAI免费开放ChatGPT记忆功能:用户对话连贯性提升

    OpenAI宣布向所有用户免费开放 ChatGPT 记忆功能(Memory),该功能此前仅限付费订阅用户使用。此次升级显著增强了记忆能力,并强化了隐私控制。 升级后的记忆功能可保存并智能引用用户的过往对话内容(如偏好设置、特定指令、历史对话),使 AI 回复更具连贯性和上下文关联性。 例如,在撰写长篇小说或进行深度金融分析时,ChatGPT能依据此前对话调整风格或提供相关信�

  • 极速接入!度千帆大模型平台宣布上线DeepSeek-R1-0528

    日前,DeepSeek R1模型完成小版本升级,目前最新版本为DeepSeek-R1-0528。 更新后的R1模型在复杂逻辑推理、长文本处理稳定性、代码生成质量等多方面能力大幅提升,整体表现已接近o3、Gemini-2.5-Pro等国际顶尖模型。 今晚,百度智能云千帆大模型平台宣布已正式上架DeepSeek-R1-0528大模型,企业用户和开发者登录千帆即可体验。

  • GPTBots 迎来增强版 DeepSeek-R1-0528 模型

    GPTBots.ai平台宣布集成深度求索(DeepSeek)最新开源模型DeepSeek-R1-0528,该模型在推理能力上媲美OpenAI和Google的顶级模型,性能显著提升:数学竞赛准确率从70%提升至87.5%,编程性能从63.5%提升至73.3%。该模型支持JSON输出与函数调用,可无缝嵌入企业工作流,同时推出轻量级版本DeepSeek-R1-0528-Qwen3-8B,仅需16GB GPU内存即可运行。此次集成将强化GPTBots为企业提供金融、医疗、教育等领域的AI解决方案能力,助力企业构建定制化AI应用。平台秉持开源理念,采用MIT许可协议,支持商业使用与定制开发。

  • DeepSeek徒手造一个能对话AI简历,助你当场拿下Offer。

    ​故事是这样的。 我最近一直在招人,想招点人帮我分担一些压力,全职的实习的啥的都可以。 我这再怎么说,也是一个跟AI有关的地方,所以很多人在投简历的时候,都会写很多跟AI相关的经历,我甚至收到过很多AI生成的简历。 很多写的很玄乎,什么掌握全链路工作流,独立搭建xx系统,深度参与xx项目,掌握xx行业资源等等,但是一面,问用过最惊艳的AI产品是啥,10个�

  • 华为:让DeepSeek的“专家们”动起来,推理延迟降10%!

    要问最近哪个模型最火,混合专家模型(MoE,Mixture of Experts)绝对是榜上提名的那一个。 它的巧妙之处,就在于把不同的任务分配给擅长处理的专家网络,让整个系统性能得以提升。 但你知道吗? 正是这个关键的专家网络,也是严重影响系统推理性能的因素之一。 因为在大量任务来临之际(尤其是超大规模时),MoE并不是以“雨露均沾”的方式去分配——专家网络们的负�

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • 超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

    超越OpenAI! 国产大模型突袭,AI语音生成天花板被重新定义了。 MiniMax最新发布Speech-02,同时拿下Artificial Analysis Speech Arena和Hugging Face TTS Arena两项全球权威语音基准测评第一!

  • AI日报DeepSeek入选2025年度十大IP;快手推出AI作图工具 Poify;字节跳动开源代码模型Seed-Coder

    本文介绍了AI领域多项最新进展:1)快手推出电商AI作图工具Poify,提升商品展示效率;2)字节跳动开源8B参数代码模型Seed-Coder,展现强大编程能力;3)DeepSeek App入选2025全球十大IP;4)Claude AI新增网页搜索功能;5)苹果发布移动端视觉语言模型FastVLM;6)腾讯推出3D形状生成框架PrimitiveAnything;7)首个智能文档处理基准发布;8)谷歌Gemini2.5Pro实现6小时视频理解;9)研究显示简洁提问易致AI错误;10)首款AI智能浏览器Fellou发布;11)NVIDIA推出音频生成技术Audio-SDS;12)Kimi入驻小红书,转向内容深耕。这些创新展现了AI在电商、编程、多模态理解等领域的快速发展。