首页 > 业界 > 关键词  > ​OpenAI最新资讯  > 正文

AI日报:​豆包视频生成模型正式发布;腾讯推“养老”机器人小五;中科大推人像视频编辑神器PortraitGen

2024-09-24 15:10 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、字节跳动豆包视频生成模型正式发布 支持多镜头视频一致性生成

豆包·视频生成模型今日发布!火山引擎总裁谭待表示,豆包·视频生成模型在视频生成方面具有多项先进性能,包括精准的语义理解、多动作多主体交互、强大的动态效果和一致性多镜头生成能力。

【AiBase 提要:】

🆕 新发布的豆包视频生成模型具备多种视频生成能力,主要有PixelDance和Seaweed两个版本。

🎥 模型支持多镜头切换和动态效果,保持一致性。

🌈 模型支持包括黑白、3D动画、2D动画、国画等多种风格,适配不同屏幕比例。

2、OpenAI 官方账号被黑,竟推广虚假加密货币!

近日,OpenAI 官方账号在社交平台遭到黑客攻击,发布虚假加密货币广告。这一事件提醒我们网络安全问题严峻,需保持警惕,避免成为诈骗受害者。

image.png

【AiBase提要:】

🚨 虚假广告事件:OpenAI 官方账号遭黑客攻击,发布虚假加密货币广告。

🔒 网络安全警示:用户需提高警惕,不轻信陌生链接和信息,避免上当受骗。

💻 删除推文回应:推广加密货币推文已删除,账号回应评论关闭,提醒大家注意恶意链接。

3、腾讯Robotics X实验室推出人居环境机器人“小五”

腾讯Robotics X实验室最新推出的人居环境机器人“小五”具有革新性设计和智能控制系统,成为家庭中不可或缺的助手。其灵活性和感知能力使其能够在多种环境中自如移动并理解人类需求。未来,这一创新产品将引领智能家居行业发展,智能机器人将成为日常生活中必不可少的成员。

image.png

【AiBase提要:】

🤖 小五采用四腿轮足复合结构,具备快速移动速度和对不平整地形的适应能力。

🧠 小五智能控制系统通过全局定位和建图系统实时感知周围环境,避开障碍物实现安全自主运动。

🏡 小五具备先进的多模态人机交互技术,能理解并预测人类行动需求,成为家庭生活中灵活、高效的工作伙伴。

4、中国科学技术大学出品!AI人像视频编辑工具PortraitGen:风格化、换衣、修改光照通通搞定

中国科学技术大学的研究团队推出了名为PortraitGen的创新视频编辑工具,可实现多模态的人像编辑,编辑速度快,编辑效果流畅。特别的面部意识编辑模块提升表情质量,保留个性化特征,展现强大潜力。

image.png

【AiBase提要:】

✨ PortraitGen仅需30分钟将2D人像视频编辑为4D高斯场,支持每秒100帧的流畅播放。

🎨 提供多种编辑方式,包括文本驱动和图像驱动,视频风格变换更加灵活多样。

💡 通过面部意识编辑模块,提升表情质量,并保留用户个性化的面部特征。

详情链接:https://top.aibase.com/tool/portraitgen

5、PDF一键转播客!PDF2Audio让文档开口说话

在信息爆炸的时代,PDF2Audio是一款开源工具,利用人工智能技术将PDF文档转换为多种音频形式,如播客、讲座或摘要,为用户提供全新的信息获取方式。工具设计考虑用户需求,支持批量处理文档,提供多种内容模板,个性化选择GPT模型和语音风格,提供草稿编辑和反馈迭代功能。采用Gradio接口,降低使用门槛,让更多用户享受AI便利。

image.png

【AiBase提要:】

🔊 PDF2Audio将PDF文档转换为多种音频形式,如播客、讲座或摘要,提供全新信息获取方式。

📚 工具设计考虑用户需求,支持批量处理文档,提供多种内容模板,包括播客、讲座和摘要。

🎵 用户可个性化选择GPT模型和语音风格,提供草稿编辑和反馈迭代功能,确保生成内容质量。

详情链接:https://huggingface.co/spaces/lamm-mit/PDF2Audio

6、强的离谱!Leonardo AI推图片高清放大神器

Leonardo AI推出的高清放大功能速度更快更便宜,效果惊人。通过X博主James Yeung和另一位博主Dogan Ural的分享视频,展示了夜景下建筑和家具的清晰放大效果,甚至可以看到沙发上抱枕的纹路。值得一试!

【AiBase提要:】

🔍 Leonardo AI推出高清放大功能,速度更快更便宜。

🏙️ 夜景下建筑在高清放大后变得更清晰,甚至可以看到大楼里的人和家具。

🛋️ 放大64倍后的图像效果惊人,可以清楚地看到沙发上抱枕的纹路。

详情链接:https://top.aibase.com/tool/leonardoai

7、AI巨头暗战升级:Claude3.5Opus、Gemini2蓄势待发

人工智能领域正迎来一场激烈的较量,Anthropic公司融资动向引发广泛关注。Claude3.5Opus和Gemini2的竞争备受瞩目,AI革命即将迎来新阶段。

1.jpg

【AiBase提要:】

🔥 Anthropic公司寻求新一轮融资,估值目标高达300亿到400亿美元,投资者对AI技术发展信心十足。

💰 Anthropic已获得76亿美元投资,亚马逊是最大投资方,融资将使其成为AI初创公司估值王。

⚙️ Anthropic加速推出最新版本Claude3.5Opus,Gemini阵营也蓄势待发,AI行业竞争激烈。

8、OpenAI CEO预测:人类可能在“几千天”内实现超级智能 AI

Sam Altman在个人博客中展望AI驱动的技术进步和全球繁荣未来,预测超级智能AI可能在未来十年内出现。他强调降低计算成本和基础设施建设的重要性,称当前时代为“智能时代”,预言AI将带来深远社会变革。

image.png

【AiBase提要:】

🌐 超级智能AI可能在未来几千天内实现,OpenAI全力以赴

🔍 降低计算成本和基础设施建设是推动AI普及的关键

🚀 当前时代被称为“智能时代”,将带来深远的社会变革

9、OpenAI 重磅发布多语言 AI 数据集,推动全球语言平等

OpenAI 最近推出了名为“多语言大规模多任务语言理解”(MMMLU)数据集,旨在评估人工智能在14种语言中的表现。该举措填补了AI研究中对低资源语言的关注空白,为全球用户提供更好的AI互动体验。同时,OpenAI还推出了OpenAI Academy项目,支持低收入国家AI开发者的成长和发展。

image.png

【AiBase提要:】

🌍 OpenAI发布MMMLU数据集,涵盖14种语言,推动多语言AI的研究和应用。

💡 数据集由专业人类翻译制作,确保高准确性,尤其适用于高要求的行业。

🧑‍🏫 OpenAI Academy推出,提供支持以促进低收入国家AI开发者的成长和发展。

详情链接:https://huggingface.co/datasets/openai/MMMLU

10、OpenAI推出AI学院计划

OpenAI推出OpenAI Academy,旨在投资开发者和组织,利用人工智能解决难题,促进经济增长。该计划支持本地AI人才培养,促进全球卫生、农业、教育和金融等行业的发展。

image.png

【AiBase提要:】

🌟 OpenAI推出AI学院,全球范围内投资AI开发者和组织

🚀 提供培训、API积分和社区建设,促进经济增长和技术创新

🌐 支持本地AI人才培养,促进全球卫生、农业、教育和金融等行业的发展

11、研究发现,AI语音模型在归纳推理中表现出色,在演绎任务中“碰壁”

这篇文章深入探讨了大型语言模型在归纳推理和演绎推理方面的挑战。研究结果显示,模型在归纳推理方面表现优秀,准确率接近100%,但在演绎推理,特别是处理反事实任务时遇到困难。另一项研究则考察了Transformer模型在逻辑推理能力方面的表现。

【AiBase提要:】

🌟 归纳推理方面表现出色,准确率接近100%

🧩 演绎推理仍然是挑战,尤其在处理反事实任务时

🔍 Transformer模型在组合任务中获得隐含推论能力,但泛化能力有限

举报

  • 相关推荐
  • OpenAI发布GPT-5-Codex:可完成7小时单次编程任务

    OpenAI宣布推出新一代AI编程模型GPT-5-Codex,其最大亮点是创新的动态时间分配系统。 不同于传统AI追求秒级响应”,该模型可根据任务复杂度灵活调整处理时长,从数秒到7小时不等,以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称,传统模型在任务初期即固定计算资源,而GPT-5-Codex能实时评估需求:动态决定加速推进、暂停语法核�

  • AI日报:快手推出AI视频制作助手Kwali;字节跳动推出USO模型;OpenAI推出ChatGPT开发者模式

    本文介绍了AI日报栏目,聚焦AI领域最新动态。快手推出Kwali视频助手,简化视频制作流程;字节跳动发布USO模型,解决图像生成中风格与主题的矛盾;微软推出Copilot Audio音频模式,提供个性化语音交互;Stability AI升级Stable Audio 2.5,支持高质量音频生成;阿联酋推出开源大模型K2 Think,拥有320亿参数;微信上线智能回复功能,提升公众号运营效率;OpenAI推出ChatGPT开发者模式,支持AI控制外部工具;字节跳动Seed团队发布AgentGym-RL框架,提升语言模型决策能力;月之暗面开源Checkpoint Engine中间件,优化LLM推理效率;B站开源IndexTTS-2.0文本转语音系统,支持情感与时长控制;Replit推出Agent 3编程助手,自主性提升10倍。

  • AI日报:抖音打击AI技术滥用行为;OpenAI 收购开发数据分析平台 Statsig;ElevenLabs 音效模型更新

    抖音打击AI技术滥用行为,对违规商家和达人采取下架、清退等措施。ElevenLabs音效模型升级至版本2,支持长音频和无缝循环。OpenAI收购数据分析平台Statsig,增强产品迭代能力。亚马逊推出Lens Live AI功能,实时扫描购物。谷歌AI推出Stax工具,帮助开发者评估大语言模型。WordPress推出AI工具Telex简化网站构建。Liquid AI发布LFM2-VL模型,提升手机视觉语言处理。苹果开源FastVLM与MobileCLIP2模型,优化边缘设备AI应用。MetaGPT推出自动化测试工具RealDevWorld,精准率达92%。瑞士发布开源大模型Apertus,提供多语言处理能力。

  • AI日报:苹果明年推出SiriAI搜索;OpenAI放开ChatGPT Projects功能;Kimi K2-0905 上线 Discord

    本文汇总了AI领域最新动态:苹果与谷歌合作,计划在Siri中引入Gemini AI技术;OpenAI向免费用户开放Projects功能,提升任务管理效率;谷歌推出免费Gemini CLI工具,集成GitHub提升开发效率;OpenAI估值飙升至5000亿美元,二级股票售出103亿美元;苹果自研AI搜索引擎“世界知识问答”计划2026年上线;月之暗面发布Kimi K2-0905模型,提升编程与创意写作能力;Raycast推出Cursor Agent插件优化代码编辑;谷歌发布nano banana官方Prompt模板,助力创意设计。

  • Nano Banana更像是AI图像领域的DeepSeek

    这是《窄播Weekly》的第66期,本期我们关注的商业动态是:Google最新的AI图像生成模型Nano Banana,可能会给AI图像领域带来一场应用大爆炸。 去年这个时候,我想把照片中人物手里拿的玩具火车换成玩具飞机,还需要给玩具火车做出精细标记,找到干净的玩具飞机图片,告诉AI将其替换成另一张图里的飞机。我花费一个小时,多番尝试下来,飞机会变形,人物的手会消失,最后的�

  • 赫力昂联合Springer Nature旗下自然定制揭秘大脑抗衰

    全球老龄化加速,大脑健康成为焦点。9月16日是中国脑健康日,9月21日是世界阿尔茨海默病日。数据显示,2020至2023年全球60岁以上人口增长40%,达14亿;中国60岁以上人口超3亿,占比22%。阿尔茨海默病带来的经济负担约占GDP的1.47%。科学界正探索维持大脑年轻态的机制,企业合作举办高峰论坛,专家分享前沿研究成果,强调40-60岁是干预黄金窗口期。复合维生素矿物质等营养干预手段显示认知改善潜力,未来需跨学科协作推动大脑抗衰研究普及。

  • 魅族StarV Snap AI拍照眼镜发布:售价1999 元起

    今日下午魅族22新品发布会上,一款名为StarV Snap的AI拍摄眼镜成为全场焦点。这款突破传统智能眼镜形态的产品以39克超轻人因工学设计惊艳亮相,通过50项人体工程学优化实现重量均匀分散,彻底解决"丑、重、硌"的行业痛点,鼻梁、耳部无压迫感的设计支持全天候舒适佩戴。 外观采用经典框型设计,磨砂质感镜框不仅时尚百搭适配多种脸型,更具备防指纹沾染特性,

  • 软通华方亮相华为全联接大会2025,重磅发布“FunAI³”战略

    2025年9月18日,第十届华为全联接大会在上海开幕,聚焦“跃升行业智能化”主题。软通动力旗下品牌软通华方全新亮相,发布“FunAI³”战略,以“智算筑基、智聚生态、智业深耕”三大路径推动智能算力发展。该战略通过软硬一体全栈智能能力,致力于成为领先的全场景智算产品及服务提供商,赋能千行百业数字化转型升级。

  • OpenAI发布语音模型GPT-realtim:具备情感感知能力 多语言无缝切换

    OpenAI正式发布语音模型GPT-realtime。 据介绍,GPT-realtime是一款专注于语音AI Agent的多模态模型,能够生成高度自然流畅的语音,精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解,并可结合语音或文本对话使用,非常适合应用于客服、教育、金融、医疗等领域,用于构建高质量的语音智能体。 官方表示,新模型在复杂指令遵循、工具精确调用以及生成更自然、�

  • AI日报:国产版Nano Banana?即梦图片4.0发布;阿里巴巴发布 Qwen3-Max-Preview;上海重磅发布AI广告扶持政策

    AI日报栏目聚焦人工智能领域最新动态。主要内容包括:即梦图集4.0发布,新增文生图、图像编辑等功能;阿里巴巴推出超万亿参数语言模型Qwen3-Max-Preview;小米AI眼镜上线支付宝“看一看”支付功能;微软开源14B参数模型rStar2-Agent在数学推理领域表现突出;MiniMax启动股权激励计划覆盖核心员工;谷歌明确Gemini使用限制,免费用户每日最多5次提示;上海发布AI广告扶持政策,最高补贴500万元。这些进展展示了AI技术在图像处理、语言模型、智能支付等领域的创新应用。

今日大家都在搜的词: