首页 > 业界 > 关键词  > ​OpenAI最新资讯  > 正文

AI日报:​豆包视频生成模型正式发布;腾讯推“养老”机器人小五;中科大推人像视频编辑神器PortraitGen

2024-09-24 15:10 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、字节跳动豆包视频生成模型正式发布 支持多镜头视频一致性生成

豆包·视频生成模型今日发布!火山引擎总裁谭待表示,豆包·视频生成模型在视频生成方面具有多项先进性能,包括精准的语义理解、多动作多主体交互、强大的动态效果和一致性多镜头生成能力。

【AiBase 提要:】

🆕 新发布的豆包视频生成模型具备多种视频生成能力,主要有PixelDance和Seaweed两个版本。

🎥 模型支持多镜头切换和动态效果,保持一致性。

🌈 模型支持包括黑白、3D动画、2D动画、国画等多种风格,适配不同屏幕比例。

2、OpenAI 官方账号被黑,竟推广虚假加密货币!

近日,OpenAI 官方账号在社交平台遭到黑客攻击,发布虚假加密货币广告。这一事件提醒我们网络安全问题严峻,需保持警惕,避免成为诈骗受害者。

image.png

【AiBase提要:】

🚨 虚假广告事件:OpenAI 官方账号遭黑客攻击,发布虚假加密货币广告。

🔒 网络安全警示:用户需提高警惕,不轻信陌生链接和信息,避免上当受骗。

💻 删除推文回应:推广加密货币推文已删除,账号回应评论关闭,提醒大家注意恶意链接。

3、腾讯Robotics X实验室推出人居环境机器人“小五”

腾讯Robotics X实验室最新推出的人居环境机器人“小五”具有革新性设计和智能控制系统,成为家庭中不可或缺的助手。其灵活性和感知能力使其能够在多种环境中自如移动并理解人类需求。未来,这一创新产品将引领智能家居行业发展,智能机器人将成为日常生活中必不可少的成员。

image.png

【AiBase提要:】

🤖 小五采用四腿轮足复合结构,具备快速移动速度和对不平整地形的适应能力。

🧠 小五智能控制系统通过全局定位和建图系统实时感知周围环境,避开障碍物实现安全自主运动。

🏡 小五具备先进的多模态人机交互技术,能理解并预测人类行动需求,成为家庭生活中灵活、高效的工作伙伴。

4、中国科学技术大学出品!AI人像视频编辑工具PortraitGen:风格化、换衣、修改光照通通搞定

中国科学技术大学的研究团队推出了名为PortraitGen的创新视频编辑工具,可实现多模态的人像编辑,编辑速度快,编辑效果流畅。特别的面部意识编辑模块提升表情质量,保留个性化特征,展现强大潜力。

image.png

【AiBase提要:】

✨ PortraitGen仅需30分钟将2D人像视频编辑为4D高斯场,支持每秒100帧的流畅播放。

🎨 提供多种编辑方式,包括文本驱动和图像驱动,视频风格变换更加灵活多样。

💡 通过面部意识编辑模块,提升表情质量,并保留用户个性化的面部特征。

详情链接:https://top.aibase.com/tool/portraitgen

5、PDF一键转播客!PDF2Audio让文档开口说话

在信息爆炸的时代,PDF2Audio是一款开源工具,利用人工智能技术将PDF文档转换为多种音频形式,如播客、讲座或摘要,为用户提供全新的信息获取方式。工具设计考虑用户需求,支持批量处理文档,提供多种内容模板,个性化选择GPT模型和语音风格,提供草稿编辑和反馈迭代功能。采用Gradio接口,降低使用门槛,让更多用户享受AI便利。

image.png

【AiBase提要:】

🔊 PDF2Audio将PDF文档转换为多种音频形式,如播客、讲座或摘要,提供全新信息获取方式。

📚 工具设计考虑用户需求,支持批量处理文档,提供多种内容模板,包括播客、讲座和摘要。

🎵 用户可个性化选择GPT模型和语音风格,提供草稿编辑和反馈迭代功能,确保生成内容质量。

详情链接:https://huggingface.co/spaces/lamm-mit/PDF2Audio

6、强的离谱!Leonardo AI推图片高清放大神器

Leonardo AI推出的高清放大功能速度更快更便宜,效果惊人。通过X博主James Yeung和另一位博主Dogan Ural的分享视频,展示了夜景下建筑和家具的清晰放大效果,甚至可以看到沙发上抱枕的纹路。值得一试!

【AiBase提要:】

🔍 Leonardo AI推出高清放大功能,速度更快更便宜。

🏙️ 夜景下建筑在高清放大后变得更清晰,甚至可以看到大楼里的人和家具。

🛋️ 放大64倍后的图像效果惊人,可以清楚地看到沙发上抱枕的纹路。

详情链接:https://top.aibase.com/tool/leonardoai

7、AI巨头暗战升级:Claude3.5Opus、Gemini2蓄势待发

人工智能领域正迎来一场激烈的较量,Anthropic公司融资动向引发广泛关注。Claude3.5Opus和Gemini2的竞争备受瞩目,AI革命即将迎来新阶段。

1.jpg

【AiBase提要:】

🔥 Anthropic公司寻求新一轮融资,估值目标高达300亿到400亿美元,投资者对AI技术发展信心十足。

💰 Anthropic已获得76亿美元投资,亚马逊是最大投资方,融资将使其成为AI初创公司估值王。

⚙️ Anthropic加速推出最新版本Claude3.5Opus,Gemini阵营也蓄势待发,AI行业竞争激烈。

8、OpenAI CEO预测:人类可能在“几千天”内实现超级智能 AI

Sam Altman在个人博客中展望AI驱动的技术进步和全球繁荣未来,预测超级智能AI可能在未来十年内出现。他强调降低计算成本和基础设施建设的重要性,称当前时代为“智能时代”,预言AI将带来深远社会变革。

image.png

【AiBase提要:】

🌐 超级智能AI可能在未来几千天内实现,OpenAI全力以赴

🔍 降低计算成本和基础设施建设是推动AI普及的关键

🚀 当前时代被称为“智能时代”,将带来深远的社会变革

9、OpenAI 重磅发布多语言 AI 数据集,推动全球语言平等

OpenAI 最近推出了名为“多语言大规模多任务语言理解”(MMMLU)数据集,旨在评估人工智能在14种语言中的表现。该举措填补了AI研究中对低资源语言的关注空白,为全球用户提供更好的AI互动体验。同时,OpenAI还推出了OpenAI Academy项目,支持低收入国家AI开发者的成长和发展。

image.png

【AiBase提要:】

🌍 OpenAI发布MMMLU数据集,涵盖14种语言,推动多语言AI的研究和应用。

💡 数据集由专业人类翻译制作,确保高准确性,尤其适用于高要求的行业。

🧑‍🏫 OpenAI Academy推出,提供支持以促进低收入国家AI开发者的成长和发展。

详情链接:https://huggingface.co/datasets/openai/MMMLU

10、OpenAI推出AI学院计划

OpenAI推出OpenAI Academy,旨在投资开发者和组织,利用人工智能解决难题,促进经济增长。该计划支持本地AI人才培养,促进全球卫生、农业、教育和金融等行业的发展。

image.png

【AiBase提要:】

🌟 OpenAI推出AI学院,全球范围内投资AI开发者和组织

🚀 提供培训、API积分和社区建设,促进经济增长和技术创新

🌐 支持本地AI人才培养,促进全球卫生、农业、教育和金融等行业的发展

11、研究发现,AI语音模型在归纳推理中表现出色,在演绎任务中“碰壁”

这篇文章深入探讨了大型语言模型在归纳推理和演绎推理方面的挑战。研究结果显示,模型在归纳推理方面表现优秀,准确率接近100%,但在演绎推理,特别是处理反事实任务时遇到困难。另一项研究则考察了Transformer模型在逻辑推理能力方面的表现。

【AiBase提要:】

🌟 归纳推理方面表现出色,准确率接近100%

🧩 演绎推理仍然是挑战,尤其在处理反事实任务时

🔍 Transformer模型在组合任务中获得隐含推论能力,但泛化能力有限

举报

  • 相关推荐
  • OpenAI和微软的关系没那么糟,跟英伟达也没那么好

    OpenAI的动作比所有人想象的都要快。 上周二,OpenAI完成重组。其中一个重要变化是:彻底取消了与微软的排他性协议,结束了Azure长达六年的云服务独占模式。此前,OpenAI所有模型的训练、推理与部署都必须优先选择Azure,微软还享有优先购买权。 宣布与Azure“分手”后不到一周,OpenAI便火速宣布了与AWS的战略合作——双方达成一项价值380亿美元的云计算协议,OpenAI将全面接入

  • OpenAI也来了,巨头为何决战AI浏览器?

    AI浏览器赛道再添一位重量级玩家——ChatGPT Atlas,这是OpenAI推出的首款人工智能驱动的网页浏览器。 这也被外界认为OpenAI要向谷歌宣战,挑战Chrome一直以来的浏览器霸王地位。ChatGPT Atlas发布当天,谷歌母公司Alphabet股价应声下挫,盘中最大跌幅接近5%,足见市场对这一新品的敏感度。 近一年来,AI浏览器的战略价值成为行业共识,从业者更是将其与智能代理(Agent)、搜索引�

  • 人工智能巨头OpenAI拟上市 估值或高达1万亿美元

    OpenAI正积极推进上市计划,据知情人士透露,该公司可能最早于2026年下半年向证券监管机构提交上市申请,目标在2027年正式上市。 此次IPO的估值有望达到约1万亿美元,或将跻身全球规模最大的IPO之列。 在初步讨论中,OpenAI曾考虑通过上市筹集至少600亿美元资金,实际融资规模可能进一步扩大。

  • OpenAI 推出浏览器:“让位吧,Chrome”

    ​北京时间10月22日凌晨,没等来传闻中的Gemini3,等来了OpenAI正式发布首款AI浏览器ChatGPT Atlas。 简单来说,这是一个把ChatGPT"塞进"浏览器的产品,你在任何网页上都能随时唤出ChatGPT侧边栏,让AI帮你总结内容、编辑文字、甚至代替你完成购物和预订任务。 听起来有点像Chrome装了个ChatGPT插件?确实如此,但OpenAI的野心远不止于此。

  • OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

    OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas,以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动,实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS,未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用,其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史,旨在通过自然对话提升网络使用效率。

  • AI日报:OpenAI发布浏览器Atlas;通义Qwen3-VL新增2B、32B两个模型尺寸;百川发布循环证据增强大模型

    本文汇总AI领域最新动态:OpenAI推出集成ChatGPT的Atlas浏览器,实现多任务自主处理;阿里通义千问新增2B/32B视觉语言模型,手机可流畅运行;谷歌AI Studio升级Vibe Coding功能,简化应用开发流程;百川发布医疗大模型M2Plus,通过循证推理降低误诊率;奇瑞墨甲机器人实现L3级技术突破,计划多行业应用;YouTube推出AI肖像识别工具,打击虚假内容;三星宣布2026年推出AI眼镜,融合AR与语音助手;Claude客户端更新,支持截图分析和语音交互功能。

  • AI日报:视觉中国与多家大模型公司达成合作;OpenAI紧急暂停Sora生成已故名人;谷歌推出Gemini地图数据集成工具

    视觉中国与多家AI公司合作开发可商用视觉大模型,已获阿里、微软等订单。OpenAI因不当内容暂停Sora生成马丁·路德·金形象视频,引发AI伦理讨论。DeepSeek在加密货币交易实验中表现领先。WhatsApp将禁止第三方通用AI聊天机器人,仅保留Meta AI。宇树科技推出仿人机器人Unitree H2,具备拟人化设计。谷歌为Gemini集成地图数据工具,可访问25亿地点实时信息。Opera推出集成三款AI助手的Neon浏览器,但用户体验存在困惑。Facebook在美加推出AI照片编辑建议功能,可分析手机未分享照片。

  • 登榜LMArena!文心大模型5.0-Preview文本能力国内第一

    11月8日,文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出,超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容;复杂长问题理解适用于学术问答、报告分析等任务;指令遵循能力支持智能助理、代码生成等场景,为多领域内容生产提供高效支撑。

  • “全网最像夫妻”回应被建议测DNA:做过婚检

    近日抖音账号为广东土夫妇”的一对夫妻走红网络。 视频中的这对夫妻戴着同款假发,穿着同款衣服,被网友称为全网最像夫妻”。有网友表示比双胞胎还像”,还有网友建议去验个DNA”。 对此,当事人回应称两人在领证时做过婚检,应该会检查到这一块。 研究显示,夫妻相处越久,面部特征就会

  • 微算法科技(NASDAQ MLGO):以隐私计算区块链筑牢多方安全计算(MPC)安全防线

    微算科技开发的隐私计算区块链将区块链技术融入多方安全计算(MPC),构建安全可信的分布式计算平台。通过区块链共识机制、加密算法和智能合约,对MPC参与方身份验证、数据加密存储、任务执行及结果验证等环节进行保护,确保数据“可用不可见”。该技术显著提升数据隐私保护和计算可靠性,在金融、医疗、政务等领域实现跨主体数据安全协作,释放数据价值。

今日大家都在搜的词: