首页 > 业界 > 关键词  > GPT-4.5最新资讯  > 正文

今日AI:GPT-4.5意外曝光可能6月发布、UP主借AI识别情绪播放量186万、全球AI程序员诞生

2024-03-13 14:54 · 稿源:站长之家

欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

📢一分钟速看版

▶OpenAI的GPT-4.5Turbo意外曝光,可能6月发布

▶全球首个AI程序员诞生 码农饭碗被砸

▶become-image:人物照片+参考照片可生成目标风格人物照

▶Paper-Piano纸上钢琴:只需一纸就能演奏钢琴

▶全球首部AI生成长电影首映门票售罄

▶B站UP主借AI识别情绪整活《亮剑》名场面播放量186万

▶DragAnything:拖动锚点精准控制视频物体和镜头运动

▶Llama-3基础训练设施公开,用了4.9万个H100

📰🤖📢AI新鲜事

OpenAI的GPT-4.5Turbo意外曝光,可能6月发布

image.png

【AiBase提要:】

- 💡 OpenAI 的 GPT-4.5Turbo 被泄露,搜索引擎如 Bing 和 DuckDuck Go 在官方公告前索引了产品页面。

- 💡 GPT-4.5Turbo 被描述为 OpenAI 迄今最快、最准确、最可扩展的模型,具有256,000个token的上下文窗口。

- 💡 传言GPT-4.5Turbo 可能具有视频或3D 功能,但泄露的信息并未提及。

详情:https://www.chinaz.com/2024/0313/1603010.shtml

全球首个AI程序员诞生 码农饭碗被砸

【AiBase 提要:】

⚡ 全球首位 AI 软件工程师 Devin 诞生,掌握全栈技能,云端部署、底层代码、训练和微调 AI 模型。

⚡ Cognition 公司打造 Devin,开发团队拥有10块 IOI 金牌,震撼全网,影响深远。

⚡ Devin 的能力强大,能规划复杂工程任务、构建应用程序、自主查找代码库错误、训练微调 AI 模型。

详情:https://www.chinaz.com/2024/0313/1603012.shtml

谷歌限制Gemini回答与选举相关的查询

【AiBase提要:】

- 🤖 Google 限制 AI 聊天机器人 Gemini 回答与今年将在多个国家举行的选举有关的查询。

- 🌍 这一决定是为了减少在技术部署中潜在的错误。

- 🇺🇸 除美国外,还有几个大国计划进行全国选举,包括南非、俄罗斯和印度。

详情:https://www.chinaz.com/2024/0313/1603006.shtml

全球首部AI生成长电影首映门票售罄

image.png

【AiBase提要:】

🎬 "Our T2Remake":全球首部完全由AI生成的电影,翻拍《终结者2》,在洛杉矶首映,引起热议。

🤖 电影内容:AI电影以OpenAI、ChatGPT和AGI为主题,由50位艺术家合作创作,使用多种AIGC工具完成。

🔄 网友反应:社交平台上网友对电影评价较少,一些人评论讽刺,用AI制作反AI的电影,具有讽刺意味。

详情:https://www.chinaz.com/2024/0313/1602989.shtml

B站UP主借AI识别情绪整活《亮剑》名场面播放量186万

image.png

【AiBase 提要:】

⭐️ B 站 UP 主 “佛辣西威” 用《亮剑》片段制作 AI 识别情绪视频。

⭐️ 视频播放量达186万,吸引众多网友关注,形成 “梗上加梗” 场面。

⭐️ 利用AI情绪识别技术,UP主在经典剧场面中加入戏剧性和幽默感,增加了视频趣味性。

详情:https://www.chinaz.com/2024/0313/1602977.shtml

Llama-3基础训练设施公开,用了4.9万个H100

image.png

【AiBase提要:】

⭐️ Meta 发布两个24KH100GPU 集群,也就是用了49152个H100用于 Llama-3大模型训练

⭐️ Llama-3采用 RoCEv2网络和 Tectonic/Hammerspace 的 NFS/FUSE 网络存储

⭐️ 预计 Llama-3将于4月末或5月中旬上线,将拥有600,000个 H100算力

详情:https://www.chinaz.com/2024/0313/1602961.shtml

2024生成式AI及AIGC应用洞察报告 国内前十AI应用月活用户5000万

【AiBase提要:】

📊 国内前十AI应用月活用户达5000万,相当于ChatGPT日活用户量;

👫 用户性别失衡,男性占比超75%,年龄主要25-35岁;

📈 抖音豆包三个月超越百度文心,月活用户增长40%;

📉 头部AI应用用户活跃率仅约10%,3日留存率平均30%;

🌟 微博和B站在AI内容平台表现突出,TGI接近200。

报告地址:https://qqi2gjmnk4.feishu.cn/wiki/WW53wXigRiEYwvklDCzc3iZVnUh

🤖📱💼AI应用

become-image:人物照片+参考照片可生成目标风格人物照

image.png

【AiBase 提要:】

⭐️ 只要上传一张人物照片和一张参考风格的照片就可以将任何人脸图片转换成另一种风格的图像。

⭐️ 可调节生成图片的相关参数,包括保留原始人脸图像的程度、强度控制以及样式应用等。

⭐️ 可以选择添加一些特殊效果,如控制生成图片的噪声程度、固定随机种子以确保再现性等。

项目入口:https://top.aibase.com/tool/cog-become-image

试玩地址:https://replicate.com/fofr/become-image

Deepgram Aura:实时文本转语音API,低于 250 毫秒

image.png

【AiBase 提要:】

⏰ 低延迟:响应不超过 250 毫秒。

💬 自然对话:人类般流畅自然,动态调整音调和情绪。

🔄 实时互动:支持与人类的实时信息交换。

体验入口:https://aura-tts-demo.deepgram.com/

项目网址:https://github.com/deepgram-devs/deepgram-conversational-demo

快手出品!DragAnything:拖动锚点精准控制视频物体和镜头运动

image.png

⭐️ 快手科技联合浙大研究团队提出了 DragAnything 方法,利用实体表示实现了对任何物体的运动控制。

⭐️ 可以精确控制物体的运动,生成高质量视频,用户只需在交互过程中绘制一条轨迹。

⭐️该技术技术还可以同时对多个对象实现不同的运动控制。

项目入口:https://top.aibase.com/tool/draganything

Paper-Piano纸上钢琴:只需一纸就能演奏钢琴

image.png

【AiBase提要:】

🎹 纸上钢琴,不需要购买真实钢琴,只需一张纸就能演奏音乐。

📹 项目支持最多2个手指,未来将支持更多手指及高度敏感的训练模型。

🛠️ 利用网络摄像头跟踪用户的手指移动,通过识别手指在纸上的位置来模拟钢琴键的按压。

项目入口:https://top.aibase.com/tool/paper-piano

MDTv2开源,Sora 核心组件 DiT 训练提速10倍

【AiBase 提要:】

⭐️ 颜水成 / 程明明团队发布最新版本的论文和代码,开源 Masked Diffusion Transformer V2。

⭐️ 提出 Masked Diffusion Transformer V2在 ImageNet 上达到1.58的 FID score。

⭐️ 利用 mask modeling 表征学习策略大幅加速 DiT 的训练速度。

论文地址:https://arxiv.org/abs/2303.14389

项目入口:https://top.aibase.com/tool/masked-diffusion-transformer-mdt-

AI 图片橡皮擦来了!SPM实现精准擦除特定内容,还能改头换面

image.png

【AiBase 提要:】

⭐️ AI 图片橡皮擦技术,可以精准擦除特定概念,保留其他生成内容。

⭐️ 概念半透膜模型 (SPM),可在 Diffusion 架构的 AI 作图模型中实现概念擦除。

⭐️ SPM 技术框架包括轻量化 Adapter、微调策略和动态适配,提高模型擦除效果。

项目入口:https://top.aibase.com/tool/spm

今AI绘画提示词:自拍少女

3_1710308272314_ai2023_Photography_photo_collectionA_beautiful_18-year-old_Chin_e2359193-09fc-4533-bbed-096310acfb7b.png

图源备注:图片由AI生成,图片授权服务商Midjourney

提示词:Photography photo collection,A beautiful18-year-old Chinese girl is holding her phone and taking selfies in front of the camera. She is wearing a Korean white college style sweater, paired with a light blue checkered skirt, and wearing a light blue felt beret on her head, with a well-designed layout --ar16:9--v6.0--style raw

举报

  • 相关推荐
  • 大家在看
  • Unskool:家长支持工具,助力家庭教育

    Unskool是一个由家长为家长制作的辅助工具,旨在简化家庭教育过程。它通过去除繁琐的行政工作,让家长能够专注于创造一个丰富的学习环境,让家长和孩子都能茁壮成长。Unskool提供了跟踪、记录和灵感激发的功能,并通过人工智能生成定制的、按需的课程计划,帮助家长更高效地进行家庭教育。

  • AI Generated Diagram:智能生成图表工具

    AI Generated Diagram 是一款利用人工智能技术生成图表的工具。它通过用户输入的提示(prompts)来创建图表,支持多种布局类型,如水平布局(Horizontal)。用户可以通过编辑、配置等操作来调整图表的细节,并支持导出为SVG格式或导出数据。该工具不仅提高了设计图表的效率,还通过AI技术提升了图表的美观度和准确性。

  • Free AI Image Extender:使用人工智能扩展图像边界

    AI Image Extender 是一款利用人工智能技术扩展图像边界的工具,通过生成新内容与现有图像无缝融合,增强图像的视觉延展性。该产品通过先进的AI算法,能够智能识别图像内容并生成自然过渡的扩展区域,适用于需要图像扩展或背景生成的各种场景。

  • Capacities:一个为你的思维打造工作室的APP

    Capacities是一个旨在改善人们思考方式和工作流程的应用程序。它通过使用对象而非传统文件和文件夹来组织信息,帮助用户更直观地理解和连接复杂的信息结构。该应用支持网络化笔记,使用户能够自然地构建信息网络,激发新的创意。Capacities还提供AI助手,帮助用户与笔记中的对象动态互动,并提高写作质量。此外,该应用注重数据安全和隐私保护,符合GDPR标准,数据存储在欧盟的加密服务器上。

  • CLASI:高质量、类人同声传译系统

    CLASI是一个由字节跳动研究团队开发的高质量、类人同声传译系统。它通过新颖的数据驱动读写策略平衡翻译质量和延迟,采用多模态检索模块来增强特定领域术语的翻译,利用大型语言模型(LLMs)生成容错翻译,考虑输入音频、历史上下文和检索信息。在真实世界场景中,CLASI在中英和英中翻译方向上分别达到了81.3%和78.0%的有效信息比例(VIP),远超其他系统。

  • image-matting:AI抠图项目,使用开源模型实现图像抠图。

    image-matting 是一个基于开源模型 briaai/RMBG-1.4 的AI抠图项目。该项目旨在通过学习AI技术、GUI开发、前端学习以及i18n国际化等技术,实现本地模型算法的图像抠图功能。它支持单张和批量抠图,用户可以通过拖拽和粘贴的方式快速进行图像处理。项目还提供了打包后的运行文件下载链接,方便用户使用。

  • OnlyPans:AI定制周晚餐计划

    OnlyPans是一个利用人工智能技术为用户提供定制化晚餐计划的应用程序。它通过与用户的简短聊天来了解用户的预算、口味偏好、语言习惯、饮食限制以及日常生活的忙碌程度,然后快速生成符合用户需求的晚餐计划。随着用户使用时间的增长,OnlyPans会不断学习和优化,提供更加个性化的服务。此外,OnlyPans还提供智能购物清单功能,帮助用户避免食品浪费和不必要的紧急购物。OnlyPans注重用户隐私保护,承诺不会出售用户的任何信息。

  • Excel Dashboard AI:将Excel转换为仪表板和报告的AI工具。

    Excel Dashboard AI是一款利用人工智能技术,将Excel数据快速转换为交互式仪表板和分析报告的工具。它通过自然语言处理能力,允许用户以对话形式与数据进行交流,从而迅速获得洞察。产品的主要优点包括快速生成多样化的数据分析维度、自然语言编辑和锁定分析视角、一键生成交互式仪表板、AI解读图表含义以及将仪表板转换为详尽的分析报告等。

  • 清影 AI 视频生成服务:基于 AI 技术生成视频内容的智能服务。

    清影 AI 视频生成服务是一个创新的人工智能平台,旨在通过智能算法生成高质量的视频内容。该服务适合各种行业用户,能够快速便捷地生成富有创意的视觉内容。无论是商业广告、教育课程还是娱乐视频,清影 AI 都能提供优质的解决方案。该产品依托于先进的 GLM 大模型,确保生成内容的准确性与丰富性,同时满足用户个性化需求。提供免费试用,鼓励用户探索 AI 视频创作的无限可能。

  • Tempest AI:无需编码,10分钟构建游戏

    Tempest AI是一个无需编码即可快速构建游戏的平台。它利用强大的AI助手帮助用户从零开始创建游戏,支持动态角色、适应性任务和互动世界。用户可以通过拖放编辑器构建世界,设计游戏机制,并通过故事构建器控制游戏叙事。Tempest AI不仅适合游戏开发者,也适合那些希望探索创意和互动叙事的爱好者。

  • UIQuill:AI辅助的Figma设计文本工具

    UIQuill是一个为Figma设计的上下文感知文本工具,利用最新的AI技术为设计内容提供优化和上下文适当的文本建议。它能够理解设计的功能、风格、语气和长度,生成无缝融入设计的文本,支持单层文本、组合、框架或整个页面的优化建议。UIQuill还支持SEO优化文本,提升设计内容的搜索排名。

  • Viral Insight:预测视频内容的传播性

    Viral Insight 是一款 AI 应用程序,能够预测视频内容的病毒传播性。用户可以上传视频信息,几秒钟内即可获得预测结果。这款产品是 Buildspace 项目的一部分,旨在帮助内容创作者了解其视频内容在发布前可能的传播效果。

  • OpenPlexity Pages:AI驱动的内容创作引擎,开源替代方案。

    OpenPlexity Pages是一个由AI驱动的内容创作引擎,旨在将您的研究转化为视觉吸引、全面的内容。它是一个开源的替代品,与Perplexity Pages不同,它完全开源,允许社区贡献和定制。它注重隐私,数据本地运行,保证您的研究和内容保持私密。此外,它还具有可定制性,可以调整内容的语调以吸引目标受众,从普通读者到主题专家。它还具有适应性,可以轻松修改文章的结构,添加、重新排列或删除部分以最好地适应您的材料。

  • Modern Realty:智能购房助手,简化房产搜索流程。

    Modern Realty是一个提供AI购房代理服务的网站,旨在通过人工智能技术简化购房者的房产搜索、市场分析、报价撰写等流程。该平台通过提供市场分析、披露分析、报价撰写等服务,帮助用户更高效地进行房产交易。

  • Udio v1.5:音乐创作的先进模型,提供高质量音频和创新功能。

    Udio v1.5是一个音乐创作平台的高级版本,它在v1的基础上进行了多项改进,包括提高音质、提供音调控制、改善全球语言支持等。它生成48kHz立体声轨道,提供更清晰的音质和更好的乐器分离度。此外,Udio v1.5还提供了一系列新功能,如专用创作页面、音轨下载、音频转音频混音、可分享的歌词视频等,旨在进一步赋能音乐创作者。

  • ComfyUI-LivePortraitKJ:为LivePortrait提供的ComfyUI节点

    ComfyUI-LivePortraitKJ是一个开源项目,通过ComfyUI节点为LivePortrait提供支持。它允许用户在实时视频和图片中实现面部特征的捕捉和动画效果,支持多种面部检测技术,包括Insightface和MediaPipe。该项目采用MIT许可证,提供了更好的Mac支持,并优化了性能和效率,允许在ComfyUI环境中实现接近实时的视图体验。

  • RoboflowSports:用于体育分析的计算机视觉工具集

    roboflow/sports 是一个开源的计算机视觉工具集,专注于体育领域的应用。它利用先进的图像处理技术,如目标检测、图像分割、关键点检测等,来解决体育分析中的挑战。这个工具集由Roboflow开发,旨在推动计算机视觉技术在体育领域的应用,并通过社区贡献不断优化。

  • 问问小宇宙:探索话题,分享知识,播客平台

    问问小宇宙是一个播客平台,旨在为用户提供一个探索各种话题的空间,分享知识,增进理解。产品以轻松有趣的方式,让听众在日常生活中也能接触到历史、理财、体育等多元化内容。

  • SearchGPT:结合AI与实时网络信息,提供快速准确的搜索答案。

    SearchGPT是OpenAI测试中的一个新AI搜索功能原型,它结合了AI模型的强大能力与网络信息,为用户提供快速、及时且来源清晰的答案。该原型目前仅向一小群用户和出版商开放,以获取反馈。SearchGPT旨在通过实时网络信息增强模型的对话能力,使寻找答案变得更快、更易。它还能让用户像与人对话一样提出后续问题,共享上下文随着每个查询而建立。OpenAI致力于与出版商和创作者建立繁荣的生态系统,通过突出显示高质量内容并提供多个用户参与机会的对话界面来增强搜索体验。

  • PC Agent:AI驱动的个人电脑助手

    PC Agent是一款利用人工智能技术,通过屏幕内容和音频转录来理解用户的电脑环境,从而提供更加精准的辅助服务。它旨在解决当前聊天机器人的局限性,通过更深层次的交互提升用户体验。产品背景信息显示,PC Agent注重于提升个人电脑的使用效率,其主要优点包括智能理解环境、提供个性化帮助和持续的功能更新。

今日大家都在搜的词:

热文

  • 3 天
  • 7天