首页 > 业界 > 关键词  > Devin最新资讯  > 正文

AI日报:AI程序员Devin造假被抓;​Sora平替?StreamingT2V试玩地址公布;Udio AI还可以创作喜剧、演讲;XAI发布Grok-1.5Vision多模态模型

2024-04-15 16:11 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

🤖📱💼AI应用

Sora平替?2分钟超长AI视频模型StreamingT2V免费开源 试玩地址公布

2.png

【AiBase提要:】

⭐ StreamingT2V可以生成长达1200帧、时长2分钟的视频,超越了Sora模型

⭐ 采用先进的自回归技术,保持视频时间一致性和高质量

⭐ 它是一个免费开源的项目,可以无缝兼容SVD和animatediff等模型

⭐ 代码已发布,试玩地址也已上线。生成时间较久,一个视频预计要生成13分钟以上。

开源代码:https://top.aibase.com/tool/streamingt2v

论文地址:https://arxiv.org/pdf/2403.14773.pdf

试玩地址1:https://huggingface.co/spaces/PAIR/StreamingT2V

试玩地址2:https://replicate.com/camenduru/streaming-t2v

Udio AI提供多功能音频生成 还可以创作喜剧、演讲、电台广播等

image.png

【AiBase提要:】

⭐ Udio不仅可以创作音乐,还可以创作喜剧、演讲、NPC对话、体育分析、广告、电台广播、ASMR、自然音效等。

⭐ 简单的文字描述创作: 用户可通过简单文字描述指导Udio生成特定主题和情感的音乐作品。

⭐ 广泛的音乐类型和风格支持: Udio支持多种音乐类型和风格,满足不同用户的音乐品味。

感兴趣的可以点击播放列表查看:https://www.udio.com/playlists/deGuVDLYd9MrXtxnxfX7z1

体验地址:https://top.aibase.com/tool/udio

美图Wink“AI动漫”功能升级 可将短剧作品转化为动漫风格

微信截图_20240415085954.png

【AiBase提要:】

⭐ 近期美图Wink升级“AI动漫”功能,转化短剧作品为动漫风格。

⭐ 引入CFA模块,优化动作一致性,生成更流畅自然的动漫视频。

⭐ 分片技术处理长视频,减少等待时长,让创作更自如流畅。

StableDesign:适用于室内装修设计的SD方案 文字提示就可修改室内设计图

image.png

【AiBase提要:】

⭐️ 开发者创建了用于生成式室内设计的项目

⭐️ 通过下载爱彼迎房源数据和图像元数据,提取特征,实现训练

⭐️ 使用ControlNet和劳拉模型训练,实现室内设计生成的控制和文本到图像转换

在线体验:https://huggingface.co/spaces/MykolaL/StableDesign

比换脸更强大!SwapAnything:替换图片中的任意元素

image.png

【AiBase提要:】

🔍 SwapAnything框架具有精确控制对象和部分、保留上下文像素、适应个性化概念等优势。

🔍 通过定向变量交换和外观调整技术,SwapAnything展现了精确和忠实的交换能力。

🔍 SwapAnything能在图像中精确控制任意对象,实现高质量的个性化交换。

项目入口:https://top.aibase.com/tool/swapanything

AI延时视频生成工具MagicTime在线体验地址放出

image.png

【AiBase提要】

⭐ 时间延迟视频是摄影技术,展示长时间变化。

⭐ MagicTime能根据文本描述生成时间延迟视频。

⭐ 应用广泛,可记录自然现象和人为变化。

项目地址:https://top.aibase.com/tool/magictime

体验地址:https://huggingface.co/spaces/BestWishYsh/MagicTime

模型下载地址:https://huggingface.co/Kijai/MagicTime-merged-fp16

自动化写作工具STORM:可生成像维基百科一样的深度长篇内容

image.png

【AiBase提要:】

⭐️STORM自动搜集资料,模拟专家对话,生成结构化文章大纲。

⭐️STORM高效研究、整合多角度信息,促进深入理解和精准问题生成。

⭐️STORM生成文章大纲后,完整撰写、润色文章以提高整体质量。

项目地址:https://top.aibase.com/tool/storm

Meta 推出 ViewDiff 模型:文本生成多视角3D 图像

【AiBase提要:】

🌟 ViewDiff 解决了文本生成一致性、多视角3D 图像的三大难点

🌟 自回归生成模块使 ViewDiff 在任意视角上生成更多的3D 一致性图像

🌟 ViewDiff 填补了文本生成多视角3D 图像领域的技术空白

论文地址:https://arxiv.org/abs/2403.01807

项目地址:https://top.aibase.com/tool/viewdiff

📰🤖📢AI新鲜事

首个AI程序员造假被抓,Devin再次“震撼”硅谷!扒皮视频文字详解附上

图片

【AiBase提要:】

⭐️ 油管程序员揭露首个AI程序员Devin视频造假

⭐️ Devin演示不如实际神奇,修复bug自创bug

⭐️ 遭到疑问和打假,网友对AI产品炒作嗤之以鼻

详细内容:https://www.chinaz.com/2024/0415/1610127.shtml

马斯克XAI发布Grok-1.5Vision多模态模型,可处理文本和图片信息

image.png

【AiBase提要:】

⭐️ Grok-1.5Vision模型展现卓越性能,超越GPT4V。

⭐️ 在RealWorldQA基准测试中表现优异,理解真实世界物理空间。

⭐️ Grok-1.5Vision模型具有强大的现实世界空间处理和理解能力。

官网地址:https://top.aibase.com/tool/grok-1-5-vision-preview

360智脑7B参数大模型正式开源 最长支持约50万字输入

【AiBase提要:】

🧠360智脑7B参数大模型正式开源。

🧩 支持不同文本长度版本,最长可处理360K长文本。

🔥 在能力测试中表现出色,综合能力排名前三。

项目地址:https://github.com/Qihoo360/360zhinao

Adobe图像生成AI “Firefly” 训练集中约有5%为AI图像

【AiBase提要:】

⭐ Adobe Stock开始接受AI内容,约14%为AI生成图像。

⭐ 学者指出Firefly学习自Midjourney生成的图像,与其声称不同。

⭐ 用户表示对Adobe用其作品训练Firefly感到不满。

代码、模型全开源!贾佳亚团队多模态模型 Mini-Gemini登上热榜

image.png

【AiBase提要:】

⭐️ Mini-Gemini模型在多模态任务上取得显著成绩,开源代码和模型数据。

⭐️ Mini-Gemini结合图像理解和生成,展现出色图像推理能力。

⭐️ 采用Gemini视觉双分支信息挖掘方法,有效处理高分辨率图像并生成内容丰富的视觉和文本内容。

项目地址:https://top.aibase.com/tool/mini-gemini

试玩地址: https://103.170.5.190:7860/

面壁智能开源MiniCPM2.0系列模型 OCR等能力显著增强

【AiBase提要:】

⭐ MiniCPM-V2.0是端侧最强的多模态模型,具有强大的OCR能力。

⭐ MiniCPM-1.2B是适配端侧场景的基座模型,推理速度快成本低。

⭐ MiniCPM-2B-128K是目前最小的长文本模型,处理128K文本内容。

MiniCPM-V2.0:

https://github.com/OpenBMB/MiniCPM-V

MiniCPM系列开源地址:

https://github.com/OpenBMB/MiniCPM

MiniCPM技术Blog地址:

https://openbmb.vercel.app/?category=Chinese+Blog

竞争升温!ChatGPT增长疲软3月全球访问量17.7亿次,Claude逐渐崛起

【AiBase提要:】

📉 ChatGPT全球访问量增长放缓,尽管推出新功能。

🚀 Anthropic的Claude在欧洲市场蓬勃发展,加剧与ChatGPT的竞争。

💥 Claude3发布后持续快速增长,显示新产品潜力。

InstantID团队推新风格迁移方法InstantStyle 一键置身“梵高星空”

image.png

【AiBase提要:】

⭐️特征相减:利用CLIP模型的特性,通过特征相减去除内容信息,实现风格和内容解耦。

⭐️仅风格层注入:在特定风格层完成特征注入,实现风格和内容解耦。

⭐️通用性强:InstantStyle的方法具有通用性,提供丰富代码实现,支持多种应用场景。

项目地址:https://top.aibase.com/tool/instantstyle

在线试玩:https://huggingface.co/spaces/InstantX/InstantStyle

——————

每日midjourney prompt:小说古风美女

2_1713162496656_ai2023_A_beautiful_woman_from_ancient_China_dressed_in_a_gorgeo_a8915415-91c6-458e-b123-27e4d3fb15f6.png

图源备注:图片由AI生成,图片授权服务商Midjourney

A beautiful woman from ancient China, dressed in a gorgeous red Hanfu, with long hair draped over her shoulders, sat in her boudoir with a smile. Ancient style, hanfu, boudoir, gorgeous, palace, screen, carpet, soft light, elegant temperament, ancient culture, in line with oriental aesthetics, rich details, best quality, exquisite makeup, clear eyeliner pen, slender eyebrows, textured skin, white skin, charming headdress, --ar3:4 --niji6 --style raw

一个中国古代美女,穿着华丽的红色汉服,长发披肩,微笑着坐在闺房内。古风,汉服,闺房,华丽,宫殿,屏风,地毯,柔和光线,高雅气质,古代文化,符合东方美学,细节丰富,品质最佳,精致的妆容,清晰的眼线笔,纤细的眉毛,纹理皮肤,白皙的皮肤,迷人的头饰

举报

  • 相关推荐
  • 大家在看
  • AI Clone Voice Free:免费的人声克隆工具 支持多种语言和口音。

    AI 克隆声音是一项利用机器学习技术生成与特定人声相似的语音的技术。无需特殊设备,可在浏览器中快速生成高质量的克隆声音。价格分为免费基础服务和付费高级服务,提供更多的声音定制选项。

  • Hacker Search:利用Hacker News历史数据回答关于任何话题的问题

    Hacker Search是一个基于Hacker News历史数据的问答工具,它特别适用于理解HN读者对某个话题的情感,或寻找HN读者感兴趣的话题的专家见解。

  • Voxpad:AI笔记助手,快速生成讲座笔记。

    Voxpad是一款利用人工智能技术帮助用户快速生成讲座笔记的网站。它通过自动化笔记过程,节省了用户手动记录笔记的时间,同时提供了精确和详细的笔记内容,包括关键点和总结,并附有时间戳,方便用户快速定位到特定部分。此外,Voxpad支持多文件格式,具有易于使用的界面和文本编辑器,允许用户编辑和格式化笔记,以满足个性化需求。

  • Pitch Deck Generator:快速创建有说服力的演示文稿

    Pitch Deck Generator 是一个在线工具,旨在帮助用户通过其7步模板工作流程,快速创建出具有说服力的演示文稿。它从识别问题或机会到自信地提出请求,通过引导性的提示帮助用户创建清晰、简洁的演示,展示其独特的解决方案和团队。

  • AutoChat:先进的WhatsApp自动化平台,助力商业升级。

    AutoChat是一个基于云的WhatsApp自动化平台,提供强大的自动化功能,帮助企业简化运营并实现商业目标。它通过无代码聊天机器人构建器、批量消息发送、团队收件箱、GPT-4 AI聊天机器人、原生WhatsApp购物体验等功能,帮助企业提升客户服务水平,增强客户信任,并提高销售效率。

  • LegalLint:法律文件格式化和格式问题识别工具

    LegalLint 是一款专为法律领域设计的文档准备工具,旨在提高文档准备的效率和准确性。它具备以下功能:自动替换引用、插入注释块、检测和突出显示文档中的各种格式问题,如多余的空格、错位的标点或未闭合的括号。这些功能帮助法律专业人士高效地创建无误的文档,节省宝贵的时间并确保文档格式的精确性。

  • TailorLinx:个性化外联信息工具,提升回复率

    TailorLinx是一款结合AI和高级销售心理学的工具,旨在改善冷外联工作,确保与潜在客户的个性化和有效联系。它通过分析电子邮件和LinkedIn数据,包括潜在客户的行业、角色、兴趣和近期活动,来定制信息。TailorLinx利用AI驱动的技术和销售心理学来解释目标潜在客户的详细资料,使信息能够以高度个性化和相关性进行制作。TailorLinx已证明能够将回复率提高至38%。

  • Chirpley:全球首个专注于微纳米影响者的自动化市场平台

    Chirpley是一个创新的自动化、点对点、一站式影响者市场平台,专注于微纳米影响者。它通过人工智能和机器学习技术,为营销人员提供了快速有效的营销手段,并通过一键营销炸弹(1-click marketing bomb)功能,使得营销活动更加迅速和高效。Chirpley旨在解放微影响者营销的巨大盈利潜力,并通过端到端自动化、自适应、数据驱动的微影响者活动,提升营销的覆盖范围和影响力,将结果和效果提升到令人瞩目的高度。

  • helpmee.ai:AI辅助的电脑帮助,让老年人轻松掌握技术。

    helpmee.ai是一个利用AI技术为老年人提供电脑使用指导的网站。通过耐心的语音对话和屏幕共享,AI伴侣逐步引导老年人完成任何计算机任务,确保他们能够自信且独立地在数字世界中导航,支持50多种语言,全天候服务。该服务使用OpenAI的最新GPT-4o模型,提供无与伦比的准确性和理解力。

  • video-subtitle-master:批量生成视频字幕并支持多语言翻译的客户端工具

    video-subtitle-master 是一个基于之前开源项目 VideoSubtitleGenerator 开发的客户端工具,它允许用户批量为视频生成字幕,并支持将字幕翻译成不同的语言。这个工具特别适合需要对视频内容进行本地化处理的个人或团队,无论是为了教育、娱乐还是商业目的。它集成了多种翻译服务,如百度翻译、火山引擎翻译等,并优化了对 Apple Silicon 的支持,提供了快速的生成速度。

  • EngineerDraft:实时字幕生成工具

    BeMyEars 是一款实时字幕生成工具,利用本地设备完成语音识别,为听障人士和需要字幕的用户提供极致体验。其主要优点包括多语言支持、多源输入、隐私保护等。

  • 大设:AI 智能绘画平台,让文本和图片成为艺术作品。

    大设是基于 Stable Diffusion 的免费 AI 绘画网站,提供一键生成高清精绘大图、SDXL 模型教程、AI 提示词工具。背景包括清华大学研发,定位为 AI 智能绘画平台。

  • Supaclip:将视频快速转化为知识库。

    Supaclip是一个旨在帮助用户将视频内容转化为知识库的在线工具。它通过提供视频摘要、AI助手、字幕和时间戳等功能,帮助用户快速理解和导航视频内容。产品适用于内容创作者、学生、播客主持人和研究人员等,通过这些功能,用户可以增加视频的有机覆盖率、从讲座中获取最大价值、提供节目笔记、通过聊天机器人进行互动以及从访谈视频和纪录片中提取关键见解和引用。

  • Context Data:一站式企业级数据平台,专为生成式AI应用设计

    Context Data是一个为生成式AI应用设计的数据处理和转换平台,旨在帮助AI团队构建数据基础设施,以便他们专注于构建AI逻辑。它提供了无需设置基础设施、跨多个源转换数据、连接多个模型、加载数据到主要向量数据库、查询私有向量数据、定时管道以及构建数据和ETL管道等功能。Context Data强调数据隐私控制,避免了将数据上传到OpenAI等外部模型,简化了构建AI就绪数据平台的压力和复杂性。

  • World of Gami:AI驱动的Trello替代品,让团队任务保持最新。

    World of Gami是一个利用AI技术简化任务管理的网站,它将日常任务转化为令人兴奋的挑战,使项目管理不仅是必需的,而且是团队工作流程中令人愉悦和有益的一部分。通过将传统任务列表或看板转变为生动和竞争性的游戏,每个用户可以创建自己的'船',使用Scrum方法进行冲刺,并竞争'冲刺皇冠',这不仅使项目管理更加有趣,而且培养了团队精神和成就感。

  • Dola AI:您的个人 AI 日历助手,简化日程安排,释放时间。

    Dola 是一款通过消息应用进行日程安排的 AI 助手,它与 Google 日历、Apple 日历和 Caldav 兼容,能够通过自然语言快速安排日程,提高效率,同时支持语音、图片和文本输入。Dola 旨在帮助用户节省时间,专注于他们喜欢的事情。

  • Remind AI:使用先进的AI技术,轻松捕捉您的数字活动并作为记忆使用。

    reMind是一款利用AI技术帮助用户捕捉和利用数字活动作为记忆的产品。它通过先进的人工智能技术,让用户能够轻松地记录和回顾自己的工作和活动,从而提高生产力。

  • BrowseBuddy:AI购物助手,提升电商购物体验

    BrowseBuddy是一款AI驱动的聊天机器人,旨在通过提供个性化的帮助来增强在线购物体验。它利用自然语言处理技术来理解客户查询,提供量身定制的产品推荐和支持。BrowseBuddy通过智能产品匹配、实时解决方案、多语言支持等技术,为电商企业提供了一种提升客户满意度和销售效率的解决方案。

  • Depthforge:AI驱动的3D图像生成应用

    Depthforge是一款利用Apple Vision Pro技术,通过文本提示生成沉浸式3D图像的应用。它易于使用,能够让用户通过简单的文本输入来创造独特的高质量3D图像,体验全新的3D图像生成世界。

  • AudiowaveAI:将任何文本转换为有声读物质量的声音。

    AudiowaveAI是一款利用人工智能技术将文本转换成高质量音频的应用程序。它与传统的文本到语音技术不同,提供了更加自然、富有情感的语音输出,让听众在学习和享受内容时获得更好的听觉体验。产品背景信息包括它是由全球创新公司和自由职业者信赖的产品,其主要优点在于其引人入胜的声音、自然的声音效果以及令人愉悦的听觉享受。产品定位为教育工具,旨在帮助用户在移动中学习,享受夏日阳光。

今日大家都在搜的词: