首页 > 业界 > 关键词  > Pika1.0最新资讯  > 正文

AI视野:Pika1.0正式向所有人开放;阿里开源文生3D模型;Midjourney V6涉嫌侵权;谷歌推出新AI SDK

2023-12-26 15:22 · 稿源:站长之家

新鲜AI产品点击了解https://top.aibase.com/

🤖📱💼AI应用

Pika1.0正式向所有人开放

Pika1.0官方宣布正式向所有人开放网页版本试用资格,每个用户都可免费体验该创意视频制作平台。该版本以文生成视频为特色,提供3秒视频快速生成和背景修改等功能,尤其擅长动漫风格的动物生成。虽然部分用户反映生成效果与宣传有差距,但阶段性免费使用提供机会。

image.png

【AiBase提要:】

😊 Pika1.0正式开放网页版试用,允许每个用户免费体验。

😎 以文生成视频为特色,提供3秒视频快速生成和背景修改等功能。

👍 特长于生成动漫风格的动物,用户可轻松体验宫崎骏画风。

LeonardoAI视频生成功能正式向所有用户推出

LeonardoAI图像生成工具推出视频生成功能,基于SVD技术,免费试用,上周获3100万美元融资,用户数量已达700万。

QQ截图20231225161813.png

官网地址:https://top.aibase.com/tool/leonardo-ai

【AiBase提要:】

🚀 LeonardoAI图像生成工具发布视频生成功能,基于SVD技术,效果优于Runway,但仅支持使用内部工具生成的图片生成视频。

💰 上周LeonardoAI获3100万美元融资,投资方包括Blackbird、Side Stage Ventures等。

👥 LeonardoAI用户数量已达700万,总生成图像超过7亿张,服务创意行业如游戏、广告、时尚和建筑。

🤖📈💻💡大模型动态

阿里开源文生3D模型

阿里通义实验室的XR实验室开源了文生3D新模型,能通过文本描述生成对应的3D模型及纹理,包括Text-to-ND和Text-to-ND-MV两个大模型。为满足不同需求,开源了基础版本和Multi-View版本,并提供了优化代码,实现文本直接到3D模型的生成。

微信截图_20231226082207.png

Text-to-ND、Text-to-ND-MV大模型:

https://modelscope.cn/models/Damo_XR_Lab/Normal-Depth-Diffusion-Model/summary

【AiBase提要:】

🌐 多模型开源: 阿里通义XR实验室发布Text-to-ND和Text-to-ND-MV两大3D模型,满足不同算法开发需求。

🛠️ 开发者支持: 提供基础版本和Multi-View版本,以及优化代码,方便开发者生成文本描述对应的3D模型。

🔗 模型链接: 可通过链接获取Text-to-ND和Text-to-ND-MV大模型,促进3D模型生成技术的应用。

天工SkyAgents正式开放测试

昆仑万维推出基于「天工大模型」的AI Agents开发平台「天工SkyAgents」,支持用户通过自然语言构建私人助理,实现模块化任务执行,推动大模型技术普及。

微信截图_20231225161544.png

【AiBase提要:】

🚀 技术基础: 「天工 SkyAgents」基于昆仑万维的「天工大模型」,具备自主学习和独立思考能力。

🤖 任务模块化: 用户可通过自然语言构建私人助理,将不同任务模块化,实现执行各种任务。

🌐 推动普及化: 平台推动大模型技术普及,助力个人和中小企业积极拥抱先进的AI技术。

Cyanpuppets1.5本周五发布

Cyanpuppets的最新版本1.50将于本周五发布,采用迄今最大的训练数据集和最通用的算法模型,允许用户仅用两个网络摄像头实时快速创建3D舞蹈内容。

image.png

地址:https://cyanpuppets.myshopify.com/

【AiBase提要】

🚀 创新功能: Cyanpuppets1.5版本采用最大的训练数据集和通用算法,用户可轻松实时创建3D舞蹈内容。

💡 技术核心: Cyanpuppets公司以卷积神经网络和深度神经网络为核心,结合NVIDIA GPU算力,实现2D视频生成3D动作数据。

🌐 公司背景: Cyanpuppets的公司青色木偶科技是国内领先的人工智能图像算法技术和实时渲染平台工具提供商。

📰🤖📢AI新鲜事

Midjourney最新V6版本涉嫌版权侵权引发争议

Midjourney最新V6版本的文本生成器被指涉嫌版权侵权,用户测试发现生成的图像与多部电影场景高度相似,引起艺术家抱怨并遭到封禁。

【AiBase提要】

🔍 Midjourney最新V6版本升级,用户抱怨生成图像过于相似于受版权保护的艺术品。

🎨 艺术家测试发现生成的图像几乎与多部电影场景一模一样,遭到封禁。

🤖 AI研究者Gary Marcus关注指控,公司未回应是否使用高分辨率版权图像进行训练。

戴尔携手AMD扩大生成式人工智能产品线

戴尔宣布推出搭载AMD Instinct MI300X AI加速器的高性能计算服务器,与Nvidia竞争,强调多元选择、开放标准,并发布"Dell Validated Design for Generative AI"标准。

【AiBase提要:】

🔄 多元选择: 戴尔推出PowerEdge XE9680服务器,搭载AMD Instinct MI300X AI加速器,与Nvidia版本齐头并进,为客户提供更多人工智能工作负载选择。

🌐 开放标准: 戴尔加入Ultra Ethernet Consortium,与Nvidia不同,倡导开放计算、互操作性,推动采用基于标准的网络。

💻 新标准推出: 戴尔发布"Dell Validated Design for Generative AI with AMD"标准,为企业提供硬件和网络架构框架,支持大型语言模型(LLMs)的运行。

AI技术可鉴定奢侈品真伪,准确率达到99.1%

科技公司Entrupy宣称其AI技术能以99.1%的准确率检测二手奢侈品真伪,通过智能手机插入硬件设备拍摄照片,并与数百万真品库存图片进行比对。

【AiBase提要】:

🤖 Entrupy的AI设备可几乎完美地检测二手奢侈品真伪,尤其对品牌如路易威登和香奈儿的产品,准确率达99.1%。

📸 使用AI鉴定器,用户需将智能手机插入Entrupy硬件设备,从各个角度拍摄产品照片,通过微型镜头进行细节鉴定。

🌐 此AI技术引起广泛关注,尤其是在TikTok与Entrupy合作,用于鉴别TikTok Shop上的产品真伪,加强奢侈品转售商与消费者的信任。

英国法官可以用ChatGPT写裁决书了

英国法官可使用ChatGPT起草法律裁决书,相关官方指南详细规定正确使用方法、潜在风险及示例,标志着司法领域对生成式AI的认可。

【AiBase提要:】

📜 法官使用指南发布: 英国允许法官使用ChatGPT起草法律裁决书,并发布详细指南,适用于司法机构的官员、员工。

🚨 潜在风险与注意事项: 指南强调使用ChatGPT等生成式AI需谨慎,警告可能存在的不准确性和局限性,提醒法官避免过度依赖公共生成式AI产品。

🌐 司法认可与未来展望: 此举标志着司法领域对生成式AI的认可,未来将继续完善相关指南,以促进正确、负责任的AI使用。

谷歌推出新AI SDK

近日发布了其新的 Google AI SDK,旨在简化在安卓应用中集成其迄今为止表现最佳的模型Gemini Pro。使用此 SDK,开发者无需构建和管理自己的后端基础设施。

【AiBase提要:】

🚀 Google发布新的AI SDK,简化在安卓应用中集成表现最佳的Gemini Pro模型,支持广泛的文本和图像推理任务。

🔄 Google AI SDK使开发者无需构建和管理后端基础设施,提供安卓应用的客户端SDK,包装Gemini REST API为惯用的Kotlin API。

💡除了Gemini Pro,Google还推出较小的模型Gemini Nano,可在设备端运行,通过AICore简化在安卓应用中集成AI。

印度将建立人工智能气候模型

印度气象部门计划引入人工智能技术建立气候模型,以提高严重天气事件的预测准确性,减少损失和风险。

【AiBase提要:】

🌐 技术引入: 印度气象部门将利用人工智能技术建立气候模型,提供更高质量、更便宜的天气数据。

🌀 事件预测: 人工智能气候模型通过机器学习和大数据分析,能够提前识别和分析气象数据中的模式,帮助预测暴雨、洪水等严重天气事件。

🚀 科技发展: 这一举措将推动印度在气象领域的科技发展,提升国家的灾害应对能力,为公众和政府提供更准确可靠的天气预报和警报。

Infosys 宣布终止价值15亿美元的全球客户人工智能技术合同

Infosys宣布终止价值15亿美元的全球客户人工智能技术合同,未透露客户细节和终止原因,这对业务和员工可能产生深远影响。

【AiBase提要:】

🔍 Infosys宣布终止15亿美元全球客户AI合同。

💼 交易预计每年为Infosys带来1亿美元收入,为期15年。

💔 终止可能在当前市场不确定性下对业务和人员造成影响。

👨‍💻💡🎯聚焦开发者

南洋理工开源Upscale-A-Video

新加坡南洋理工大学的Upscale-A-Video框架通过文本提示、时序U-Net和循环潜码等创新方法,解决大模型生成视频中的不连贯、模糊、掉帧等问题,提供高质量视频超分辨率。

图片

【AiBase提要】

🎥 Upscale-A-Video框架解决大模型生成视频的问题,融合文本提示、时序U-Net和循环潜码,提供超分辨率、去噪、还原等功能。

🌐 通过扩散方法,局部和全局两种策略维持时间一致性,保证长视频整体连贯性。

👾 文本提示可指导细节纹理生成,时序U-Net和循环潜码模块共同优化视频质量,实验证明在峰值信噪比和感知损失上优势明显。

论文地址:https://arxiv.org/abs/2312.06640

开源地址:https://github.com/sczhou/Upscale-A-Video

项目地址:https://shangchenzhou.com/projects/upscale-a-video/

举报

  • 相关推荐
  • 大家在看
  • helpmee.ai:AI辅助的电脑帮助,让老年人轻松掌握技术。

    helpmee.ai是一个利用AI技术为老年人提供电脑使用指导的网站。通过耐心的语音对话和屏幕共享,AI伴侣逐步引导老年人完成任何计算机任务,确保他们能够自信且独立地在数字世界中导航,支持50多种语言,全天候服务。该服务使用OpenAI的最新GPT-4o模型,提供无与伦比的准确性和理解力。

  • video-subtitle-master:批量生成视频字幕并支持多语言翻译的客户端工具

    video-subtitle-master 是一个基于之前开源项目 VideoSubtitleGenerator 开发的客户端工具,它允许用户批量为视频生成字幕,并支持将字幕翻译成不同的语言。这个工具特别适合需要对视频内容进行本地化处理的个人或团队,无论是为了教育、娱乐还是商业目的。它集成了多种翻译服务,如百度翻译、火山引擎翻译等,并优化了对 Apple Silicon 的支持,提供了快速的生成速度。

  • EngineerDraft:实时字幕生成工具

    BeMyEars 是一款实时字幕生成工具,利用本地设备完成语音识别,为听障人士和需要字幕的用户提供极致体验。其主要优点包括多语言支持、多源输入、隐私保护等。

  • 大设:AI 智能绘画平台,让文本和图片成为艺术作品。

    大设是基于 Stable Diffusion 的免费 AI 绘画网站,提供一键生成高清精绘大图、SDXL 模型教程、AI 提示词工具。背景包括清华大学研发,定位为 AI 智能绘画平台。

  • Supaclip:将视频快速转化为知识库。

    Supaclip是一个旨在帮助用户将视频内容转化为知识库的在线工具。它通过提供视频摘要、AI助手、字幕和时间戳等功能,帮助用户快速理解和导航视频内容。产品适用于内容创作者、学生、播客主持人和研究人员等,通过这些功能,用户可以增加视频的有机覆盖率、从讲座中获取最大价值、提供节目笔记、通过聊天机器人进行互动以及从访谈视频和纪录片中提取关键见解和引用。

  • Context Data:一站式企业级数据平台,专为生成式AI应用设计

    Context Data是一个为生成式AI应用设计的数据处理和转换平台,旨在帮助AI团队构建数据基础设施,以便他们专注于构建AI逻辑。它提供了无需设置基础设施、跨多个源转换数据、连接多个模型、加载数据到主要向量数据库、查询私有向量数据、定时管道以及构建数据和ETL管道等功能。Context Data强调数据隐私控制,避免了将数据上传到OpenAI等外部模型,简化了构建AI就绪数据平台的压力和复杂性。

  • World of Gami:AI驱动的Trello替代品,让团队任务保持最新。

    World of Gami是一个利用AI技术简化任务管理的网站,它将日常任务转化为令人兴奋的挑战,使项目管理不仅是必需的,而且是团队工作流程中令人愉悦和有益的一部分。通过将传统任务列表或看板转变为生动和竞争性的游戏,每个用户可以创建自己的'船',使用Scrum方法进行冲刺,并竞争'冲刺皇冠',这不仅使项目管理更加有趣,而且培养了团队精神和成就感。

  • Dola AI:您的个人 AI 日历助手,简化日程安排,释放时间。

    Dola 是一款通过消息应用进行日程安排的 AI 助手,它与 Google 日历、Apple 日历和 Caldav 兼容,能够通过自然语言快速安排日程,提高效率,同时支持语音、图片和文本输入。Dola 旨在帮助用户节省时间,专注于他们喜欢的事情。

  • Remind AI:使用先进的AI技术,轻松捕捉您的数字活动并作为记忆使用。

    reMind是一款利用AI技术帮助用户捕捉和利用数字活动作为记忆的产品。它通过先进的人工智能技术,让用户能够轻松地记录和回顾自己的工作和活动,从而提高生产力。

  • BrowseBuddy:AI购物助手,提升电商购物体验

    BrowseBuddy是一款AI驱动的聊天机器人,旨在通过提供个性化的帮助来增强在线购物体验。它利用自然语言处理技术来理解客户查询,提供量身定制的产品推荐和支持。BrowseBuddy通过智能产品匹配、实时解决方案、多语言支持等技术,为电商企业提供了一种提升客户满意度和销售效率的解决方案。

  • Depthforge:AI驱动的3D图像生成应用

    Depthforge是一款利用Apple Vision Pro技术,通过文本提示生成沉浸式3D图像的应用。它易于使用,能够让用户通过简单的文本输入来创造独特的高质量3D图像,体验全新的3D图像生成世界。

  • AudiowaveAI:将任何文本转换为有声读物质量的声音。

    AudiowaveAI是一款利用人工智能技术将文本转换成高质量音频的应用程序。它与传统的文本到语音技术不同,提供了更加自然、富有情感的语音输出,让听众在学习和享受内容时获得更好的听觉体验。产品背景信息包括它是由全球创新公司和自由职业者信赖的产品,其主要优点在于其引人入胜的声音、自然的声音效果以及令人愉悦的听觉享受。产品定位为教育工具,旨在帮助用户在移动中学习,享受夏日阳光。

  • Usermaven:简单而强大的网站和产品分析工具

    Usermaven是一个简单易用且功能强大的网站和产品分析工具,专为市场营销人员和产品专业人士设计。它通过自动捕获所有事件来提供精确的追踪,无需依赖开发人员,从而简化了数据分析过程。Usermaven还提供了隐私友好的解决方案,支持GDPR和CCPA合规性,并且可以无cookie运行,保护用户隐私。

  • StarSearch:git历史查询助手,贡献者分析工具

    StarSearch是一个专注于git历史和贡献者分析的在线工具,它能够帮助用户快速获取有关贡献者活动的信息,识别关键贡献者,以及基于工作内容找到特定领域的专家。该工具对于开源项目维护者、开发者和团队领导者来说极为重要,因为它可以提高项目管理效率,优化团队协作,并促进技术社区的交流与合作。StarSearch是我们基于人工智能的功能,可以深入了解贡献者的历史和活动,带来透明度和对开源项目的全新深度认知。

  • AIGCRank.cn:AI 排行榜

    AIGCRank.cn 是一个提供 AI 产品排行榜的网站,主要收集和整理国内外各类 AI 产品的相关信息,并通过排行榜形式展示给用户。该网站旨在帮助用户了解和选择最优秀的 AI 产品,以满足其需求。

  • ReVideo:视频重制,精确控制内容与运动

    ReVideo是一个创新的视频编辑技术,它允许用户在特定区域进行精确的视频编辑,通过指定内容和运动来实现。这项技术通过修改第一帧来实现内容编辑,而基于轨迹的运动控制提供了直观的用户交互体验。ReVideo解决了内容和运动控制之间耦合和训练不平衡的新任务。通过开发三阶段训练策略,逐步从粗到细解耦这两方面,并提出一种时空自适应融合模块,以在不同的采样步骤和空间位置整合内容和运动控制。

  • TryOnDiffusion:一款基于扩散模型的服装试穿技术

    TryOnDiffusion是一种创新的图像合成技术,它通过两个UNets(Parallel-UNet)的结合,实现了在单一网络中同时保持服装细节和适应显著的身体姿势及形状变化。这项技术在保持服装细节的同时,能够适应不同的身体姿势和形状,解决了以往方法在细节保持和姿势适应上的不足,达到了业界领先的性能。

  • AIGCRank大语言模型API价格对比:汇总和比较全球主要AI模型提供商的价格信息

    AIGCRank大语言模型API价格对比是一个专门汇总和比较全球主要AI模型提供商的价格信息的工具。它为用户提供最新的大语言模型(LLM)的价格数据,包括一些免费的AI大模型API。通过这个平台,用户可以轻松查找和比较OpenAI、Claude、Mixtral、Kimi、星火大模型、通义千问、文心一语、Llama 3、GPT-4、AWS和Google等国内外主要API提供商的最新价格,确保找到最适合自己项目的模型定价。

  • Pandora:通用世界模型,支持自然语言动作和视频状态

    Pandora是一个向通用世界模型迈进的模型,它能够通过生成视频来模拟世界状态,并允许使用自然语言在任何时间控制视频内容。Pandora与以往的文本到视频模型不同,它允许在视频生成过程中随时接受自由文本动作输入,从而实现视频的即时控制。这种即时控制能力实现了世界模型支持交互式内容生成和增强的健壮推理和规划的承诺。Pandora能够跨多个领域生成视频,如室内/室外、自然/城市、人类/机器人、2D/3D等场景。此外,Pandora还允许通过高质量的数据进行指令调整,使得模型能够在一个领域学习动作并在另一个未见过的领域中使用。Pandora模型还通过自回归模型生成更长的视频,其生成的视频长度可以超过训练视频的长度。尽管Pandora作为通用世界模型的初步步骤仍有限制,例如在生成一致性视频、模拟复杂场景、理解常识和物理法则以及遵循指令/动作方面可能会失败,但它在视频生成和自然语言控制方面展示了巨大的潜力。

  • Dev Home:Windows开发者的一站式控制中心

    Dev Home是微软为Windows开发者推出的一款桌面客户端,旨在提供一个集中的控制中心,帮助开发者监控项目、设置开发环境、连接开发者账户和工具,并创建专用的存储空间。它通过自定义的仪表板小部件,使开发者能够监控工作流程、跟踪开发项目、编码任务、Azure DevOps查询、GitHub问题、拉取请求、可用SSH连接以及系统的CPU、GPU、内存和网络性能。Dev Home 0.14 预览版更新集成了 PowerToys 模块,以及基于 AI 的 Quickstart Playground 功能。

今日大家都在搜的词: