首页 > 业界 > 关键词  > Pika最新资讯  > 正文

AI视野:Pika1.0首批用户资格揭晓;Runway官宣下场通用世界模型;妙鸭相机推出AI修图;抖音正式上线AI创作功能

2023-12-12 15:18 · 稿源:站长之家

📰🤖📢AI新鲜事

Pika1.0首批用户资格揭晓

Pika Labs最新视频生成产品Pika1.0引起轰动,已开始向候补名单用户发放使用资格。Pika1.0以文生成视频为特色,提供3秒视频快速生成、背景修改等功能。用户可在推特或邮箱确认是否成为首批体验者。

【AiBase提要】:

🚀 Pika1.0发布: Pika Labs推出视频生成工具Pika1.0,引起广泛关注。

📧 首批用户资格: Pika向部分候补用户发放体验资格,用户可查收确认邮件。

🎥 功能亮点: Pika1.0支持文生成视频,提供快速生成、背景修改等特色功能。

英伟达2023年投资了35家人工智能公司

英伟达在2023年大幅扩大对AI初创企业的投资,已投资35家公司,涵盖范围从大型新人工智能平台到小型初创企业,成为人工智能领域最活跃的投资者之一。

【AiBase提要:】

🚀 英伟达在2023年成为AI领域最活跃的投资者之一,投资35家公司,投资范围广泛。

💼 投资标准以技术相关性为主,注重与使用其技术、依赖其技术的公司建立紧密关系。

🌐 投资组合包括与OpenAI竞争对手Inflection AI和其他公司,强调对技术基础的依赖。

体育画报出版商发生AI丑闻后解雇CEO

著名杂志《体育画报》The Arena Group宣布,其董事会已终止了其首席执行官罗斯·莱文索恩的雇佣关系。

【AiBase提要:】

🔍 体育画报出版商解雇CEO罗斯·莱文索恩,公司曾发布由不存在的作家署名的人工智能生成文章,引起争议。

📰 揭露后,两名高管被解雇,公司高级副总裁宣布终止与莱文索恩的雇佣关系。

👥 新的临时CEO由多数投资者马诺吉·巴尔加接任,公司回应解雇与人工智能丑闻无关。

抖音正式上线AI创作功能 最新AI特效破6亿次播放

抖音最新推出AI创作功能,博主通过使用AI生成的漫画特效制作创意视频,受到热烈关注,标志着AI技术在短视频创作领域的广泛应用。

【AiBase提要:】

🎨 AI创作横空出世:抖音正式推出AI创作功能,博主们通过AI生成的漫画特效创作独特视频,引起用户极大兴趣。

🌐 热门特效引爆关注:博主运用AI漫画特效、古风形象生成等功能,视频播放次数突破6亿,展示AI技术在短视频创作中的威力。

🚀 AI赋能创意生态:引入AI绘画技术降低门槛,普通人也能轻松融入AI创作,预示着AI技术在创意领域将迎来更广泛应用。

抖音博主用AI生成春晚图 网友辣评:这是过春节还是过鬼节?

抖音知名博主通过AI技术创作了中式春晚图,但在指令发布后图像变幻莫测,引发网友热议,质疑图像中的怪异现象。

image.png

【AiBase提要:】

🎨 博主通过AI技术创作中式春晚图,呈现奇幻太空场景。

👻 指令发布后图像变化引发网友关注,出现怪异现象,疑似“春晚变鬼节”。

💬 网友热议中发现AI生成图像的局限性,同时推动更多人涉足AI领域。

Astra Starter Templates 集成 ZipWP AI 网站生成器

Astra Starter Templates 宣布与 ZipWP AI 网站构建器整合,用户可在60秒内创建完整网站,包括内容和图像。

Starter Templates3.5.2:全新基于 AI 的模板工具包库:

https://wpastra.com/changelog/version-3-5-2/

【AiBase提要】

🚀 模板整合AI构建器: Astra Starter Templates整合ZipWP AI构建器,提供280+可自定义网站模板,支持用户快速创建专业外观网站。

🤖 ZipWP AI构建器功能: ZipWP利用人工智能在60秒内创建完整WordPress网站,无需编码或技术知识,提供自动化设计和内容生成。

💼 灵活选择高级版: ZipWP提供免费和高级版,高级版每天可创建10个网站,价格为399美元/年,支持在开源WordPress环境中定制使用。

🤖📈💻💡大模型动态

李飞飞联袂谷歌推出视频生成模型W.A.L.T

谷歌与李飞飞的斯坦福团队联合推出基于Transformer的视频生成模型W.A.L.T,采用因果编码器和窗口注意的变压器架构,在图像和视频领域取得Gen-2水平的逼真效果。

image.png

论文地址:https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf

【AiBase提要:】

🌟 W.A.L.T利用因果编码器和变压器架构将图像和视频压缩到共享潜在空间,实现了联合训练和生成,取得SOTA性能。

🚀 两个关键决策使W.A.L.T成功解决视频生成建模难题,采用潜在视频扩散模型,在多个基准测试上表现出色。

📄 W.A.L.T的突破性设计标志着视频生成进入新时代,为AI视频技术拓展发展空间,展示了Transformer的广泛适用性。

Runway官宣下场通用世界模型

Runway公司宣布发展通用世界模型(GWM),旨在解决AI视频领域的难题。该模型旨在模拟广泛和多样的真实世界情景,提高视频生成系统的理解和逼真度。公司表示将面临许多研究挑战,招募团队应对。

【AiBase提要】:

🌐 Runway宣布开发通用世界模型(GWM)解决视频AI难题。

🤖 GWM旨在模拟真实世界情景,提高视频生成系统逼真度。

🚀 公司面临挑战,招募团队应对,迎接人工智能视频新时代。

阿里推出东南亚专用AI大语言模型SeaLLM

阿里研究部门发布SeaLLM,首个专为东南亚市场设计的大语言模型,在语言和安全任务上表现优异,突显阿里对该地区增长市场的重视。

【AiBase提要:】

🚀 阿里推出首个专为东南亚市场设计的SeaLLM,展现在该地区的市场拓展雄心。

🌐 SeaLLM在语言和安全任务方面优于其他开源模型,经过越南语、印尼语等八种语言数据集的预训练。

🔗 SeaLLM的性能超越其他大型语言模型,尤其在非拉丁语系任务和英语与低资源语言翻译方面取得显著成果。

Meta AI开源T2V模型AVID 可修复视频改变纹理

Meta AI最近开源的T2V模型AVID具备先进的修复和扩展能力,通过文本编辑视频,支持修复视频、更改对象、改变纹理和颜色,甚至删除或替换视频内容。

image.png

项目地址:https://zhang-zx.github.io/AVID/

【AiBase提要:】

🔧 先进修复与扩展能力: Meta AI的AVID模型开源,具备先进的运动模块和可调节的结构引导,能有效修复和扩展视频,处理不同修复类型且质量高。

🔄 时间一致性与可变长度处理: AVID解决文本引导视频修复的挑战,引入新颖的时间多重扩散采样管道,具备中帧注意力引导机制,可稳健处理不同视频持续时间范围。

👩‍💻 培训阶段方法: 在培训阶段,AVID模型采用两步方法,集成运动模块和优化视频数据,保留UNet参数并专门训练结构指导模块,推理过程中构建连续帧片段并计算结果。

🤖📱💼AI应用

妙鸭相机推出AI修图

妙鸭相机的新AI修图功能引起关注,通过数字分身和大模型算法实现智能修脸,挑战美图秀秀等传统修图软件在美颜市场的地位。

【AiBase提要】

🚀 技术创新: 妙鸭相机推出基于大模型的“AI修脸”,以智能、快速的修图体验刷新用户对美图软件的认知。

📸 功能强大: 用户通过上传照片生成数字分身,可选择不同修脸模式,包括焕新和重塑,实现个性化、智能的修图效果。

🌐 市场竞争: 妙鸭相机的AI修图功能挑战传统美图软件,预示着修图美颜市场将迎来激烈的用户争夺战。

Google发布编程工具AlphaCode2

谷歌发布了由Gemini模型提升的AlphaCode2,是一款AI编程工具,在编程竞赛中以Python、Java、C++和Go等多语言表现优异,通过复杂技术解决了原AlphaCode的局限。

【AiBase提要:】

🚀 性能提升: AlphaCode2由Gemini模型驱动,在编程竞赛中表现显著优于前代,击败约85%竞争对手。

💻 多语言支持: 该工具在Python、Java、C++和Go等多语言中表现卓越,展现了强大的编程能力。

🔍 复杂问题解决: 利用动态规划等复杂技术,AlphaCode2能理解涉及“复杂”数学和理论计算机科学的编程挑战,解决了原版无法应对的问题。

AI绘图产品Visual Electric图片质量可媲美Adobe Firefly

Visual Electric是一个为创意过程打造的图像生成器,它拥有一个令人惊叹的图像库和相应的提示,可以激发灵感。它可以通过迭代来发展创意,尝试不同的风格和颜色。

QQ截图20231211165707.jpg

体验地址:https://visualelectric.com/

【AiBase提要:】

🎨 创意激发: Visual Electric为创意工作者提供强大的图像生成能力,通过简单输入提示即可生成高质量图像。

🖌️ 直观创作空间: 白板式界面让用户清晰看到生成过程,可随时编辑和处理图像,集成了抠图等便捷功能。

🌈 多样风格选择: 提供精心打造的多种风格,让用户轻松尝试不同创意可能性,实现直观而多样的创作。

👨‍💻💡🎯聚焦开发者

阿里推视频生成框架DreaMovin

DreaMoving是阿里基于扩散模型的视频生成框架,通过图文输入可定制高质量人类舞蹈视频。框架包含Video ControlNet和Content Guider两大组件,实现运动控制和身份保留。通过姿势序列和简单描述,如文本和图像,DreaMoving生成高保真度视频。

image.png

项目网址:https://dreamoving.github.io/dreamoving/

【AiBase提要:】

🌐 框架介绍: DreaMoving是基于扩散模型的视频生成框架,可通过图文输入生成高质量舞蹈视频。

🔄 架构解析: Video ControlNet和Content Guider是关键组件,分别实现运动控制和身份保留,适用于不同风格的扩散模型。

🎬 成果展示: DreaMoving通过姿势序列和简单描述生成高保真度的定制视频,实现身份控制和外观控制。

UCLA推出Chameleon框架,大模型表格数学推理准确率达98.78%

由UCLA等机构推出的Chameleon框架通过多工具融合,包括LLMs、视觉模型、搜索引擎等,解决大型语言模型在实时信息获取和数学推理上的不足,在表格数学推理任务上达到98.78%准确率。

image.png

项目地址:https://chameleon-llm.github.io/

【AiBase提要:】

🦎 多工具融合: Chameleon框架融合LLMs、视觉模型、搜索引擎等多种工具,弥补大型语言模型在实时信息获取和数学推理方面的不足。

📊 表格数学推理准确率: Chameleon在表格数学推理任务中表现优异,准确率高达98.78%,超越现有模型,核心在于LLM规划器生成自然语言程序。

🌐 灵感来源: Chameleon模型灵感来源于变色龙,象征大型语言模型在执行外部工具组合推理任务时的多功能性和适应性,在学术界和开发者社区受到广泛关注。

举报

  • 相关推荐
  • 大家在看
  • Nabubit:数据库设计助手,简化数据库设计、管理和演化。

    Nabubit是一个旨在帮助用户优化数据库设计、管理和演化的在线工具。它提供了上传数据库架构图、可视化数据库结构、以及使用自然语言提问的功能。用户可以从头开始设计数据库,无需担心命名或记住语法。完成设计后,可以将其导出到自己喜爱的数据库或框架中。

  • Otter Script:文档生成平台,快速创建复杂文档。

    Otter Script是一个文档生成平台,它通过自动化技术帮助用户节省时间,将原本需要几天完成的复杂文档工作缩短到几分钟。它简化了工作流程,让用户可以更高效地完成更多任务。

  • BNA:多功能AI超级应用,涵盖社交、电商、娱乐和教育。

    BNA AI Super App是一款集成了多种智能服务的超级应用,它不仅提供社交功能,如分享帖子、写博客、聊天和视频通话,还涵盖了AI电商和娱乐服务。此外,该应用还提供40种语言的AI教学服务,帮助用户学习不同的语言。BNA AI Super App以其强大的AI功能和多语言支持,满足了不同用户群体的需求。

  • Elisi:高效能自主层级式计划助手

    Elisi 是一款旨在帮助用户实现个人成长的终极组织者和指南。它通过直观的设计和用户友好的说明,帮助用户将梦想转化为清晰的结果,分解成可实现的里程碑,并通过AI技术理解并适应用户的个人需求,确保每一天都更有条理和高效。Elisi 致力于提供便捷服务,主要功能套件完全免费。

  • Omi AI:个性化AI助手,记录每一刻,与AI对话获取反馈。

    OMI APP是一个任务驱动的个性化AI助手,旨在通过语音和音频转录功能帮助用户提高记忆力和沟通效率。它是一个开源的AI记事本,提供提醒、建议等功能,同时注重用户隐私。

  • MeowMail:高送达率的AI电子邮件营销工具

    MeowMail是一款集成在Shopify后台的电子邮件营销应用,利用AI技术自动选择最佳发送时间,提高邮件的送达率至98%以上。它支持拖放编辑、从Klaviyo导入邮件列表、使用Beefree编辑器创建新邮件,并通过设定支出限制来管理邮件营销活动。MeowMail还提供企业级支持和自动翻译文本功能,帮助商家以低成本实现高效的邮件营销。

  • Maia 100:微软定制AI加速器,专为大规模AI工作负载设计。

    Maia 100是微软为Azure设计的首款定制AI加速器,专为大规模AI工作负载而打造,通过软硬件的协同优化,实现了性能、可扩展性和灵活性的最大化。它采用了TSMC N5工艺和COWOS-S互连技术,具备高达1.8TB/s的带宽和64GB的容量,支持高达700W的热设计功耗(TDP),但以500W运行,确保了高效的能效比。Maia 100集成了高速张量单元、向量处理器、DMA引擎和硬件信号量,支持多种数据类型和张量切分方案,并通过以太网互连支持大规模AI模型。此外,Maia SDK提供了丰富的组件,支持快速部署PyTorch和Triton模型,并通过双编程模型确保高效的数据处理和同步。

  • LTM:超长上下文模型,革新软件开发

    Magic团队开发的超长上下文模型(LTM)能够处理高达100M tokens的上下文信息,这在AI领域是一个重大突破。该技术主要针对软件开发领域,通过在推理过程中提供大量代码、文档和库的上下文,极大地提升了代码合成的质量和效率。与传统的循环神经网络和状态空间模型相比,LTM模型在存储和检索大量信息方面具有明显优势,能够构建更复杂的逻辑电路。此外,Magic团队还与Google Cloud合作,利用NVIDIA GB200 NVL72构建下一代AI超级计算机,进一步推动模型的推理和训练效率。

  • EZ-work AI文档翻译:智能AI翻译,高效文档语言转换助手。

    EZ-work AI文档翻译是一款专注于文档翻译的在线服务,支持多种语言的翻译,包括中文、英语、日语、俄语、阿拉伯语和西班牙语等。它使用先进的AI技术,如gpt-4o-mini和deepseek-chat模型,为用户提供快速、准确的翻译服务。该产品适用于需要文档翻译的个人和企业,尤其在国际交流和学术研究领域尤为重要。

  • Watson AI:会议助手,自动记录并总结会议要点。

    Watson AI是一款会议助手应用程序,它通过录制系统音频和麦克风来转录和总结会议内容,自动提取行动项和会议摘要,帮助用户更高效地进行会议记录和回顾。

  • PicTech AI: 免费在线AI图片翻译 助力跨境电商

    PicTech AI是由学以致用科技旗下的智能图像工具品牌,专注于为跨境电商提供AI驱动的图片翻译服务。该产品利用人工智能技术,实现高准确率和高清晰度的图片翻译,支持中文、英语到日语、韩语等多国语言的翻译。PicTech AI的智能抠图功能,能够准确检测图片主体边缘,一键去除背景,无需专业编辑。产品背景信息显示,其团队由来自百度、网易、阿里巴巴等行业巨头的顶尖高科技人才组成,具备强大的技术实力和产品能力。该产品定位于帮助跨境电商从业者简化工作流程,提高效率,无需懂外语或图像处理技能即可使用。

  • AnythingLLM:一站式AI应用,支持多种文档和模型。

    AnythingLLM是一个多功能的桌面客户端,支持多种语言模型(LLM)和文档类型,提供完全私密的使用体验。用户可以根据自己的需求选择企业级模型、自定义模型或开源模型,如GPT-4、Llama、Mistral等。产品支持一键安装,本地运行,无需互联网连接,保护用户隐私。

  • 林哥的大模型野榜:更适合中国宝宝体质的大模型产品排行榜

    林哥的大模型野榜是一个专注于中国用户需求的大模型产品排行榜,提供了多维度的评估和排名,帮助用户更好地了解和选择适合的大模型产品。

  • Fluximg.com:AI文本到图像生成器,支持多尺寸和自动翻译。

    Fluximg.com是一个基于Flux模型的AI图像生成网站,提供从文本到图像的转换服务。它支持多种语言,包括中文和英文,并且具有用户友好的界面。网站提供免费和专业版本,使用户能够根据自己的需求选择不同的服务级别。

  • 现代文转古文:将现代汉语转化为古汉语,提升文采。

    现代文转古文是一款能够将现代汉语自动转换为古汉语的模型,它通过先进的自然语言处理技术,使得用户可以轻松地将现代文本转换成具有古典韵味的古文。这种转换不仅能够增加文本的文学价值,还能在教育、文学创作、文化传承等方面发挥重要作用。

  • Zamba2-mini:先进的小型语言模型,专为设备端应用设计。

    Zamba2-mini是由Zyphra Technologies Inc.发布的小型语言模型,专为设备端应用设计。它在保持极小的内存占用(<700MB)的同时,实现了与更大模型相媲美的评估分数和性能。该模型采用了4bit量化技术,具有7倍参数下降的同时保持相同性能的特点。Zamba2-mini在推理效率上表现出色,与Phi3-3.8B等更大模型相比,具有更快的首令牌生成时间、更低的内存开销和更低的生成延迟。此外,该模型的权重已开源发布(Apache 2.0),允许研究人员、开发者和公司利用其能力,推动高效基础模型的边界。

  • InterTrack:无需对象模板的人体与物体交互跟踪技术

    InterTrack 是一种先进的跟踪技术,能够在单目RGB视频中跟踪人体与物体的交互,即使在遮挡和动态运动下也能保持跟踪的连贯性。该技术无需使用任何对象模板,仅通过合成数据训练即可在真实世界视频中实现良好的泛化。InterTrack 通过分解4D跟踪问题为每帧的姿态跟踪和规范形状优化,显著提高了跟踪的准确性和效率。

  • GenWarp:生成新视角的图像,保持语义信息。

    GenWarp是一个用于从单张图像生成新视角图像的模型,它通过语义保持的生成变形框架,使文本到图像的生成模型能够学习在哪里变形和在哪里生成。该模型通过增强交叉视角注意力与自注意力来解决现有方法的局限性,通过条件化生成模型在源视图图像上,并纳入几何变形信号,提高了在不同领域场景下的性能。

  • Qwen2-VL:新一代视觉语言模型,更清晰地看世界。

    Qwen2-VL是一款基于Qwen2打造的最新一代视觉语言模型,具备多语言支持和强大的视觉理解能力,能够处理不同分辨率和长宽比的图片,理解长视频,并可集成到手机、机器人等设备中进行自动操作。它在多个视觉理解基准测试中取得全球领先的表现,尤其在文档理解方面有明显优势。

  • Dressplay:个性化服装生成器,轻松变换你的装扮。

    Dressplay是一个创新的在线服装生成器,允许用户通过简单的步骤生成个性化的服装。它利用先进的图像处理技术,让用户能够选择服装区域、目标人物以及想要穿戴的服装,从而创造出逼真的服装效果。Dressplay背后的技术不仅提高了服装设计的效率,也为用户提供了一种全新的个性化体验。目前,Dressplay提供免费试用,用户可以通过网页访问并体验其功能。

今日大家都在搜的词: