首页 > 业界 > 关键词  > Gemini最新资讯  > 正文

AI视野:谷歌Gemini Pro开放;文心一言插件商城上线;谷歌图像生成模型Imagen2发布;阿里推虚拟试穿技术Outfit Anyone

2023-12-14 15:19 · 稿源:站长之家

📰🤖📢AI新鲜事

谷歌Gemini Pro开放

谷歌Gemini Pro大模型在研究基准测试中表现优异,支持32K上下文窗口的文本输入和生成功能,向Vertex AI云计算客户和AI Studio开发人员开放,提供多种功能和SDK,为构建AI应用程序提供更多可能性。

微信截图_20231214082013.png

【AiBase提要:】

🚀 Gemini Pro性能卓越: 在研究基准测试中,Gemini Pro展现出强大性能,支持32K上下文窗口的文本输入和生成功能,同时支持38种语言。

🌐 多平台支持: Gemini Pro提供Python、Android、Node.js、Swift和JavaScript等多种SDK,帮助开发者在不同平台上构建应用程序。

🔐 全面托管解决方案: 用户可以从免费的Google AI Studio轻松转移到Vertex AI,获得完全的数据控制和其他Google Cloud功能,包括安全性、隐私和数据治理。

文心一言插件商城上线

百度文心一言插件商城正式上线,提供多功能插件,包括PPT生成、音视频提取、思维导图等,用户可通过简单指令满足多场景需求。插件商城还支持用户自主设计新插件。

微信截图_20231214081047.png

【AiBase提要:】

🚀 实用插件覆盖多场景: 百度文心一言插件商城涵盖PPT生成、音视频提取、思维导图等实用场景,提升用户办公效率。

🎨 支持自主设计插件: 用户不仅可使用插件,还能成为设计师,在插件商城设计全新应用,拓展创意空间。

👩‍💼 多功能插件一键安装: 用户通过简单指令即可安装插件,满足多场景多模态需求,如视频助理、项目管理看板等。

ChatGPT成为Nature年度十大人物

2023年,《自然》杂志评选出年度十大人物,其中包括ChatGPT和OpenAI首席科学家苏茨克维,成为榜单首位非人类入选者,突显人工智能在科学界的引领地位。

【AiBase提要】

🌐 ChatGPT破例入选: 《自然》十大人物榜单首次包含ChatGPT,承认生成式人工智能对科学研究的重大改变。

🚀 人工智能引领科学: OpenAI首席科学家苏茨克维的入选突显人工智能在科学研究中的关键作用。

🌍 多领域卓越成就: 榜单涵盖卫生、环境、物理学等领域,凸显科技创新对全球社会的深远影响。

全国首例AI声音侵权案公开审理

北京互联网法院审理全国首例AI声音侵权案公开审理,配音演员起诉魔音工坊APP和微软等五被告。配音演员以原告声音未经授权被AI化并在APP上售卖为由,将魔音工坊等五家公司诉至北京互联网法院,案件仍在审理中。

【AiBase提要】:

🗣️ 声音侵权指控: 配音演员原告称其声音被AI化后在“魔音工坊”APP上以别名售卖,侵害其声音权。

🤖 被告辩诉: 被告公司否认侵权,称声音产品来源合法,微软声音来自中广影音,不构成侵权。

⚖️ 审理进程: 原告主张人格权侵权,不认可涉及著作权,案件目前在进一步审理中。

iQOO Neo9系列首批搭载自研AI蓝心大模型

iQOO Neo9系列手机将首次搭载自研AI蓝心大模型,在语言理解、文本创作等领域表现卓越,为用户带来更智慧、流畅、安全的体验。

【AiBase提要】:

🔍 技术亮点: iQOO Neo9系列引入自研AI蓝心大模型,在语言理解和文本创作方面表现优秀,位列中文大模型榜单首位。

🚀 强悍性能: 手机采用超越Pro级全能生态,搭载高性能处理器,Pro版本跑分突破233万分,刷新记录。

🎮 游戏体验提升: 配备独立显示芯片,为玩家带来更出色的游戏体验,提升流畅性和稳定性。

AI主播 Channel1上线

近期热播剧《新闻女王》引发关注,与此同时,美国新闻初创公司Channel1发布了能24/7不间断播报新闻的AI主播,引发新闻界热议。

【AiBase提要:】

🤖 AI主播代替人类主播,Channel1公司推出的复杂模型支持逼真主播形象,可播报多语种新闻。

🌐 该公司强调新闻源来自独立记者、政府文件和外部机构,保证内容真实性,但仍有争议。

💼 Channel1与传统新闻频道不同,采取个性化、消费者选择的制作方式,拟以低成本在2024年上线。

邢波团队提出全开源倡议LLM360

邢波团队提出LLM360全面开源倡议,旨在使大型语言模型训练过程透明,发布两个大型语言模型,并为研究者提供开发经验和性能评估结果。

image.png

论文地址:https://arxiv.org/pdf/2312.06550.pdf

项目网页:https://www.llm360.ai/

【AiBase提要:】

🌐 全面开源倡议: 邢波团队的LLM360框架涵盖训练数据、代码、模型检查点和性能指标,为大型语言模型建立全方位的透明标准。

🚀 发布大型语言模型: 框架下发布的AMBER和CRYSTALCODER是基于1.3T和1.4T token的大型语言模型,提供了性能评估和LLM领域的实质经验。

🤝 推动开放合作研究: LLM360的全面开源趋势有望促进更多研究者参与合作,推动人工智能领域的不断创新与进步。

🤖📈💻💡大模型动态

谷歌Deepmind发布最先进的图像生成模型Imagen2

谷歌Deepmind推出Imagen2,一款强大的图像生成模型,通过参考图片和文本生成新图片和局部编辑,具有改进的图像描述理解和支持图像编辑功能。模型在安全性方面采用了数字水印工具SynthID,可在不损害图像质量的情况下防止潜在的风险。

image.png

地址:https://deepmind.google/technologies/imagen-2/

【AiBase提要:】

🌟 强大生成功能: Imagen2通过参考图片和文本生成新图片和局部编辑,具有改进的图像描述理解,提高生成图像质量。

🔒 数字水印防护: 模型集成了SynthID数字水印工具,可在不损害图像质量的情况下防止潜在的风险和不良内容。

🎨 灵活的风格控制: Imagen2的扩散技术提供高度灵活性,可通过参考风格图像和文本提示训练模型生成符合相同风格的新图像。

Stability.ai开源图片生3D模型Stable Zero123

Stability.ai在官网开源了基于丰田研究院和哥伦比亚大学联合开源的Zero123模型的优化版本Stable Zero123,通过改进渲染数据集和分数蒸馏,提升了3D模型生成效果和训练效率,可与SDXL高精准图片模型结合使用。

图片

项目地址:https://github.com/cvlab-columbia/zero123

【AiBase提要:】

💡 Stable Zero123是Stability.ai对Zero123模型的优化版本,通过改进渲染数据集和分数蒸馏,提升了3D模型生成效果和训练效率。

🔄 与最新开源的SDXL高精准图片模型结合使用,相当于3D模型的扩展插件,拓展了生成式AI的应用领域。

🌐 通过使用高质量数据集Objaverse-XL,Stable Zero123在生成过程中更好地理解和生成3D模型,为研究提供强大的工具。

全国首个古籍大语言模型“荀子”发布

南京农业大学研发的“荀子”古籍大语言模型整合了超过20亿字的古籍语料库,旨在推动古籍研究和保护,提高中华传统文化传承效率,实现大语言模型与古籍处理深度融合。

地址:https://github.com/Xunzi-LLM-of-Chinese-classics/XunziALLM/blob/main/README.md

【AiBase提要:】

📚 全面整合语料库: “荀子”大语言模型包含超过20亿字的传世古籍文献,以推动古籍研究和传承为宗旨。

💻 多功能应用场景: 模型提供智能标引、翻译、诗歌生成、阅读理解等功能,显著提高古籍处理和研究效率。

👩‍🏫 专家高度评价: 在发布会上,多家高校、出版机构和互联网企业的专家学者高度评价了该模型的实用性。

魔搭社区上线Mistral AI 首个开源 MoE 模型

Mistral AI最近在魔搭社区上线了首个开源MoE模型Mixtral8x7B,这是一个由8个专家网络组成的混合专家模型,拥有70亿参数,支持32k token上下文长度,在MT-Bench评测上达到了8.3分,与GPT3.5相当。

【AiBase提要:】

🚀 模型介绍: Mistral AI发布开源MoE模型Mixtral8x7B,由8个专家网络组成,拥有70亿参数,支持32k token上下文长度。

📈 性能评估: 在MT-Bench评测上,Mixtral8x7B达到8.3分,与GPT3.5相当,展现出卓越的性能。

🌐 社区上线: Mixtral8x7B模型正式在魔搭社区上线,为开发者提供了一个交流、分享的平台。

Mixtral-8x7B-v0.1模型:

https://www.modelscope.cn/models/AI-ModelScope/Mixtral-8x7B-v0.1/summary

Mixtral-8x7B-Instruct-v0.1模型:

https://www.modelscope.cn/models/AI-ModelScope/Mixtral-8x7B-Instruct-v0.1/summary

Mistral-7B-Instruct-v0.2新模型:

https://www.modelscope.cn/models/AI-ModelScope/Mistral-7B-Instruct-v0.2/summary

🤖📱💼AI应用

美图上线AI绘画与图片生成应用WHEE App

美图旗下WHEE移动端App正式上线,由MiracleVision4.0大模型提供支持,为用户提供一站式AI视觉创作服务,包括AI绘画、图片生成、修图、扩图、3D效果等功能,并汇集各领域创作者作品,促进创作者交流与合作。

【AiBase提要:】

🎨 全方位创作服务: WHEE App整合MiracleVision4.0大模型,提供AI绘画、图片生成等全方位创作服务,用户只需用自然语言描述需求即可轻松上手使用。

🤝 创作者交流平台: 应用内汇集各领域创作者的作品,为创作提供灵感来源,同时促进创作者之间的交流与合作。

📚 用户支持与指导: 提供创作指南和模型训练指南,帮助用户更好地使用和理解应用程序。

谷歌推出AI音乐创作工具“MusicFX”

谷歌推出的AI音乐创作工具“MusicFX”利用Google的MusicLM和DeepMind的SynthID技术,让用户通过几句话即可生成原创音乐,同时强调负责任的AI创新。

体验网址:https://top.aibase.com/tool/music-fx

【AiBase提要:】

🚀 MusicFX使用谷歌和DeepMind技术,使用户通过几句话即可创作音乐,标志性的AI音乐创作工具。

🛡️ 工具强调负责任的AI创新,通过公众参与和隐私保护解决潜在问题,保护原创艺术家声音和风格。

🌐 MusicFX可能颠覆音乐产业,降低音乐创作门槛,但伴随AI生成内容对版权和音乐原创性的挑战。

GoLinks发布企业人工智能搜索引擎GoSearch

GoSearch是GoLinks推出的人工智能搜索引擎,通过多模态搜索和AI核心技术,提供企业高效的信息检索体验,减轻员工认知负担,支持实时索引和兼容100多个数据源。

【AiBase提要:】

🚀 GoSearch发布: GoLinks的GoSearch旨在解决大型企业在软件应用堆栈中信息泛滥的问题,提高工作效率,支持多模态搜索,如图像、截图、笔记和URL等。

🧠 AI核心技术: GoSearch利用人工智能核心技术,不仅可查找文档,还能理解用户意图,提供信息摘要,减轻员工认知负担,实现细致入微的索引。

🌐 全面搜索功能: GoSearch实时索引数据,兼容100多个数据源,包括Google Workspace和Salesforce,通过多模式搜索提供集成的企业搜索体验,标志着企业搜索领域的一场革命。

👨‍💻💡🎯聚焦开发者

阿里推虚拟试穿技术Outfit Anyone

阿里推出的Outfit Anyone虚拟试穿技术采用双流条件扩散模型,处理模特和服装数据,通过衣物图像实现逼真的虚拟试穿效果,结合Animate Anyone技术,轻松制作任意角色的换装视频。

image.png

项目地址:https://humanaigc.github.io/outfit-anyone/

体验地址:https://huggingface.co/spaces/HumanAIGC/OutfitAnyone

【AiBase提要】

👗 多样性试穿体验: Outfit Anyone采用双流条件扩散模型,处理模特、服装和文本提示,实现逼真虚拟试穿效果,包括对各种古怪和独特服装风格的处理。

👥 泛化能力强大: 技术展示了对各种体型和动漫角色的泛化能力,支持不同生活背景和新动画角色的试穿需求。

🎥 轻松换装视频制作: 结合Animate Anyone技术,实现了更丰富的试穿体验,用户可以轻松制作任意角色的换装视频。

斯坦福华人提出全新视频生成框架WonderJourney

斯坦福华人研究人员推出的WonderJourney框架,通过一句话或一张图生成连贯的3D场景,融合语言模型和视觉模块,展现出无限的创意可能。

image.png

项目网址:https://kovenyu.com/wonderjourney/

【AiBase提要:】

🌐 全新框架设计: WonderJourney采用模块化工具,可从任何位置开始,通过简短文本或图像生成连贯的3D场景序列。

🎨 文本驱动的创意: 利用Language Model生成场景描述,通过视觉模块生成彩色点云,展示多样化的可控制的奇妙之旅。

🚀 重要突破与应用: WonderJourney开创了3D场景生成领域,为用户提供强大而灵活的工具,通过简单输入创造丰富的3D视觉体验,为艺术、影视等领域带来新可能性。

微软推压缩技术LLMLingua

微软推出LLMLingua,采用独特粗细压缩技术,解决大型语言模型中长提示带来的计算效率问题,实现高达20倍的压缩比例。

image.png

项目网址:https://github.com/microsoft/LLMLingua

论文网址:https://arxiv.org/pdf/2310.05736.pdf

【AiBase提要】

🔄 动态预算控制: LLMLingua采用动态预算控制,在大比例压缩下分配压缩比例,保持提示的语义完整性。

🎯 标记级迭代压缩算法: 引入标记级迭代压缩算法,实现复杂压缩并保持关键提示信息。

🔄 指令调整方法: 提出基于指令调整的方法,解决语言模型分布不一致问题,提高小型语言模型与大型LLM的兼容性。

南洋理工发布提高AI视频生成内容一致性方法FreeInit

南洋理工大学推出名为FreeInit的方法,通过优化推理初始噪声的时空低频组件,显著提高人工智能视频生成的内容一致性,为视频创作和人工智能应用带来新可能性。

image.png

项目地址:https://tianxingwu.github.io/pages/FreeInit/

【AiBase提要】

💡 FreeInit方法创新: 通过迭代优化推理初始噪声的时空低频组件,无需额外训练,显著提高视频生成的时空一致性。

💻 隐含训练-推理差距揭示: 研究视频扩散模型的噪声初始化,发现训练-推理差距,提出FreeInit填补初始化差距,改善生成结果。

🚀 技术前景展望: FreeInit方法的发布为人工智能视频生成领域带来新突破,有望提高视频生成的质量和时间一致性,为未来发展带来更多可能性。

谷歌发布开源虚拟人物库“VALID”

谷歌AR&VR与佛罗里达中央大学合作发布开源虚拟人物库“VALID”,含210个全套虚拟人物,代表七个不同种族,旨在促进多样性和包容。研究结果显示对亚洲、黑人和白人虚拟人物的一致认知,但其他种族存在认知歧义。同族偏见影响了虚拟人物辨识,强调参与者种族对研究的影响。库提供开放访问,支持Unity和Unreal等游戏引擎,挑战刻板印象,为虚拟人物研究和应用提供多样性视角。

image.png

项目网址:https://github.com/google/valid-avatar-library

论文:https://www.frontiersin.org/articles/10.3389/frvir.2023.1248915/full

【AiBase提要】

🌐 谷歌AR&VR与佛罗里达中央大学发布名为“VALID”的虚拟人物库,包含210个全套虚拟人物,代表七个不同种族。

👥 研究结果显示亚洲、黑人和白人虚拟人物在各种族参与者中有一致认知,但其他种族存在认知歧义,同族偏见影响虚拟人物辨识。

📚 开源的“VALID”库支持Unity和Unreal等游戏引擎,挑战刻板印象,为虚拟人物研究提供多样性视角。

举报

  • 相关推荐
  • 大家在看
  • helpmee.ai:AI辅助的电脑帮助,让老年人轻松掌握技术。

    helpmee.ai是一个利用AI技术为老年人提供电脑使用指导的网站。通过耐心的语音对话和屏幕共享,AI伴侣逐步引导老年人完成任何计算机任务,确保他们能够自信且独立地在数字世界中导航,支持50多种语言,全天候服务。该服务使用OpenAI的最新GPT-4o模型,提供无与伦比的准确性和理解力。

  • video-subtitle-master:批量生成视频字幕并支持多语言翻译的客户端工具

    video-subtitle-master 是一个基于之前开源项目 VideoSubtitleGenerator 开发的客户端工具,它允许用户批量为视频生成字幕,并支持将字幕翻译成不同的语言。这个工具特别适合需要对视频内容进行本地化处理的个人或团队,无论是为了教育、娱乐还是商业目的。它集成了多种翻译服务,如百度翻译、火山引擎翻译等,并优化了对 Apple Silicon 的支持,提供了快速的生成速度。

  • EngineerDraft:实时字幕生成工具

    BeMyEars 是一款实时字幕生成工具,利用本地设备完成语音识别,为听障人士和需要字幕的用户提供极致体验。其主要优点包括多语言支持、多源输入、隐私保护等。

  • 大设:AI 智能绘画平台,让文本和图片成为艺术作品。

    大设是基于 Stable Diffusion 的免费 AI 绘画网站,提供一键生成高清精绘大图、SDXL 模型教程、AI 提示词工具。背景包括清华大学研发,定位为 AI 智能绘画平台。

  • Supaclip:将视频快速转化为知识库。

    Supaclip是一个旨在帮助用户将视频内容转化为知识库的在线工具。它通过提供视频摘要、AI助手、字幕和时间戳等功能,帮助用户快速理解和导航视频内容。产品适用于内容创作者、学生、播客主持人和研究人员等,通过这些功能,用户可以增加视频的有机覆盖率、从讲座中获取最大价值、提供节目笔记、通过聊天机器人进行互动以及从访谈视频和纪录片中提取关键见解和引用。

  • Context Data:一站式企业级数据平台,专为生成式AI应用设计

    Context Data是一个为生成式AI应用设计的数据处理和转换平台,旨在帮助AI团队构建数据基础设施,以便他们专注于构建AI逻辑。它提供了无需设置基础设施、跨多个源转换数据、连接多个模型、加载数据到主要向量数据库、查询私有向量数据、定时管道以及构建数据和ETL管道等功能。Context Data强调数据隐私控制,避免了将数据上传到OpenAI等外部模型,简化了构建AI就绪数据平台的压力和复杂性。

  • World of Gami:AI驱动的Trello替代品,让团队任务保持最新。

    World of Gami是一个利用AI技术简化任务管理的网站,它将日常任务转化为令人兴奋的挑战,使项目管理不仅是必需的,而且是团队工作流程中令人愉悦和有益的一部分。通过将传统任务列表或看板转变为生动和竞争性的游戏,每个用户可以创建自己的'船',使用Scrum方法进行冲刺,并竞争'冲刺皇冠',这不仅使项目管理更加有趣,而且培养了团队精神和成就感。

  • Dola AI:您的个人 AI 日历助手,简化日程安排,释放时间。

    Dola 是一款通过消息应用进行日程安排的 AI 助手,它与 Google 日历、Apple 日历和 Caldav 兼容,能够通过自然语言快速安排日程,提高效率,同时支持语音、图片和文本输入。Dola 旨在帮助用户节省时间,专注于他们喜欢的事情。

  • Remind AI:使用先进的AI技术,轻松捕捉您的数字活动并作为记忆使用。

    reMind是一款利用AI技术帮助用户捕捉和利用数字活动作为记忆的产品。它通过先进的人工智能技术,让用户能够轻松地记录和回顾自己的工作和活动,从而提高生产力。

  • BrowseBuddy:AI购物助手,提升电商购物体验

    BrowseBuddy是一款AI驱动的聊天机器人,旨在通过提供个性化的帮助来增强在线购物体验。它利用自然语言处理技术来理解客户查询,提供量身定制的产品推荐和支持。BrowseBuddy通过智能产品匹配、实时解决方案、多语言支持等技术,为电商企业提供了一种提升客户满意度和销售效率的解决方案。

  • Depthforge:AI驱动的3D图像生成应用

    Depthforge是一款利用Apple Vision Pro技术,通过文本提示生成沉浸式3D图像的应用。它易于使用,能够让用户通过简单的文本输入来创造独特的高质量3D图像,体验全新的3D图像生成世界。

  • AudiowaveAI:将任何文本转换为有声读物质量的声音。

    AudiowaveAI是一款利用人工智能技术将文本转换成高质量音频的应用程序。它与传统的文本到语音技术不同,提供了更加自然、富有情感的语音输出,让听众在学习和享受内容时获得更好的听觉体验。产品背景信息包括它是由全球创新公司和自由职业者信赖的产品,其主要优点在于其引人入胜的声音、自然的声音效果以及令人愉悦的听觉享受。产品定位为教育工具,旨在帮助用户在移动中学习,享受夏日阳光。

  • Usermaven:简单而强大的网站和产品分析工具

    Usermaven是一个简单易用且功能强大的网站和产品分析工具,专为市场营销人员和产品专业人士设计。它通过自动捕获所有事件来提供精确的追踪,无需依赖开发人员,从而简化了数据分析过程。Usermaven还提供了隐私友好的解决方案,支持GDPR和CCPA合规性,并且可以无cookie运行,保护用户隐私。

  • StarSearch:git历史查询助手,贡献者分析工具

    StarSearch是一个专注于git历史和贡献者分析的在线工具,它能够帮助用户快速获取有关贡献者活动的信息,识别关键贡献者,以及基于工作内容找到特定领域的专家。该工具对于开源项目维护者、开发者和团队领导者来说极为重要,因为它可以提高项目管理效率,优化团队协作,并促进技术社区的交流与合作。StarSearch是我们基于人工智能的功能,可以深入了解贡献者的历史和活动,带来透明度和对开源项目的全新深度认知。

  • AIGCRank.cn:AI 排行榜

    AIGCRank.cn 是一个提供 AI 产品排行榜的网站,主要收集和整理国内外各类 AI 产品的相关信息,并通过排行榜形式展示给用户。该网站旨在帮助用户了解和选择最优秀的 AI 产品,以满足其需求。

  • ReVideo:视频重制,精确控制内容与运动

    ReVideo是一个创新的视频编辑技术,它允许用户在特定区域进行精确的视频编辑,通过指定内容和运动来实现。这项技术通过修改第一帧来实现内容编辑,而基于轨迹的运动控制提供了直观的用户交互体验。ReVideo解决了内容和运动控制之间耦合和训练不平衡的新任务。通过开发三阶段训练策略,逐步从粗到细解耦这两方面,并提出一种时空自适应融合模块,以在不同的采样步骤和空间位置整合内容和运动控制。

  • TryOnDiffusion:一款基于扩散模型的服装试穿技术

    TryOnDiffusion是一种创新的图像合成技术,它通过两个UNets(Parallel-UNet)的结合,实现了在单一网络中同时保持服装细节和适应显著的身体姿势及形状变化。这项技术在保持服装细节的同时,能够适应不同的身体姿势和形状,解决了以往方法在细节保持和姿势适应上的不足,达到了业界领先的性能。

  • AIGCRank大语言模型API价格对比:汇总和比较全球主要AI模型提供商的价格信息

    AIGCRank大语言模型API价格对比是一个专门汇总和比较全球主要AI模型提供商的价格信息的工具。它为用户提供最新的大语言模型(LLM)的价格数据,包括一些免费的AI大模型API。通过这个平台,用户可以轻松查找和比较OpenAI、Claude、Mixtral、Kimi、星火大模型、通义千问、文心一语、Llama 3、GPT-4、AWS和Google等国内外主要API提供商的最新价格,确保找到最适合自己项目的模型定价。

  • Pandora:通用世界模型,支持自然语言动作和视频状态

    Pandora是一个向通用世界模型迈进的模型,它能够通过生成视频来模拟世界状态,并允许使用自然语言在任何时间控制视频内容。Pandora与以往的文本到视频模型不同,它允许在视频生成过程中随时接受自由文本动作输入,从而实现视频的即时控制。这种即时控制能力实现了世界模型支持交互式内容生成和增强的健壮推理和规划的承诺。Pandora能够跨多个领域生成视频,如室内/室外、自然/城市、人类/机器人、2D/3D等场景。此外,Pandora还允许通过高质量的数据进行指令调整,使得模型能够在一个领域学习动作并在另一个未见过的领域中使用。Pandora模型还通过自回归模型生成更长的视频,其生成的视频长度可以超过训练视频的长度。尽管Pandora作为通用世界模型的初步步骤仍有限制,例如在生成一致性视频、模拟复杂场景、理解常识和物理法则以及遵循指令/动作方面可能会失败,但它在视频生成和自然语言控制方面展示了巨大的潜力。

  • Dev Home:Windows开发者的一站式控制中心

    Dev Home是微软为Windows开发者推出的一款桌面客户端,旨在提供一个集中的控制中心,帮助开发者监控项目、设置开发环境、连接开发者账户和工具,并创建专用的存储空间。它通过自定义的仪表板小部件,使开发者能够监控工作流程、跟踪开发项目、编码任务、Azure DevOps查询、GitHub问题、拉取请求、可用SSH连接以及系统的CPU、GPU、内存和网络性能。Dev Home 0.14 预览版更新集成了 PowerToys 模块,以及基于 AI 的 Quickstart Playground 功能。

今日大家都在搜的词: