首页 > 业界 > 关键词  > AI绘画最新资讯  > 正文

AI视野:腾讯云AI绘画上线SaaS版本;ChatGPT将推新功能Sunshine;SOLAR10.7B大模型屠榜;LG发布全新AI笔记本;麻省理工开源Stream Diffusion

2023-12-29 14:49 · 稿源:站长之家

新鲜AI产品点击了解:https://top.aibase.com/

🤖📱💼AI应用

ChatGPT将推新功能Sunshine

OpenAI计划推出名为“Project Sunshine”的ChatGPT个性化升级,包括更连贯的对话、改进学习能力和自定义记忆功能,以及2024年推出GPT商店升级。

image.png

【AiBase提要:】

💬 OpenAI计划推出ChatGPT升级功能“Project Sunshine”,提供更个性化的对话体验和自定义记忆功能。

🔄 升级计划延期至2024年,新增GPT商店搜索功能,展示最优秀的GPT定制应用平台。

🌐 新功能将使ChatGPT更加智能、个性化,为用户提供更高质量的回答和工作助理服务。

腾讯云AI绘画上线SaaS版本

腾讯云AI绘画推出SaaS版本,成为国内首批通过中国信通院评估的AIGC绘画平台,提供API和在线工具,支持智能图生成、文生成图等多种能力。

【AiBase提要:】

🚀腾讯云AI绘画推出SaaS版本和API两种产品形态,满足不同场景需求,支持智能图生成、文生成图等多项能力。

🌐在中文语境下进行专门优化,展现对中文的深理解和对东方审美的偏好,速度出色,API接口响应时间仅为业内平均水平的一半。

🎨提供在线工具,包括文生成图和图生成图等功能,同时具备作品管理、批量生成和下载等功能,为创意专业人士提供便利。

AI生成视频工具Assistive Video 输入描述即可生成视频

Assistive Video是一款人工智能生成视频工具,用户通过输入描述或上传图片即可轻松生成高质量4秒视频,为各领域带来便捷的视频制作体验。

image.png

体验地址:https://top.aibase.com/tool/assistive-video

【AiBase提要:】

🎥 视频生成便捷:Assistive Video通过输入描述或图片,快速生成高清视频,让用户无需专业技能即可轻松创作各类型视频。

🌐 广泛应用领域:该工具有望在广告、影视后期制作、社交媒体内容创作等领域发挥作用,为行业带来革命性改变。

🚀 个性化设置:用户可控制视频质量、一致性、运动强度,甚至设置种子,满足个性化需求,提升用户体验。

Spiritme AI:手机拍5分钟视频即可克隆一个虚拟的你

Spiritme AI是一款类似Heygen的工具,通过使用iPhone拍摄5分钟视频,能够捕捉用户的外貌、动作和表情,实现虚拟形象的克隆,同时支持将文本转换成虚拟形象演说视频。

image.png

体验地址:https://top.aibase.com/tool/spiritme-ai

【AiBase提要】

📱 虚拟形象创建: 利用Spiritme AI,只需用iPhone拍摄5分钟视频,即可捕捉外貌和动作,克隆虚拟形象,无需表演经验。

📄 文本到视频转换: Spiritme AI允许用户输入文本,自动生成虚拟形象演说该文本的视频,实现自然的表情展示。

🤖 AI ScriptWriter功能: 支持自动编写视频对话或旁白,根据用户提供的信息,简化视频制作过程,只需两次点击操作。

🤖📈💻💡大模型动态

SOLAR10.7B大模型屠榜HuggingFace

深度学习领域的新技术DUS(深度扩展方法)由Upstage AI提出,成功在SOLAR10.7B大模型上实现创新的羊驼拼接,高效集成,并在HuggingFace排行榜中取得显著成绩。

image.png

论文地址:https://arxiv.org/pdf/2312.15166.pdf

【AiBase提要:】

🚀 技术创新: DUS技术通过巧妙选择Mistral7B底材,拼接两个羊驼,并采用层次删除方法,成功超越传统扩展方法,达到令人瞩目的成果。

💡 数据安全与开源: 团队回应数据泄露质疑,提供数据污染测试结果,SOLAR10.7B基础模型和微调模型以Apache2.0协议开源,受到科研社区广泛关注。

👥 用户反馈: 试用者对DUS技术在从JSON格式数据中提取数据的表现表示满意,证明了该技术在实际数据处理上的优越性。

📰🤖📢AI新鲜事

Xbox被指使用AI生成的艺术作品推广游戏

Xbox因在社交媒体上使用由AI生成的艺术作品推广独立游戏而受到指责,引发了关于AI艺术应用的争论,尤其是涉及艺术品的情况。

image.png

【AiBase提要:】

🤖 一些玩家指责Xbox在社交媒体上使用AI程序生成的艺术品推广独立游戏,引发了关于AI艺术应用的争议。

📅 Xbox账号在发推询问粉丝对2023年最喜欢的独立游戏的看法时使用了一幅由AI生成的艺术作品,细节异常引发玩家不满,最终Xbox删除了推文。

🖌️ 尽管一些开发者对AI艺术持积极态度,但许多玩家批评其在游戏和广告中的应用,认为引发了社区不满。

LG发布全新AI笔记本

LG公司推出最新LG gram系列笔记本,包括Pro型号16Z90SP和17Z90SP,以及17.16.15和14型号17Z90S、16Z90S、15Z90S和14Z90S。新款支持LG gram Link应用的AI功能,实现屏幕镜像和文件照片分享。

【AiBase提要:】

🌐 LG发布LG gram系列新款笔记本,融合AI功能,支持屏幕镜像和文件分享。

💻 Pro型号搭载Intel处理器、NVMe PCIe4.0SSD和NVIDIA GeForce RTX3050,支持AI Boost。

🔄 LG gram Link构建互联设备生态系统,提升连接性和可扩展性。

奥特曼挖走iPhone设计师 联手打造AI移动设备

苹果设计副总裁Tang Tan加入Jony Ive的LoveFrom公司,与OpenAI合作研发替代智能手机的AI移动设备,计划寻求软银超10亿美元投资。

【AiBase提要:】

🤝 合作计划: Tang Tan离职加入LoveFrom公司,与OpenAI合作研发AI移动设备,计划寻求超10亿美元投资。

📱 产品方向: LoveFrom设计,OpenAI提供软件支持,可能得到软银硬件支持,旨在独立开发避免依赖苹果或谷歌系统。

🚀 背景与动机: Jony Ive与OpenAI合作是在三年协议结束后,意图避免依赖于苹果或谷歌系统,独立开发AI移动设备。

LG开发了一款AI双足机器人

LG最新研发的双足AI机器人将在2024年CES上亮相,可通过摄像头监控和互动宠物,为离家需照顾宠物的人提供便利。

【AiBase提要:】

🤖 智能互动: LG的小型双足AI机器人配备摄像头和人工智能技术,能实时监控宠物行为,用户可远程控制并与宠物进行语音交流。

🐶 照顾解决方案: 机器人为离家需照顾宠物的人提供解决方案,可远程监控宠物状态,提供定制化服务,甚至检测宠物健康状况。

🏠 多功能应用: 除照顾宠物外,机器人还可用于家庭安防、家庭娱乐,是一款多功能智能设备,提供便利和更多与宠物互动的乐趣。

OpenAI员工:未来的关键技能不是提示工程,而是与人类沟通的能力

一位OpenAI员工在社交媒体上表示,未来的关键技能不是提示工程,而是阅读、写作和口语。有效沟通能力将在2024年成为真正重要的技能,即便是对于年薪六位数以上的提示工程师。

【AiBase提要:】

📚 阅读、写作和口语将成为未来最重要的技能。

💬 提示工程与与人沟通并无不同,OpenAI员工表示。

🤖 对话AI系统的关键在于有效沟通技能,而不仅仅是提示工程。

麻省理工用AI发现新抗生素类别

麻省理工大学科学家利用人工智能发现新型抗生素,可对抗耐药性金黄色葡萄球菌(MRSA),是60年来首个重要的抗生素突破。

image.png

论文地址:https://www.nature.com/articles/s41586-023-06887-8

【AiBase提要】:

🧠 AI筛选新抗生素: 麻省理工大学用深度学习模型筛选出280种新抗生素候选物,成功对抗MRSA。

🔬 双重方法评估效果: 研究团队结合抗微生物活性预测和毒性评估,找到对细菌有效且对人类安全的化合物。

💡 揭开深度学习“黑箱”: 研究旨在深入了解模型如何学习预测出优质抗生素分子。

👨‍💻💡🎯聚焦开发者

麻省理工开源Stream Diffusion

该框架采用流批处理去噪和残差无分类器指导方法,实现了流畅、高吞吐量的图像生成。流批式去噪优化了图像生成速度和效率,残差无分类器指导降低了计算成本,同时引入流水线作业和随机相似度过滤提高了系统整体性能。

开源地址:https://github.com/cumulo-autumn/StreamDiffusion

论文地址:https://arxiv.org/abs/2312.12491

【AiBase提要:】

🚀 创新性框架: 东京工业、麻省理工等联合开源的Stream Diffusion框架,8天内获6100颗星,可商用。

⚙️ 流批处理优化: Stream Diffusion采用流批处理去噪,提高图像生成速度和效率,实现了实时交互。

💡 性能提升: 框架引入残差无分类器指导、流水线作业和相似度过滤,超过91FPS的生成帧率,显著降低功耗。

清华大学提出三维重建的新方法O²-Recon

清华大学团队提出O²-Recon方法,通过2D扩散模型和神经隐式表面场,能更准确、完整地重建三维物体,支持大角度旋转和平移,具有广泛应用前景。

image.png

论文链接:https://arxiv.org/abs/2308.09591

【AiBase提要:】

👁‍🗨 O²-Recon利用预训练的扩散模型填补图像遮挡部分,通过神经隐式表面场实现更准确、完整的三维重建。

🔄 O²-Recon支持大角度的旋转和平移,为物体级别的三维表面重建技术带来新突破,具有广泛的应用前景。

🌐 该方法有望在AR/VR/MR、机器人等领域得到应用,为三维重建技术带来新的可能性。

清华新文生3D方法TICD引领SOTA

清华大学刘永进教授课题组的TICD模型在文生3D领域取得显著成绩,通过引入多视角一致性先验,提高了生成的3D模型质量。该模型在T3Bench数据集上的测试表现出色,展现了在单对象、单对象带背景、多对象提示集上的最佳成绩。

image.png

论文地址:https://arxiv.org/pdf/2312.11774.pdf

【AiBase提要:】

🚀 创新方法: TICD模型以多视角一致性为先验,通过文本和图像作为条件,纳入NeRF监督信号,有效提高了生成的3D模型一致性和质量。

🌐 全面优势: TICD在T3Bench数据集上通过定性和定量测试,不论是在单对象、单对象带背景还是多对象提示集上均取得最佳成绩,彰显了其整体优势。

🌈 问题解决: TICD方法成功解决了预训练扩散模型的局限性,克服了生成几何结构较差的问题,为文生3D领域带来了新的突破。

举报

  • 相关推荐
  • 大家在看
  • helpmee.ai:AI辅助的电脑帮助,让老年人轻松掌握技术。

    helpmee.ai是一个利用AI技术为老年人提供电脑使用指导的网站。通过耐心的语音对话和屏幕共享,AI伴侣逐步引导老年人完成任何计算机任务,确保他们能够自信且独立地在数字世界中导航,支持50多种语言,全天候服务。该服务使用OpenAI的最新GPT-4o模型,提供无与伦比的准确性和理解力。

  • video-subtitle-master:批量生成视频字幕并支持多语言翻译的客户端工具

    video-subtitle-master 是一个基于之前开源项目 VideoSubtitleGenerator 开发的客户端工具,它允许用户批量为视频生成字幕,并支持将字幕翻译成不同的语言。这个工具特别适合需要对视频内容进行本地化处理的个人或团队,无论是为了教育、娱乐还是商业目的。它集成了多种翻译服务,如百度翻译、火山引擎翻译等,并优化了对 Apple Silicon 的支持,提供了快速的生成速度。

  • EngineerDraft:实时字幕生成工具

    BeMyEars 是一款实时字幕生成工具,利用本地设备完成语音识别,为听障人士和需要字幕的用户提供极致体验。其主要优点包括多语言支持、多源输入、隐私保护等。

  • 大设:AI 智能绘画平台,让文本和图片成为艺术作品。

    大设是基于 Stable Diffusion 的免费 AI 绘画网站,提供一键生成高清精绘大图、SDXL 模型教程、AI 提示词工具。背景包括清华大学研发,定位为 AI 智能绘画平台。

  • Supaclip:将视频快速转化为知识库。

    Supaclip是一个旨在帮助用户将视频内容转化为知识库的在线工具。它通过提供视频摘要、AI助手、字幕和时间戳等功能,帮助用户快速理解和导航视频内容。产品适用于内容创作者、学生、播客主持人和研究人员等,通过这些功能,用户可以增加视频的有机覆盖率、从讲座中获取最大价值、提供节目笔记、通过聊天机器人进行互动以及从访谈视频和纪录片中提取关键见解和引用。

  • Context Data:一站式企业级数据平台,专为生成式AI应用设计

    Context Data是一个为生成式AI应用设计的数据处理和转换平台,旨在帮助AI团队构建数据基础设施,以便他们专注于构建AI逻辑。它提供了无需设置基础设施、跨多个源转换数据、连接多个模型、加载数据到主要向量数据库、查询私有向量数据、定时管道以及构建数据和ETL管道等功能。Context Data强调数据隐私控制,避免了将数据上传到OpenAI等外部模型,简化了构建AI就绪数据平台的压力和复杂性。

  • World of Gami:AI驱动的Trello替代品,让团队任务保持最新。

    World of Gami是一个利用AI技术简化任务管理的网站,它将日常任务转化为令人兴奋的挑战,使项目管理不仅是必需的,而且是团队工作流程中令人愉悦和有益的一部分。通过将传统任务列表或看板转变为生动和竞争性的游戏,每个用户可以创建自己的'船',使用Scrum方法进行冲刺,并竞争'冲刺皇冠',这不仅使项目管理更加有趣,而且培养了团队精神和成就感。

  • Dola AI:您的个人 AI 日历助手,简化日程安排,释放时间。

    Dola 是一款通过消息应用进行日程安排的 AI 助手,它与 Google 日历、Apple 日历和 Caldav 兼容,能够通过自然语言快速安排日程,提高效率,同时支持语音、图片和文本输入。Dola 旨在帮助用户节省时间,专注于他们喜欢的事情。

  • Remind AI:使用先进的AI技术,轻松捕捉您的数字活动并作为记忆使用。

    reMind是一款利用AI技术帮助用户捕捉和利用数字活动作为记忆的产品。它通过先进的人工智能技术,让用户能够轻松地记录和回顾自己的工作和活动,从而提高生产力。

  • BrowseBuddy:AI购物助手,提升电商购物体验

    BrowseBuddy是一款AI驱动的聊天机器人,旨在通过提供个性化的帮助来增强在线购物体验。它利用自然语言处理技术来理解客户查询,提供量身定制的产品推荐和支持。BrowseBuddy通过智能产品匹配、实时解决方案、多语言支持等技术,为电商企业提供了一种提升客户满意度和销售效率的解决方案。

  • Depthforge:AI驱动的3D图像生成应用

    Depthforge是一款利用Apple Vision Pro技术,通过文本提示生成沉浸式3D图像的应用。它易于使用,能够让用户通过简单的文本输入来创造独特的高质量3D图像,体验全新的3D图像生成世界。

  • AudiowaveAI:将任何文本转换为有声读物质量的声音。

    AudiowaveAI是一款利用人工智能技术将文本转换成高质量音频的应用程序。它与传统的文本到语音技术不同,提供了更加自然、富有情感的语音输出,让听众在学习和享受内容时获得更好的听觉体验。产品背景信息包括它是由全球创新公司和自由职业者信赖的产品,其主要优点在于其引人入胜的声音、自然的声音效果以及令人愉悦的听觉享受。产品定位为教育工具,旨在帮助用户在移动中学习,享受夏日阳光。

  • Usermaven:简单而强大的网站和产品分析工具

    Usermaven是一个简单易用且功能强大的网站和产品分析工具,专为市场营销人员和产品专业人士设计。它通过自动捕获所有事件来提供精确的追踪,无需依赖开发人员,从而简化了数据分析过程。Usermaven还提供了隐私友好的解决方案,支持GDPR和CCPA合规性,并且可以无cookie运行,保护用户隐私。

  • StarSearch:git历史查询助手,贡献者分析工具

    StarSearch是一个专注于git历史和贡献者分析的在线工具,它能够帮助用户快速获取有关贡献者活动的信息,识别关键贡献者,以及基于工作内容找到特定领域的专家。该工具对于开源项目维护者、开发者和团队领导者来说极为重要,因为它可以提高项目管理效率,优化团队协作,并促进技术社区的交流与合作。StarSearch是我们基于人工智能的功能,可以深入了解贡献者的历史和活动,带来透明度和对开源项目的全新深度认知。

  • AIGCRank.cn:AI 排行榜

    AIGCRank.cn 是一个提供 AI 产品排行榜的网站,主要收集和整理国内外各类 AI 产品的相关信息,并通过排行榜形式展示给用户。该网站旨在帮助用户了解和选择最优秀的 AI 产品,以满足其需求。

  • ReVideo:视频重制,精确控制内容与运动

    ReVideo是一个创新的视频编辑技术,它允许用户在特定区域进行精确的视频编辑,通过指定内容和运动来实现。这项技术通过修改第一帧来实现内容编辑,而基于轨迹的运动控制提供了直观的用户交互体验。ReVideo解决了内容和运动控制之间耦合和训练不平衡的新任务。通过开发三阶段训练策略,逐步从粗到细解耦这两方面,并提出一种时空自适应融合模块,以在不同的采样步骤和空间位置整合内容和运动控制。

  • TryOnDiffusion:一款基于扩散模型的服装试穿技术

    TryOnDiffusion是一种创新的图像合成技术,它通过两个UNets(Parallel-UNet)的结合,实现了在单一网络中同时保持服装细节和适应显著的身体姿势及形状变化。这项技术在保持服装细节的同时,能够适应不同的身体姿势和形状,解决了以往方法在细节保持和姿势适应上的不足,达到了业界领先的性能。

  • AIGCRank大语言模型API价格对比:汇总和比较全球主要AI模型提供商的价格信息

    AIGCRank大语言模型API价格对比是一个专门汇总和比较全球主要AI模型提供商的价格信息的工具。它为用户提供最新的大语言模型(LLM)的价格数据,包括一些免费的AI大模型API。通过这个平台,用户可以轻松查找和比较OpenAI、Claude、Mixtral、Kimi、星火大模型、通义千问、文心一语、Llama 3、GPT-4、AWS和Google等国内外主要API提供商的最新价格,确保找到最适合自己项目的模型定价。

  • Pandora:通用世界模型,支持自然语言动作和视频状态

    Pandora是一个向通用世界模型迈进的模型,它能够通过生成视频来模拟世界状态,并允许使用自然语言在任何时间控制视频内容。Pandora与以往的文本到视频模型不同,它允许在视频生成过程中随时接受自由文本动作输入,从而实现视频的即时控制。这种即时控制能力实现了世界模型支持交互式内容生成和增强的健壮推理和规划的承诺。Pandora能够跨多个领域生成视频,如室内/室外、自然/城市、人类/机器人、2D/3D等场景。此外,Pandora还允许通过高质量的数据进行指令调整,使得模型能够在一个领域学习动作并在另一个未见过的领域中使用。Pandora模型还通过自回归模型生成更长的视频,其生成的视频长度可以超过训练视频的长度。尽管Pandora作为通用世界模型的初步步骤仍有限制,例如在生成一致性视频、模拟复杂场景、理解常识和物理法则以及遵循指令/动作方面可能会失败,但它在视频生成和自然语言控制方面展示了巨大的潜力。

  • Dev Home:Windows开发者的一站式控制中心

    Dev Home是微软为Windows开发者推出的一款桌面客户端,旨在提供一个集中的控制中心,帮助开发者监控项目、设置开发环境、连接开发者账户和工具,并创建专用的存储空间。它通过自定义的仪表板小部件,使开发者能够监控工作流程、跟踪开发项目、编码任务、Azure DevOps查询、GitHub问题、拉取请求、可用SSH连接以及系统的CPU、GPU、内存和网络性能。Dev Home 0.14 预览版更新集成了 PowerToys 模块,以及基于 AI 的 Quickstart Playground 功能。

今日大家都在搜的词: