击败亚马逊、谷歌！阿里云图像识别速度创记录

2018-12-27 15:42 · 稿源：猎云网

《击败亚马逊、谷歌！阿里云图像识别速度创记录》文章已经归档，不再展示相关内容，编辑建议你查看最新于此相关的内容：阿里云打破AI图像识别计算纪录，识别一张图片用时0.0739ms4月3日消息，近日，斯坦福大学公布了最新的DAWNBench深度学习榜单，阿里云打破谷歌等企业创造的纪录，

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
亚马逊入库配置费新规下，这样发货超省钱！

自今年3月入库配置费新规实施以后，很多卖家朋友都慌了神!到底选美西还是美东?1个货件?2个货件?还是4个以上?AGL这路子到底走不走得通?完啦，这才刚开始想，头就已经开始大了!另外，还有发货量的问题。发货量少，因分仓未达起送标准，费用增加;发货量商品种类稍多一些的呢，虽有亚马逊后台计算器可用，但数量限制在20个，计算麻烦;同时卖家还需考虑AGL物流，到底如何�

AGL物流入库配置费美东
图像转文字工具2txt 可识别图像中文字并转换为可编辑文本

2txt是一个基于AI的图像转文字工具，使用ClaudeHaiku和VercelAISDK创建。这个工具不仅可以将任意图像上的文字识别出来能将其转换成可编辑的文本格式。用户只需上传图片，系统就会自动识别图片中的文字，并将其转换成可编辑的文本格式，极大地提高了工作效率。

2txt AI头条
AI「搅动」云计算，阿里云推动算力底层变革

“从‘敢为行业先’的可持续低价到AI生态的全面构建，阿里云正面向未来的企业及开发者，全力铺设推动社会进步的算力基石”。在阿里云近期发布的品牌宣传片中，分众传媒和百川智能分别现身其中。作为云计算产业的领航者，阿里云也将继续以造浪者的身份，打造新一代算力基础设施，真正推动“智能化”惠泽千行百业、千家万户。
九四智能受邀做客亚马逊云科技直播间，赋能数字社媒客户持续增长

4月18日，九四智能联合创始人、高级副总裁李磊受邀做客亚马逊云科技直播间，与亚马逊云科技媒体与娱乐行业专家共同探讨生成式AI在媒体与娱乐行业的应用。生成式人工智能技术在泛娱乐行业可广泛应用于智能对话系统、创意内容生成、个性化推荐、营销文案创作、游戏内容构建等多个环节，为提升内容质量、优化用户体验和降低人工成本提供了非常大的潜力。依托AI外呼、AI呼入、5G视频外呼等工具为抓手，致力为企业客户提供智能化用户运营SaaS平台，实现对其用户全生命周期智能化运营，为客户业绩持续增长赋能。

生成式AI 媒体与娱乐行业智能对话系统
亚马逊推出新的生成式 AI 功能，帮助卖家创建产品描述

亚马逊通过引入生成式人工智能功能，继续创新，帮助卖家成功，使他们可以提供自己网站的链接，并利用新的生成式AI功能，轻松在亚马逊商店中创建高质量的产品详情页。AI技术的发展正在彻底改变各种体验，亚马逊正不断推出新功能，从显著提高顾客在商店内的购物体验，以及卖家在打造蓬勃发展业务方面的成功。改进和简化列表创建是一个令人兴奋的例子，说明卖家合作伙伴已经从亚马逊的生成式AI投资中受益，这只是我们继续与小型企业合作，打造惊人购物和销售体验的又一方式。

生成式AI 亚马逊卖家 AI头条
北大发布新图像生成框架VAR 推理速度提高20倍

北京大学最近发布了一种新的图像生成框架，名为VAR。这一突破性的技术首次使GPT风格的自回归模型在图像生成上超越了扩散transformer，同时展现出了与大语言模型观察到的类似Scalinglaws的规律。VAR算法为计算机视觉中的自回归算法设计提供了新的见解，有望推动这一领域的进一步发展。

图像生成 AI头条
小米发布新项目SDXS，大幅提升SD图像生成速度

小米发布了一项名为SDXS的项目，该项目旨在大幅增强SD图像生成速度。SDXS可以在单个GPU上实现SD1.5每秒100张图的生成速度SDXL则能达到每秒30张图的生成速度。这一突破性的进展将有助于推动图像生成技术的发展，同时也为小米在人工智能领域的研究和应用提供了有力支持。

SDXS AI头条
罗永浩首度直播卖“云”：将向创业者推荐阿里云爆款产品

阿里云官微宣布，罗永浩将于3月31日晚7点首次淘宝直播卖云”，选品涵盖云服务器、云存储及企业网盘等阿里云产品。作为现代信息技术的核心支柱，以其卓越的数据处理能力、海量存储空间及多元化的技术服务，为众多企业特别是初创和中小型企业提供了强大的发展动力。人们普遍关注着，罗永浩能否成功地将云计算这一复杂概念以通俗易懂的方式传达给广大观众，以及他的直播是否能够真正吸引到目标用户群体，推动云计算服务的广泛应用。

云计算阿里云罗永浩
亚马逊线下店AI训练失败：依赖千名审核人员手动审核

亚马逊旗下亚马逊生鲜杂货店曾计划实现无需收银员的“拿货即走”技术，但这一技术面临困难，无法真正发挥作用。原计划通过基于AI的视频监控系统追踪顾客购买的商品，实现自动结账，但由于技术问题，亚马逊不得不放弃这一设想。尽管“拿货即走”技术未能实现最初设想，但亚马逊仍在不断探索新的技术模式，以提升顾客购物体验。

AI 亚马逊 AI头条
字节跳动发布图像模型蒸馏算法Hyper-SD 推理速度更快更完美

字节跳动的Lightning团队发布的新图像模型蒸馏算法Hyper-SD，是一项在图像处理和机器学习领域的重要进展。这项技术通过创新的方法提升了模型在不同推理步骤下的性能，同时保持了模型大小的精简。随着进一步的研究和开发，Hyper-SD及其衍生技术有望在多个领域内推动AI技术的发展和应用。

Hyper AI头条

笔灵 AI 写作:专业的 AI 论文写作助手，节省时间和精力。

笔灵 AI 写作是一款专业的 AI 论文写作助手，通过人工智能技术帮助用户撰写高质量的论文。其主要优点包括快速生成论文大纲、节省写作时间、提供各类论文模板和服务。产品定位于提高论文写作效率和质量，适用于学生、研究人员等写作需求。

学术人工智能高效写作

IDM-VTON:一种用于虚拟试穿任务的扩散模型，特别在真实世界场景中提高图像保真度和细节保存。

IDM-VTON是一种新型的扩散模型，用于基于图像的虚拟试穿任务，它通过结合视觉编码器和UNet网络的高级语义以及低级特征，生成具有高度真实感和细节的虚拟试穿图像。该技术通过提供详细的文本提示，增强了生成图像的真实性，并通过定制方法进一步提升了真实世界场景下的保真度和真实感。

虚拟试穿图像生成扩散模型

PhotoMagic:快速创建商业图片的 AI 工具

PhotoMagic 是一款使用人工智能技术的图片处理工具，通过简单操作即可快速生成商业级图片。其主要优点包括快速高效、大幅降低图片处理成本，定位于帮助用户在电商等场景下快速生成吸引人的图片。

电商图片处理人工智能

京东羚珑:一站式内容生产与管理服务平台

京东羚珑是一站式内容生产与管理服务平台，提供商品主图设计、广告 banner 设计、店铺首页设计等功能。其主要优点包括丰富的模板选择、免费设计服务、高效便捷的操作流程。产品定位于为商家提供设计合作伙伴服务。

内容生产设计服务广告制作

Overleaf:在线 LaTeX 编辑器，适用于科学和技术写作。

Overleaf 是基于 LaTeX 的在线协作编辑器，无需安装，支持实时协作、版本控制、数百种 LaTeX 模板等。适用于科学和技术领域的文档写作。

科学技术文档

Continue:一个开源的IDE扩展，旨在提升AI软件开发系统的模块化和可进化性。

Continue是一个专为软件开发者设计的开源IDE扩展，它通过提供自动化和智能化的工具来加速AI软件的开发流程。它允许开发者在构建软件时保持流畅的工作状态，通过插件和系统整合，轻松开始并加速开发过程。Continue支持多种编程语言的代码自动完成，提供代码段的重写功能，并允许通过自然语言指令来优化代码。它还支持与多种AI模型和开发环境的整合，使得开发者能够构建一个随着新功能出现而进化的软件系统。

自动化 AI 开发工具

Cohere Toolkit:是一套开源的AI应用程序开发工具包，旨在加速开发并部署到云平台。

Cohere Toolkit是一个开源的AI应用程序开发工具包，它提供了一套生产就绪的应用程序，可以在云服务提供商上部署。这些应用程序可以访问Cohere的Command、Embed和Rerank模型，并且可以连接到企业数据和特定团队，以提高生产力。该工具包包含用于构建独特应用程序并可扩展部署的组件。

AI 开源云部署

Bunny:轻量级但功能强大的多模态模型家族。

Bunny 是一系列轻量级但功能强大的多模态模型，提供多种即插即用的视图编码器和语言主干网络。通过从更广泛的数据源进行精选选择，构建更丰富的训练数据，以补偿模型尺寸的减小。Bunny-v1.0-3B 模型在性能上超越了同类大小甚至更大的 MLLMs（7B）模型，并与 13B 模型性能相当。

多模态学习机器学习人工智能

llava-llama-3-8b-v1_1:一款由XTuner优化的LLaVA模型，结合了图像和文本处理能力。

llava-llama-3-8b-v1_1是一个由XTuner优化的LLaVA模型，它基于meta-llama/Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336，并通过ShareGPT4V-PT和InternVL-SFT进行了微调。该模型专为图像和文本的结合处理而设计，具有强大的多模态学习能力，适用于各种下游部署和评估工具包。

人工智能多模态学习深度学习

ID-Animator:零样本身份保持人类视频生成技术

ID-Animator是一种零样本人类视频生成方法，能够在不需要进一步训练的情况下，根据单个参考面部图像进行个性化视频生成。该技术继承了现有的基于扩散的视频生成框架，并加入了面部适配器以编码与身份相关的嵌入。通过这种方法，ID-Animator能够在视频生成过程中保持人物身份的细节，同时提高训练效率。

人工智能视频生成身份保持

HiDiffusion:，解锁预训练扩散模型中的高分辨率创作与效率。

HiDiffusion是一个预训练扩散模型，通过仅添加一行代码即可提高扩散模型的分辨率和速度。该模型通过Resolution-Aware U-Net (RAU-Net)和Modified Shifted Window Multi-head Self-Attention (MSW-MSA)技术，动态调整特征图大小以解决对象复制问题，并优化窗口注意力以减少计算量。HiDiffusion能够将图像生成分辨率扩展到4096×4096，同时保持1.5-6倍于以往方法的推理速度。

图像合成人工智能机器学习

Snowflake Arctic:高效的企业级人工智能模型，低成本实现高质量定制模型。

Snowflake Arctic 是一款专为企业级人工智能任务设计的大规模语言模型（LLM），它在 SQL 生成、编码以及指令遵循等基准测试中表现出色，即使与计算预算更高的开源模型相比也毫不逊色。Arctic 通过其高效的训练和推理，为 Snowflake 客户以及广大 AI 社区提供了一种成本效益极高的定制模型创建方式。此外，Arctic 采用 Apache 2.0 许可，提供无门槛的权重和代码访问，并通过开源数据配方和研究洞察，进一步推动了社区的开放性和成本效益。

人工智能机器学习自然语言处理

OpenVoice V2:是一款支持多语言的语音合成模型，提供高质量的语音克隆与风格控制功能。

OpenVoice V2是一款文本到语音（Text-to-Speech, TTS）的模型，它在2024年4月发布，包含了V1的所有功能，并进行了改进。它采用了不同的训练策略，提供了更好的音质，支持英语、西班牙语、法语、中文、日语和韩语等多种语言。此外，它还允许商业用途的免费使用。OpenVoice V2能够精确地克隆参考音调色彩，并在多种语言和口音中生成语音。它还支持零样本跨语言语音克隆，即生成语音的语言和参考语音的语言不需要在大规模多语种训练数据集中出现。

语音合成多语言音质优化

超会 AI:AI 驱动的爆款内容制造机，提供图片生成、文案生成、带货图文生成，帮助企业智能生产商品内容，提高流量与销售额。

超会 AI 是一款基于人工智能的爆款内容制造机，能够以 10 倍速度智能生产商品内容和自动化营销，帮助企业提高流量和销售额。产品背景信息丰富，价格适中，定位于为企业提供内容制造和营销解决方案。

内容制作营销自动化人工智能

OpenELM:是一套高效的语言模型家族，具备开源训练和推理框架。

OpenELM是由苹果公司开发的语言模型家族，旨在为开源研究社区提供先进的语言模型。这些模型基于公开可用的数据集训练，不提供任何安全保证，可能产生不准确、有害、有偏见或令人反感的输出。因此，用户和开发者需要进行彻底的安全测试，并实施适当的过滤机制。

语言模型自然语言处理机器学习

豆绘商拍:专业 AI 商品图和服装图生成工具

豆绘商拍是一款利用先进 AI 技术提供商品图和服装图生成服务的工具，能快速实现抠图、背景更换和模特换脸等功能，帮助企业提升品牌形象和市场竞争力。

AI 商品图生成服装图生成

Intellisay:使用你的声音创建一个最佳的每日计划，通过语音轻松创建任务和事件。

intellisay是一个通过语音输入创建每日计划的生产力工具。它使用人工智能技术，将语音转录和分析，然后提供一个优化的计划来实现成功。它能够帮助用户节省时间，从而更高效地完成任务。该产品背后的主要优点是快速设置和使用，以及跟踪任务和习惯的能力。

生产力语音输入任务管理

Grimo AI:是一个结合Obsidian、Github和Quora的平台，可以构建、增长和整理知识。将分享的见解分叉到你的仓库中，或从YouTube或Twitter导入内容。

Grimo AI是一个帮助用户构建、增长和整理知识的平台。它集合了Obsidian、Github和Quora的优点，提供了简单易用的界面和功能。用户可以通过查询获取来自任何人、任何地方的见解，并将这些见解分叉到自己的工作区。Grimo AI的核心优点包括：1. 将知识整理成精华；2. 从任何地方学习；3. 构建一个强大的知识社区。Grimo AI的定位是帮助用户更高效地获取和组织知识。

知识管理笔记查询

Bland AI:Bland是用于构建规模化AI电话呼叫应用程序的基础架构。

Bland是一个用于构建AI电话呼叫应用程序的平台，它提供了简单易用的API接口，使开发者能够轻松地创建自己的智能电话代理。Bland的主要优点是快速搭建和部署，可扩展性强，同时提供了丰富的文档和支持。无论是用于销售呼叫中心、客服代理、营销自动化还是其他领域，Bland都能帮助企业提高效率，节省时间和资源。

AI电话智能电话代理 API接口

Cici, browser AI assistant:GPT强化的网页和视频的内联翻译及快速摘要

Cici是您的AI朋友和浏览器助手。她可以回答您的问题，摘要网页内容，提供快速的词语翻译，并执行智能搜索。她可以为您做到这一切。

击败亚马逊、谷歌！阿里云图像识别速度创记录

今日大家都在搜的词：

热文

站长商机