首页 > 业界 > 关键词  > 正文

蚂蚁集团致力弥合数字鸿沟 推多个AI无障碍创新服务

2023-07-08 17:39 · 稿源:站长之家

7月8日,2023世界人工智能大会(WAIC)——科技无障碍论坛上,蚂蚁集团大安全事业群机器智能部副总经理李哲介绍蚂蚁集团在AI助力科技无障碍方面所做的努力,从创建“蓝马甲数字助老实验室”,到推出“划一划”和“挥一挥”服务视障群体。李哲倡议,希望更多科技公司加大AI for Science上的突破,真正做到从“少障碍”到“无障碍”。

image.png

图: 蚂蚁集团大安全事业群机器智能部副总经理李哲WAIC现场分享

助力弥合数字鸿沟、对产品不断进行无障碍改造,让弱势群体享受数字时代的发展红利是蚂蚁作为互联网公司的平台责任。2020年起,在国家反诈中心、国家卫生健康委老龄健康司、工信部反诈中心指导下,由蚂蚁集团、浙江蚂蚁公益基金会发起,社会各界共同参与的蓝马甲公益行动正式启动,主要通过社区讲座、公益展览、大篷车下乡等方式,帮助老人解决智能设备“不敢用、不会用”的难题。

image.png

图: 蓝马甲行动在WAIC上发布Hello老友亭功能介绍

在本届WAIC上,蓝马甲行动联合上海电信发布第一期“Hello 老友亭N大功能介绍”,用简洁明了和口语化的图文表达,拆解老友亭中五项实用功能的操作步骤及注意事项。蓝马甲计划将这份指南陆续投放在上海街头的200多座老友亭中,让叔叔阿姨在实际使用时,手边就能有一份“看得懂、用得上”的说明书。

“数字鸿沟”不应成为“服务鸿沟”,蓝马甲行动着力在线下服务上做“加法”、在技术上做“减法”。2022年9月,蓝马甲数字助老实验室应运而生,并不断进行升级,通过技术升级降低老年人使用智能手机等设备的门槛。

“我们注意到针对一部分人群,比如视障人群、老年人群,他们使用像人脸识别、拼图验证码这类常见的身份识别产品,存在很大的困难”,于是,在李哲的带领下,蚂蚁AI团队研发了基于行为识别AI技术的创新产品——“划一划”和“挥一挥”,可以让这些群体在支付宝APP中像其他群体一样方便快捷地完成校验,“基于这项AI技术,我们也开发了视障群体独有的互动方式,用于支付宝的‘集五福’等活动中。目前,这些技术通过蓝马甲数字助老实验室不断进行扩散,通过IIFAA联盟生态和蚂蚁安全科技ZOLOZ品牌,去服务全球更多的人群。”

image.png

图:蓝马甲数字助老实验室不断升级,推出更多AI无障碍产品

蓝马甲数字助老实验室陆续又推出升级版AI欺诈叫醒产品、防骗码长辈模式等功能;通过不断优化支付宝长辈模式、暖洋洋热线、沉浸式体验课程,提升使用体验,助力老人共享数字新生活。未来,更多AI产品将通过这个实验室对外推出,服务好老年群体。

“未来AI的革新,为无障碍带来2个阶段的改变。第一个阶段,大模型等AI新技术在图像处理、语音识别、自然语言理解等能力上带来的涌现能力,会让现有的很多信息无障碍产品的性能得到显著提升;第二个阶段,AI和一些基础学科的交叉研究上带来的突破,才会真正给无障碍带来一些蜕变”, 李哲说,随着行业不断发展,人工智能将助力无障碍带来新一轮的生产力革新,“如果说现在AI的涌现能力更多的是让‘有障碍’变成‘少障碍’,我相信不远的将来,在AI for Science上的突破,才会真正做到‘少障碍’到‘无障碍’”。

本场论坛汇聚了国内外研究机构和顶尖学者以及产业人士等,从不同视角分享了AI如何驱动科技无障碍创新、畅想数字时代的AI无障碍新场景等方面的研究、应用和趋势,这些深入的讨论,也为共同探讨如何通过人工智能技术,打破生活中的障碍,让每个人都能平等享受科技便利提供创新研究方向。

举报

  • 相关推荐
  • 大家在看
  • Visa启动1亿美元AI创投计划,致力推动生成式AI创新

    国际支付巨头Visa最近宣布启动了1亿美元的生成式人工智能创投计划。该计划旨在支持致力于推进生成式AI技术和应用的新兴公司,特别是那些有潜力影响未来商务和支付系统的企业。这一最新举措延续了Visa历史上与AI的合作,自1993年首次在支付流程中使用AI以来,Visa一直致力于引领支付创新,为合作伙伴和客户创造价值,促进全球商务。

  • 微软正致力于开发使用自然语言处理的 AI 客户服务系统

    微软似乎正在致力于开发一种人工智能系统,可以使用自然语言处理理解和解决客户支持请求。微软公司已经为这一基于人工智能的客户支持系统申请了专利。这个功能通过允许用户使用普通语言轻松地找到文件和照片,使搜索变得轻松。

  • 保护数字版权的新利器,Digimarc数字水印服务

    Digimarc公司最近推出了一项名为DigimarcValidate的新服务,旨在帮助保护数字内容的版权。这一服务允许版权所有者在其作品中嵌入数字水印,从提供了一种更有效的方式来标识知识产权。这也可能有助于解决AI模型在训练过程中侵犯版权的问题,为数字世界的发展提供更加安全的环境。

  • Nucleus AI发布22亿参数大模型,致力农业领域的AI转型

    加利福尼亚的初创公司NucleusAI,汇聚了来自亚马逊和三星研究的人才,近日以一款强大的22亿参数大规模语言模型正式亮相。这个模型可在开源MIT许可和商业许可下使用,它具有通用性,位于13B和34B模型之间,可以进行不同生成任务和产品的微调。VentureBeat的使命是成为技术决策者获取有关变革性企业技术的知识和进行交易的数字城镇广场。

  • Salesforce将收购Airkit.ai致力构建AI客服聊天机器人

    Salesforce宣布了一项重大计划,计划收购Airkit.ai,这家低代码平台将帮助电子商务公司构建强大的AI客服聊天机器人。该交易的具体条款并未公开披露。这一交易对于Salesforce来说无疑是加强其AI客服代理能力的重要举措,也将进一步提高其在电子商务领域的竞争力。

  • 蚂蚁集团开源代码大模型CodeFuse-CodeLlama-34B 4bits量化版本

    蚂蚁集团代码大模型CodeFuse-CodeLlama-34B4bits量化版本发布。CodeFuse-CodeLlama-34B-4bits是CodeFuse-CodeLlama-34B模型的4bits量化版本,后者是通过QLoRA对基座模型CodeLlama-34b-Python进行多代码任务微调得到的代码大模型,模型输入长度为4K。CodeFuse是蚂蚁自研的代码生成专属大模型,根据开发者的输入提供智能建议和实时支持,帮助开发者自动生成代码、自动增加注释,自动生成测试用例,修复和优化代码等,以提升研发效率。

  • 如何打造一个更聪明的“AI数字员工”

    大语言模型正在各行各业崭露头角,理解人类语言、生成创新性内容,甚至帮助企业提高效率,无论企业大小,接入AI技术的门槛似乎越来越低。在快速迭代的背面,同样也充满了数据隐私、可解释性、数据伦理以及各类技术难题。AI是个人和企业的发展优先权,越早拥抱AI,就能获得比别人高出10倍以上的发展速度。

  • 数字化驱动即时物流新动能 | 博尔捷数字科技集团荣获最佳作伙伴奖

    9月10日-11日,由中国物流与采购联合会主办,中国物流与采购联合会同城即时物流分会、中国物流与采购联合会电子商务物流与快递分会、中国物流与采购联合会物流装备专业委员会、中国物流与采购联合会航空物流分会、宁波市物流协会承办的“2023同城即时物流行业年会暨14届电子商务物流大会”在宁波成功召开。博尔捷数字科技集团欧孚科技总经理Laura受邀出席并发表《⼯具未来式》主题演讲。凭借领先的服务技术和管理理念,博尔捷数字科技集团得到了政府机构、行业协会、合作伙伴的多方认可,连续“上海人力资源服务业百强机构”;拥有ISO27000信息安全管理体系认证,ISO9001质量体系认证,信息系统安全等级保护三级资质,计算机软件著作权36个,商标注册37个;蝉联各行业媒体、机构颁发的重大奖项:年度影响力人力资源服务机构、年度人力资源科技最佳产品、中国市场人力资源科技公司50强、年度产品大奖、中国人力资源服务机构100强、劳动力管理解决方案HR甄选供应商、年度杰出数字科技企业等。

  • 迈向数字未来!Live Office 理光R家(北京)融合创新,诠释混办公新生态

    2023年9月19日,理光投资有限公司位于北京中央商务区的北京中海广场的新办公室正式投入使用。全新办公场所的设计集人性化、多元性、数字化和可持续性等多个元素于一身,其目标是将传统的办公模式边界推向新的高度,以实现理光“悦享工作”的美好愿景。通过提供更优质的办公体验、更高效的工作流程以及更先进的数字化解决方案,理光希望以此次乔迁为契机,进一步推动中国业务的拓展和发展,引领业内混合办公的全新风尚。

  • 百融智汇云:突破传统金融服务桎梏,以AI赋能数字化转型

    在当今时代,金融行业正面临着诸多挑战——竞争日益激烈,用户需求日益多样化,这使得金融机构在用户获取、服务和运营方面感受到了前所未有的压力。随着科技的飞速发展,数字化转型逐渐成为金融业的重要发展趋势。尽管金融行业在数字化转型的道路上仍有漫漫长路,但百融智汇云仍然坚持深耕技术,走向长远,让未来金融行业的数字化转型将更加顺畅,推动整个行业在数字化转型中不断迈向新的高峰。

  • Mermaid AI:快速高效的文本到图表生成工具。

    Mermaid AI是一个由Mermaid JS团队开发的图表生成工具,它通过文本快速生成图表,简化了文档流程,提高了团队间的沟通效率。它支持多种图表类型,包括流程图、序列图、Git图等,并且具有代码驱动的自动化功能,使得设计系统和新成员入职更加高效和易于管理。

  • OmniAI.ai:一站式AI应用部署平台。

    OmniAI是一个提供统一API体验的AI应用构建平台,支持在现有基础设施内运行,支持多种AI模型,如Llama 3、Claude 3、Mistral Large等,适用于自然语言理解、生成任务等复杂需求。

  • Zerox OCR:一种简单直观的PDF OCR工具,使用gpt-4o-mini进行文档转换。

    Zerox OCR是一个基于gpt-4o-mini的PDF文档转换工具,它通过将PDF文件转换为图像,然后利用GPT模型将图像内容转换为Markdown格式,从而实现对文档的高效OCR处理。该工具在价格上具有竞争力,并且能够提供比现有产品更有意义的结果。

  • Bing generative search:Bing的新型生成式搜索体验。

    Bing generative search是微软Bing搜索团队推出的新型搜索体验,它结合了生成式人工智能和大型语言模型(LLMs)的能力,为用户提供定制化和动态的搜索结果。该技术通过理解用户查询,审核数百万信息源,动态匹配内容,并以新的AI生成的布局生成搜索结果,以更有效地满足用户查询的意图。

  • lmms-finetune:统一的代码库,用于微调大型多模态模型

    lmms-finetune是一个统一的代码库,旨在简化大型多模态模型(LMMs)的微调过程。它提供了一个结构化的框架,允许用户轻松集成最新的LMMs并进行微调,支持全微调和lora等策略。代码库设计简单轻量,易于理解和修改,支持包括LLaVA-1.5、Phi-3-Vision、Qwen-VL-Chat、LLaVA-NeXT-Interleave和LLaVA-NeXT-Video等多种模型。

  • Open-Sora Plan v1.2:文本到视频生成领域的先进模型架构

    Open-Sora Plan v1.2是一个开源的视频生成模型,专注于文本到视频的转换任务。它采用3D全注意力架构,优化了视频的视觉表示,并提高了推理效率。该模型在视频生成领域具有创新性,能够更好地捕捉联合空间-时间特征,为视频内容的自动生成提供了新的技术路径。

  • Meta-Llama-3.1-70B-Instruct:70亿参数的大型多语言对话生成模型

    Meta Llama 3.1是Meta公司推出的一种大型语言模型,拥有70亿参数,支持8种语言的文本生成和对话。该模型使用优化的Transformer架构,并通过监督微调(SFT)和人类反馈强化学习(RLHF)进行调优,以符合人类对有用性和安全性的偏好。它旨在为商业和研究用途提供支持,特别是在多语言对话场景下表现出色。

  • Meta-Llama-3.1-8B-Instruct:多语言对话生成模型

    Meta Llama 3.1是一系列预训练和指令调整的多语言大型语言模型(LLMs),支持8种语言,专为对话使用案例优化,并通过监督式微调(SFT)和人类反馈的强化学习(RLHF)来提高安全性和有用性。

  • MaskVAT:视频到音频生成模型,增强同步性

    MaskVAT是一种视频到音频(V2A)生成模型,它利用视频的视觉特征来生成与场景匹配的逼真声音。该模型特别强调声音的起始点与视觉动作的同步性,以避免不自然的同步问题。MaskVAT结合了全频带高质量通用音频编解码器和序列到序列的遮蔽生成模型,能够在保证高音频质量、语义匹配和时间同步性的同时,达到与非编解码器生成音频模型相媲美的竞争力。

  • SV4D:生成多视角视频的模型

    Stable Video 4D (SV4D) 是基于 Stable Video Diffusion (SVD) 和 Stable Video 3D (SV3D) 的生成模型,它接受单一视角的视频并生成该对象的多个新视角视频(4D 图像矩阵)。该模型训练生成 40 帧(5 个视频帧 x 8 个摄像机视角)在 576x576 分辨率下,给定 5 个相同大小的参考帧。通过运行 SV3D 生成轨道视频,然后使用轨道视频作为 SV4D 的参考视图,并输入视频作为参考帧,进行 4D 采样。该模型还通过使用生成的第一帧作为锚点,然后密集采样(插值)剩余帧来生成更长的新视角视频。

  • Stable Video 4D:AI模型,动态多角度视频生成。

    Stable Video 4D是Stability AI最新推出的AI模型,它能够将单个对象视频转换成八个不同角度/视图的多个新颖视图视频。这项技术代表了从基于图像的视频生成到完整的3D动态视频合成的能力飞跃。它在游戏开发、视频编辑和虚拟现实等领域具有潜在的应用前景,并且正在不断优化中。

  • Mistral-Large-Instruct-2407:先进的大型语言模型,具备推理和编程能力。

    Mistral-Large-Instruct-2407是一个拥有123B参数的先进大型语言模型(LLM),具备最新的推理、知识和编程能力。它支持多语言,包括中文、英语、法语等十种语言,并且在80多种编程语言上受过训练,如Python、Java等。此外,它还具备代理中心能力和先进的数学及推理能力。

  • Llama3:大型语言模型,支持多种参数规模

    Meta Llama 3 是 Meta 推出的最新大型语言模型,旨在为个人、创作者、研究人员和各类企业解锁大型语言模型的能力。该模型包含从8B到70B参数的不同规模版本,支持预训练和指令调优。模型通过 GitHub 仓库提供,用户可以通过下载模型权重和分词器进行本地推理。Meta Llama 3 的发布标志着大型语言模型技术的进一步普及和应用,具有广泛的研究和商业潜力。

  • AI写作宝:AI驱动的文字生产力工具

    AI写作宝是一个利用人工智能技术提供多种写作辅助服务的在线平台。它通过各种功能帮助用户快速生成高质量文本内容,提高写作效率,适用于多种场景,如社媒写作、教育、工作、短视频、电商和娱乐等。

  • RTVI-AI:实时语音和视频推理的开放标准

    RTVI-AI是一个旨在简化构建AI语音到语音和实时视频应用的开放标准。它提供了开源SDK代码和标准端点形状、事件消息以及数据结构的文档,支持开发者使用任何推理服务,并允许推理服务利用开源工具为实时多媒体开发复杂的客户端工具。

  • File Transcribe:AI驱动的音频转文字服务

    File Transcribe 是一款利用先进人工智能技术将音频文件转换为文本的服务。它通过高精度的AI模型,提供即时、准确的转录服务,并具备多种高级功能,如说话人识别、情绪检测、主题检测等。该服务支持多种语言,能够满足不同用户的需求,提高工作效率,适用于记者、学生、企业等各类用户。

  • NinjaRIP:AI驱动的文档处理工具,快速准确。

    NinjaRIP是一款AI驱动的文档处理服务,它通过先进的机器学习模型来识别模式和提取有意义的信息,从而简化文档工作流程。它以99%以上的准确率在文档识别和数据提取方面提供无与伦比的精确度,确保了数据的可靠性和可信度。NinjaRIP在beta阶段免费提供,一旦过渡到正式版,将提供不同业务需求的定价计划,价格透明且具有竞争力。

  • DeepL Chrome扩展:在Chrome浏览器内翻译阅读或书写的内容

    DeepL Chrome扩展是一款由全球最精确的人工智能翻译器支持的浏览器插件,它允许用户在Chrome浏览器中即时翻译阅读或书写的内容。它利用神经网络和人工智能技术,能够捕捉最细微的差别,提供比同行业竞争对手更准确的翻译结果,准确度高达三倍以上。

  • 豆包浏览器插件:浏览器AI助手,提升工作学习效率

    豆包浏览器插件旨在通过AI技术提升用户的工作效率和学习效率。它具备快速视频与一键从网页、PDF和视频中总结并生成亮点的功能,同时支持在网页任意地方划词进行全方位AI搜索。此外,它还提供全文对照翻译功能,帮助用户在阅读外文资料时更轻松地理解内容。豆包插件的设计理念是将AI技术与日常使用场景相结合,让用户在进行网页浏览、文档阅读和视频观看时能够更加便捷地获取信息和知识。

  • 聚好用AI:一站式创意平台,激发无限创意。

    聚好用AI是一个集成了多种创意工具的在线平台,旨在帮助用户快速生成和编辑各种创意内容。它结合了AI技术,使得设计、绘画、音乐创作等变得更加简单和高效。平台的主要优点在于其易用性、高效性和创新性,能够满足不同用户在创意表达上的需求。聚好用AI背后的技术团队拥有丰富的行业经验,致力于通过AI技术推动创意产业的发展。目前,该平台提供免费试用,但部分高级功能可能需要付费。

今日大家都在搜的词:

热文

  • 3 天
  • 7天