首页 > 传媒 > 关键词  > 正文

SNMMI 2023观察:AI与精准医学双重奏,医学影像新成果层出不穷,全方位造福疾病诊断与治疗

2023-07-17 10:41 · 稿源: 站长之家用户

近期,医学影像领域的行业头部盛会—— 2023 美国核医学与分子影像学会年会(SNMMI 2023)在美国伊利诺伊州芝加哥落下帷幕,主题为“关爱患者(Eye on the Patient)”。

据悉,本届SNMMI是有史以来参会人数最多的一届会议,共吸引了 8000 名来自学界、医疗机构与设备厂商的专业人员参会,涵盖 130 多场科学会议、研讨会等等。

作为医学影像领域最前沿学术的理论阵地与技术创新“风向标”,本届SNMMI同样干货满满。具体来看,多项重磅研究与比较新技术应用成果在会议上亮相,比如今年的年度影像花落针对胰腺癌的新型诊断治疗法,全球知名的AI医学影像公司深透医疗携PET加速成像产品在会上亮相,西门子医疗、联影医疗也带来了比较新的扫描仪。

在行业趋势方面,不难洞察到两大主旋律。

一是呼应大会主题“关爱患者”,theranostics(治疗诊断学)成为业内一门显学,准确医疗与患者关怀再次成为行业主基调。

二是AI仍是推动医学影像技术不断进步、迭代的主要动力,相比往年,业内对AI的讨论更为深入、务实。

多项重磅新成果发布

1、年度影像公布:新的诊断治疗方法造福胰腺癌患者

每年,作为年会传统节目,SNMMI都会选出一幅年度影像,作为最能体现核医学和分子成像领域前沿进展的成果。

今年,一组68Ga-DOTA-5G和177Lu-DOTA-ABM-5G图像被选为年度影像。据悉,该研究由加利福尼亚大学戴维斯分校的一组研究人员进行,旨在探索一种新的治疗诊断方法,以助力胰腺癌的早期检测和有效治疗。

(A. 68Ga-DOTA-5G PET/CT图像(注射后一小时)。B. 177Lu-DOTA-ABM-5G SPECT/CT图像(注射后一天)。C. 177Lu-DOTA-ABM-5G全身平面图像(正面,注射后一天)。D. 177Lu-DOTA-ABM-5G全身平面图像(背面,注射后一天)。)

据美国癌症协会的估计, 2023 年将有超过64, 000 人被诊断出患有胰腺癌,而超过50, 000 人将因此病而丧生,生存率仅为12%。而根据该研究,对新型诊断及治疗配对药物68Ga-DOTA-5G / 177Lu-DOTA-ABM-5G的首 次人体评估证实,其能够成功检测转移性胰腺癌并可视化该疾病的靶向治疗。这对组合在患者中具有良好的耐受性,并有可能在转移性胰腺癌和其他癌症患者的临床护理和治疗方面取得重大进展。

据悉,在该研究中,研究者招募了转移性或局部晚期胰腺癌患者,通过对 17 名患者进行68Ga-DOTA-5G PET/CT扫描,以及对 14 名患者进行177Lu-DOTA-ABM-5G的治疗,研究者发现两种药物均被良好耐受,未观察到与药物相关的严重不良事件。此外,68Ga-DOTA-5G的PET/CT成像能够检测到骨骼、肺部和肝脏的转移病灶,而177Lu-DOTA-ABM-5G放射治疗剂则被治疗疾病吸收并保留在示踪剂检测到的治疗疾病中。

据研究人员介绍,这样的研究成果,也为胰腺癌以外的恶性治疗疾病患者进一步进行临床试验铺平了道路,包括但不限于非小细胞肺癌、乳腺癌和头颈癌患者。未来,转移性疾病患者的临床护理和治疗有望显著改善。

据介绍,该研究的I期研究阶段预计将于 2023 年夏季完成,随后将于 2023 年秋季、冬季进行第二、第三期招募,分别针对转移性非小细胞肺癌患者、任何原发癌症的转移性治疗疾病患者。

2、软件:AI技术使PET成像速度提高了75%

在软件领域,AI医疗影像公司深透医疗(Subtle Medical)在SNMMI年会上展示了旗下革命性的SubtlePET™软件,该软件利用AI技术使PET成像速度提高了75%。

据介绍,作为一种突破性的解决方案,SubtlePET独有的去噪算法,能在不损失图像质量和诊断准确性的情况下减少成像时间,做到影像质量提升、降噪和提升分辨率。对于等医疗机构而言,SubtlePET能在医院、影像中心的任何品牌的扫描仪上实现更快的PET成像,比较新的SubtlePET 2. 0 版本涵盖了PSMA(前列腺)癌症放射试剂、阿尔兹海默病的Amyloid淀粉样蛋白核素等多款放射性示踪剂,并提供了更好的性能,可以更好的赋能准确医疗和诊疗一体化应用。

应用SubtlePET™前后的PET图像对比

更快的医学成像的优势在于提高患者的舒适度。传统的PET成像通常要求患者长时间保持静止,导致不适和焦虑,而SubtlePET通过加快成像而减轻了患者的压力,带来更好的医疗体验。

此外,更快的成像使医疗机构能够增加收入并优化资源利用。通过缩短扫描时间,SubtlePET允许医疗提供者一天内扫描更多患者,从而提高吞吐量和患者数量。此外,减少的成像时间使技术人员能够更有效地遵守时间表,实现更顺畅的运作和提高患者护理水平。

目前,该软件已成功在全球 15 个不同的国家安装,应用于Hoag医院和Middlesex健康等美国知名医疗机构,显著优化现有设备的质量和效率,提升患者体验。

3、硬件:多款新型PET/CT扫描仪亮相

在硬件方面也看点十足。

比如,西门子医疗在今年的SNMMI上展示了全新的PET/CT扫描仪——Biograph Vision.X。

据悉,该扫描仪采用Optiso超动态范围探测器技术,通过硅光倍增管(SiPMs)提供了卓越的空间分辨率。它还具备 178 皮秒的飞行时间,能够显著提升患者吞吐量,并减少患者的辐射暴露。

此外,Biograph Vision.X利用AIDAN智能成像平台,结合 700 多项专利的机器学习和深度学习应用,进一步提高放射学工作流程的效率。据介绍,这一新系统将在获得美国FDA的510(k)许可后推出,并将为现有Biograph Vision设备的用户提供现场升级服务。而西门子旗下的PETMR产品线,也与深透医疗合作,进一步探索基于AI的影像质量与效率提升的临床价值。

(西门子医疗Biograph Vision.X)

联影医疗(United Imaging)也在SNMMI会议上推出了比较新的全身PET/CT扫描仪——uMI Panorama。

据介绍,该扫描仪的PET/CT宽孔径系统具有2. 9 毫米的分辨率, 35 厘米的轴向视场和 194 皮秒的计时分辨率。事实上,在该扫描仪在SNMMI2023 正式亮相之前,已经在犹他州盐湖城的亨茨曼癌症中心(Huntsman Cancer Center)安装使用。

联影医疗表示,uMI Panorama是一个系列产品,是他们今年推出的四款新成像模式之一。uMI Panorama的系统配备了名为uExel的分子成像平台,该平台具有高性能ASIC芯片和人工智能工作流。

(联影医疗比较新全身PET/CT扫描仪)

关爱患者、准确医学成焦点

从本届SNMMI年会的主题“关爱患者(Eye on the Patient)”以及上述重磅新产品的发布中,不难发现当前医学影像领域的一大趋势,即准确医疗与患者的就医体验越来越受到业内的关注。

从SNMMI中被频繁提及的话题来看,Theranostics(治疗诊断学)已经成为核医学的新兴领域,通过准确医学改善患者护理的概念深入人心。

据悉,治疗诊断学是一种新兴的核医学领域,利用放射性药物来同时识别和治疗癌症。从SNMMI上发布的比较新核医学领域的进展来看,相关的研究层出不穷。

比如,根据SNMMI上公布的一项研究,个性化剂量在前列腺癌症治疗中显示出显著的预后改善效果。

具体来看,该研究通过监测接受177Lu-PSMA治疗的男性早期反应生物标记物,个性化调整给药间隔,进而改善患者的治疗结果。177Lu-PSMA是一种针对转移性去势耐受性前列腺癌的有效治疗方法,已于 2022 年获得美国FDA批准。然而,不同患者在接受该疗法时的反应有所不同。

研究人员指出,研究共纳入 125 名男性患者,研究人员试图评估不同给药间隔的无进展生存率和总生存率。

研究结果显示,60%的患者的PSA水平下降了50%以上。整体而言,研究参与者的PSA无进展生存期中位数为6. 1 个月,总生存期中位数为16. 8 个月。值得注意的是,个性化剂量策略使三分之一的患者能够暂停治疗一段时间,而仍能获得与持续治疗相当的无进展生存和总生存结果。

又如,另一项发表于 6 月《核医学杂志》上的研究显示,一种新型显像剂可在早期检测出进行性肺纤维化。

据悉,肺纤维化是一种致命的疾病,诊断后的预期寿命为三到五年。肺纤维化的特点在于,晚期诊断相对容易,但早期确诊非常困难,而早期恰恰时最有效的治疗阶段。

而根据来自德国的一项研究,一种新开发的PET成像剂——64Cu-GPVI-Fc,可以在早期无创地识别肺纤维化,减少不必要的活检,并使患者更快地开始治疗。

据悉,在肺纤维化患者中,肺组织的重塑是通过细胞外基质纤维(如I-III型胶原、纤连蛋白和纤维蛋白原)沉积增加而发生的。在这项研究中,64Cu-GPVI-Fc是一种靶向这些细胞外基质纤维的成像剂,提供了一种新的方法来观察肺纤维化进展的”全貌“。此外,纤维化不限制于肺,它还可以在其他器官中发展,因此可以预见这种方法有望治疗其他纤维化疾病。

未来,准确医疗和阿尔兹海默症新药的进展预计将显著提升核医学检查需求和体量,相应的提升临床检查质量、效率、降低剂量的临床需求也会更大。PET扫描检查数和PET/CT PET/MR设备数预计都将有显著提升。

AI医学影像企业的工作也将促进这些技术的进一步推广。据悉,上文提到的深透医疗已与多家核药、造影剂公司开展多种合作,进一步将基于AI的影像药剂剂量降低、显影效果增强等应用推广到临床。

AI与放射组学相互促进

当前,具有巨大应用潜力的AI,无疑是当前医学影像领域“皇冠上的明珠”,在今年的SNMMI年会上AI也已连续多年成为业内关注的中心主题。

值得一提的是,今年专家在SNMMI年会上激辩的话题不仅在于AI在医学影像领域的应用潜力,他们还更加务实地将目光投向传统的放射组学方法(radiomics),大约在十年前,放射组学曾经如同当今的AI一般炙手可热,被业界寄予很高的期许。

传统的放射组学方法是利用机器学习算法从医学图像中提取特定的影像特征进行分析。这种方法在改善诊断、预测和临床决策支持方面得到了广泛应用,旨在实现准确医学。然而,与传统放射组学方法不同,深度学习被定义为一种机器学习的类别,它可以"学习"自动检测这些特征,而不需要手工提取特征。

马萨诸塞大学阿默斯特分校的副教授乔伊塔·杜塔博士认为,深度学习相比手工制作的传统放射组学具有更高的准确性。在深度学习中,神经网络显示出自动识别与感兴趣任务相关的图像部分的潜力,这消除了对分离和孤立图像分割的需求,减轻了医生的负担。

圣路易斯华盛顿大学的阿比纳夫·贾博士认为,AI算法的可重复性与可靠性更高,深度学习通过在大规模数据集上学习,可以识别传统放射组学方法可能无法发现的治疗疾病中的"隐藏"特征。此外,由于在放射组学中使用了不同的扫描仪和图像获取协议,导致医学图像数据集的异质性;而深度学习则基于"通用逼近定理",如果给予足够的数据,深度学习有可能模拟由于扫描仪和图像采集协议的差异而产生的异质性。

在临床领域,AI的应用已经在全球落地开花。

以上文提到的深透医疗为例,除了在本届SNMMI上重点展示的SubtlePET以外,SubtleMR、SubtleGAD亦是较为成熟的旗舰产品。其中,SubtleMR通过深度学习技术优化数据重建成像过程,在保证图像质量的基础上,令MRI检查实现4- 10 倍加速,从而增强人体各个部位的MRI图像。SubtleGAD则是造影剂相关应用,主要解决MRI检测过程中重金属钆沉积的问题,通过AI技术,仅需要10%剂量的造影剂,就能达到同样的增强成像效果。

此外,深透医疗的产品线还包括:影像生成加速产品SubtleSynth、术中实时影像增强产品SubtleIR,以及优化显影流程的SubtleQC。就在近期,深透医疗还荣登CB Insights评选出的 2023 年全球最 具潜力AI公司 100 强。

另一部分专家则认为,到目前为止,尽管深度学习在某些方面表现出了潜力,但目前尚未超越传统放射组学方法。

例如,据法国奥塞市弗雷德里克·乔里奥医院PET中心的体内分子成像实验室负责人伊雷妮·布瓦特博士介绍,在 2022 年的医学图像计算和计算辅助干预会议曾进行过一场竞赛,参与者基于 488 位患者的影像开发了各种模型,以预测PET/CT扫描的头颈癌患者的无复发生存率。而竞赛结果是,表现最 好的三个模型均为基于手工制作的特征。

马里兰大学巴尔的摩分校的教授艾略特·西格尔博士表示,深度学习模型需要大量的数据集进行训练,并且这些数据集的开发成本和时间成本都非常昂贵。据其介绍,此前美国进行全国肺部筛查试验作为AI的训练数据集开发训练对象,该试验招募了53, 454 名患者,花费了2. 5 亿美元才组建起来。因此,西格尔博士认为放射组学的时代将会持续,未来将与深度学习有力互补。

总的来说,深度学习和传统放射组学方法在医学影像领域各有优劣。未来,这两种方法有望相互补充,为医学影像领域的发展带来更多的创新和突破。对于核医学而言,传统放射组学方法将继续发挥重要作用,而深度学习有望在特定任务和大数据集的情况下发挥其优势。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • Physical Intelligence:将通用人工智能带入物理世界

    Physical Intelligence (π) 是一个由工程师、科学家、机器人学家和公司建设者组成的团队,致力于开发基础模型和学习算法,以驱动当今的机器人和未来的物理驱动设备。该团队旨在将通用人工智能技术应用于物理世界,推动机器人技术的发展和创新。

  • X-Ray Recaps:使用生成式AI快速回顾你喜爱的剧集

    Prime Video的X-Ray Recaps功能利用生成式人工智能技术,为用户提供电视剧集的简短、易于消化的总结。这项功能可以创建整季、单集甚至片段的个性化摘要,精确到观众观看的确切分钟。X-Ray Recaps在用户需要时提供关键情节、角色驱动的情节点和其他细节的文本片段,增强了流媒体体验,让用户无需担心剧透或重看已看过的内容。

  • Rive:创建互动式动态图形的新方式

    Rive是一种新型的图形构建方式,它通过丰富的交互性和状态驱动的动画,消除了硬编码图形的需求,使团队能够更快迭代并构建更好的产品。Rive提供了一个全新的图形格式,适用于互动时代,可以用于游戏、应用、网站等多个领域。

  • pdf-extract-api:高精度将图片或PDF转换为Markdown文本或JSON结构化文档的API

    pdf-extract-api是一个使用现代OCR技术和Ollama支持的模型将任何文档或图片转换为结构化的JSON或Markdown文本的API。它使用FastAPI构建,并使用Celery进行异步任务处理,Redis用于缓存OCR结果。该API无需云或外部依赖,所有处理都在本地开发或服务器环境中完成,确保数据安全。它支持PDF到Markdown的高精度转换,包括表格数据、数字或数学公式,并且可以使用Ollama支持的模型进行PDF到JSON的转换。此外,该API还支持LLM改进OCR结果,去除PDF中的个人身份信息(PII),以及分布式队列处理和缓存。

  • 鲸语智客:AI加持的智能客服系统,实现7*24小时不间断服务

    鲸语智客是一款基于AI技术的智能客服系统,通过AIGC技术实现全天候无间断服务,降低运营成本,提升用户体验。产品背景信息显示,鲸语智客通过向量化和多种大模型问答体系简化集成流程,助力企业智能化服务升级。产品价格方面,提供不同套餐,如59元/月的不限数量不限场景智能客服机器人,以及109元永久有效的200万超长鲸币等。

  • Tencent-Hunyuan-Large:业界领先的开源大型混合专家模型

    Tencent-Hunyuan-Large(混元大模型)是由腾讯推出的业界领先的开源大型混合专家(MoE)模型,拥有3890亿总参数和520亿激活参数。该模型在自然语言处理、计算机视觉和科学任务等领域取得了显著进展,特别是在处理长上下文输入和提升长上下文任务处理能力方面表现出色。混元大模型的开源,旨在激发更多研究者的创新灵感,共同推动AI技术的进步和应用。

  • MiniMates:轻量级图片数字人驱动算法,快速定制AI伙伴

    MiniMates是一款轻量级的图片数字人驱动算法,能够在普通电脑上实时运行,支持语音驱动和表情驱动两种模式。它比市面上的liveportrait、EchoMimic、MuseTalk等算法快10-100倍,让用户能够通过极少的资源消耗定制自己的AI伙伴。该技术的主要优点包括极速体验、个性化定制以及嵌入终端的能力,摆脱了对Python和CUDA的依赖。MiniMates遵循MIT协议,适用于需要快速、高效的人脸动画和语音合成的应用场景。

  • Rive Layouts:动态、适应性强的图形设计工具

    Rive Layouts是Rive推出的新功能,允许设计师和开发者创建动态的、适用于任何屏幕尺寸或设备的、生产就绪的图形。它结合了动态设计和响应式网页设计的原则,保留了Rive特有的流畅动画和交互性。Rive Layouts的重要性在于,它使得设计师可以在不牺牲创意的情况下,创建出适应不同设备和语言的响应式设计。

  • Cerebellum:使用AI驱动规划的浏览器自动化系统

    Cerebellum是一个轻量级的浏览器代理,通过键盘和鼠标动作在网页上实现用户定义的目标。它将网页浏览简化为导航有向图,使用大型语言模型(LLM)来分析页面内容和交互元素,决定下一步操作。Cerebellum以其创新的AI驱动自动化技术,提高了网页自动化任务的效率和准确性。目前,Cerebellum支持与任何Selenium支持的浏览器兼容,并能够使用用户提供的JSON数据填充表单。产品目前处于Beta阶段,免费提供给开发者和研究人员使用。

  • Red Panda AI:革命性的AI模型,排名第一的人工智能分析工具。

    Red Panda AI,也称为Recraft V3,是一个在人工智能分析领域排名第一的革命性AI模型。它超越了FLUX1.1、Midjourney和OpenAI等其他模型,在设计理解和视觉输出质量方面表现出色。Red Panda AI以其设计为中心的架构,提供了无与伦比的设计原则理解、视觉层次和构图能力。它能够智能地适应不同平台和用例,保持一致的品牌身份。产品的主要优点包括设计语言理解、风格一致性控制、上下文感知、专业设计质量、快速迭代和多格式掌握。

  • Digit Plexus:机器人硬件平台,集成传感器和末端执行器。

    Digit Plexus是一个机器人硬件平台,旨在为各种机器人手集成触觉传感器提供标准化的硬件-软件解决方案。该平台能够将基于视觉和基于皮肤的触觉传感器(如Digit、Digit 360和ReSkin)整合到控制板中,并通过单根电缆将所有数据编码传输到主机电脑。这种集成方式允许无缝的数据收集、控制和分析。产品背景信息显示,Digit Plexus与Wonik Robotics合作开发了基于该平台的下一代Allegro Hand,并且可以通过特定链接表达早期访问的兴趣。

  • PARTNR:多智能体任务规划与推理的基准测试

    PARTNR是由Meta FAIR发布的一个大规模基准测试,包含100,000个自然语言任务,旨在研究多智能体推理和规划。PARTNR利用大型语言模型(LLMs)生成任务,并通过模拟循环来减少错误。它还支持与真实人类伙伴的AI代理评估,通过人类在环基础设施进行。PARTNR揭示了现有基于LLM的规划器在任务协调、跟踪和从错误中恢复方面的显著局限性,人类能解决93%的任务,而LLMs仅能解决30%。

  • Sparsh:自监督触觉表示,用于基于视觉的触觉传感。

    Sparsh是一系列通过自监督算法(如MAE、DINO和JEPA)训练的通用触觉表示。它能够为DIGIT、Gelsight'17和Gelsight Mini生成有用的表示,并在TacBench提出的下游任务中大幅度超越端到端模型,同时能够为新下游任务的数据高效训练提供支持。Sparsh项目包含PyTorch实现、预训练模型和与Sparsh一起发布的数据集。

  • Digit 360:具有人类级别精度的人工触觉传感器

    Digit 360是由Meta FAIR发布的人工手指形状的触觉传感器,它能够以人类级别的精度数字化触觉。该传感器拥有超过18种独特的传感特性,允许研究人员结合使用各种传感技术或单独隔离信号进行深入分析。Digit 360在检测空间细节上达到了7微米,力量检测上达到了1毫牛,响应速度是人的30倍,为触觉传感技术树立了新的标准。

  • UndetectableGPT.ai:在线工具,将AI文本转换为类人内容,绕过AI检测器。

    UndetectableGPT.ai是一个在线工具,旨在将AI生成的文本转换成类人的写作风格,使其无法被AI检测器如GPTZero和ZeroGPT识别。这项技术的重要性在于它能够帮助用户保持内容的真实性,同时避免被AI检测器标记为机器生成。产品背景信息显示,该工具适用于需要让AI文本不可检测的各种写作任务,包括文章、博客、产品描述和社交媒体更新。UndetectableGPT.ai提供免费服务,定位于需要绕过AI检测器的用户群体。

  • MobileLLM-350M:高效优化的子十亿参数语言模型,专为设备端应用设计

    MobileLLM-350M是由Meta开发的自回归语言模型,采用优化的Transformer架构,专为设备端应用设计,以满足资源受限的环境。该模型整合了SwiGLU激活函数、深层薄架构、嵌入共享和分组查询注意力等关键技术,实现了在零样本常识推理任务上的显著准确率提升。MobileLLM-350M在保持较小模型尺寸的同时,提供了与更大模型相媲美的性能,是设备端自然语言处理应用的理想选择。

  • MobileLLM-125M:高效优化的小型语言模型,专为设备端应用设计。

    MobileLLM-125M是由Meta开发的自动回归语言模型,它利用优化的变换器架构,专为资源受限的设备端应用而设计。该模型集成了包括SwiGLU激活函数、深度薄架构、嵌入共享和分组查询注意力等多项关键技术。MobileLLM-125M/350M在零样本常识推理任务上相较于前代125M/350M SoTA模型分别取得了2.7%和4.3%的准确率提升。该模型的设计理念可有效扩展到更大模型,MobileLLM-600M/1B/1.5B均取得了SoTA结果。

  • Claude 3.5 Haiku:先进的编程、工具使用和推理能力的模型

    Claude 3.5 Haiku是Anthropic公司推出的最新最快的模型,它在编程、工具使用和推理任务上表现出色,并且价格亲民。该模型在速度上与Claude 3 Haiku相似,但在各项技能上都有提升,甚至在许多智能基准测试上超越了上一代最大的模型Claude 3 Opus。Anthropic公司致力于AI的安全性,Claude 3.5 Haiku在开发过程中经过了多语言和政策领域的广泛安全评估,增强了处理敏感内容的能力。

  • ComfyUI-MochiEdit:视频编辑工具,使用Genmo Mochi技术

    ComfyUI-MochiEdit是一个基于Genmo Mochi技术的视频编辑插件,允许用户通过ComfyUI界面对视频进行编辑。该插件的主要优点在于其能够利用先进的视频处理技术,提供给用户一个直观、易用的编辑环境。产品背景信息显示,它是由logtd和kijai共同开发,并且遵循GPL-3.0开源许可证。由于其开源特性,该插件可以免费使用,定位于需要视频编辑功能的专业用户或爱好者。

  • hertz-dev:开源的全双工音频生成基础模型

    hertz-dev是Standard Intelligence开源的全双工、仅音频的变换器基础模型,拥有85亿参数。该模型代表了可扩展的跨模态学习技术,能够将单声道16kHz语音转换为8Hz潜在表示,具有1kbps的比特率,性能优于其他音频编码器。hertz-dev的主要优点包括低延迟、高效率和易于研究人员进行微调和构建。产品背景信息显示,Standard Intelligence致力于构建对全人类有益的通用智能,而hertz-dev是这一旅程的第一步。

今日大家都在搜的词: