DiagrammerGPT：GPT-4主导的颠覆性双层文生图表模型

2023-11-20 10:02 · 稿源：站长之家

要点:
1. GPT-4在文生图表领域的应用，充当“规划师”和“审计师”，通过DiagrammerGPT框架实现文本描述生成科学图表的布局规划。
2. DiagrammerGPT创新之处在于利用GPT-4的自然语言处理能力指导图表布局生成，同时设计闭环反馈机制进行规划优化，提高生成图表的准确性。
3. DiagramGLIGEN扩散模型用于图表生成，结合门控自注意力层，能够处理文本标签和箭头关系，通过Pillow库提升文本清晰度。在多个测试数据上优于基准模型。

站长之家（ChinaZ.com）11月20日消息:近期，北卡罗来纳大学提出了一项重大技术突破，通过将GPT-4充当“规划师”和“审计师”，构建了DiagrammerGPT框架，实现了文本描述生成科学图表的布局规划。该框架利用GPT-4的强大自然语言处理能力指导图表布局生成，创新性地设计了闭环反馈机制，通过迭代优化提高了生成图表的准确性。

在具体实施中，GPT-4首先充当规划师，生成初始规划，包含实体、关系和布局信息。然后，另一个GPT-4充当审计师，评估规划的准确性并提供反馈。这种闭环反馈机制使得规划师能够根据审计师的反馈调整规划布局，进一步提高规划的质量。整个过程的目标是生成更准确、清晰的科学图表。

项目地址:https://github.com/aszala/DiagrammerGPT

在图表生成阶段，研究人员使用DiagramGLIGEN扩散模型，并加入了门控自注意力层，以利用图表规划的布局信息指导图像生成。与原始的GLIGEN模型不同，DiagramGLIGEN能够同时处理文本标签和箭头关系作为布局输入。为了提升文本的清晰度，研究人员使用Pillow库显式渲染文本标签。

在测试数据上的表现显示，DiagrammerGPT在多个量化指标上明显优于基准模型，包括对象、数量、关系和文本渲染准确性。此外，在图表与文本相关性和对象关系的准确性评估方面，DiagrammerGPT分别取得36%和48%的优于基准模型的评分。这一研究标志着在文本生成高精准图表模型领域的重大突破，为科学图表生成提供了更可靠的解决方案。

总体而言，DiagrammerGPT框架的创新和性能优势为文生图表领域带来了重大技术突破，为科学研究和图像生成领域提供了有力的支持。

（举报）

相关推荐
大家在看

关键词：

DiagrammerGPT

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
斯坦福团队大模型Octopus v2火了：手机就能运行准确性超越GPT-4

斯坦福大学研究人员发布的Octopusv2模型引起了开发者社区的极大关注，其20亿参数的模型一夜下载量超过2k。这一模型可以在智能手机、汽车、个人电脑等端侧设备上运行，并在准确性和延迟方面表现超越了GPT-4，同时将上下文长度减少了95%。设备端AI智能体时代即将到来，Octopusv2的发布为这一趋势注入了新的活力。

Octopusv2 AI头条
AI文生图模型PixArt-sigma，可以生成4K分辨率图片

PixArt-sigma由华为诺亚方舟实验室联合多个研究机构共同开发的项目，是一个强大的文本到图像生成模型，通过弥散Transformer进行弱到强训练，旨在实现4K分辨率的图像生成。PixArt-sigma采用了弥散Transformer进行弱到强训练，从能够更好地生成高质量的4K分辨率图像。在应用方面，PixArt-Σ是一款强大的文本到图像生成工具，具有广泛的应用场景，可以满足艺术、设计、游戏开发、营销

PixArt-sigma AI头条
Hugging、英特尔发布文生图一致性解决方案——SPRIGHT

Hugging和英特尔发布了提高文生图模型空间一致性的方案，大幅提高了模型对提示词中空间关系的理解能力。在当前的将文字描述转换为图像的技术中，一个关键短板是它们往往无法精准地生成与文字提示中所描述的空间关系相符的图像。他们还会开源这个模型和数据集，以便其他研究者和开发者能够利用这些资源来进一步提高文生图模型的性能。

SPRIGHT 文生图
OpenAI新GPT-4 Turbo模型上线：可供付费ChatGPT用户使用

OpenAI的全新GPT-4Turbo模型已全面上线，并正式向付费ChatGPT用户开放。GPT-4Turbo更新标志着人工智能领域的又一重要进步，为用户提供了更强大、更高效的文本处理、数学计算、逻辑推理以及编码能力。GPT-5预计将在今年夏季推出，有望在性能、功能和应用场景等方面实现更大的突破和创新。

OpenAI GPT-4 Turbo
OpenAI 为训练 GPT-4模型转录了超过一百万小时的 YouTube 视频

AI公司在获取高质量训练数据方面遇到的挑战，OpenAI为了训练其最先进的大型语言模型GPT-4，使用了超过一百万小时的YouTube视频副本。该公司通过其Whisper音频转录模型转录这些视频，尽管这一做法在法律上具有争议性，OpenAI仍认为这属于合理使用。AI领域正面临训练数据短缺的挑战解决方案尚未明朗，公司们需要权衡利弊并寻求合理途径应对这一问题。

OpenAI GPT-4 YouTube
全面对标GPT-4 Turbo！商汤发布日日新5.0大模型

商汤科技在中国北京举行新品发布会，正式发布人工智能大模型日日新5.0”。日日新5.0大模型采用了先进的MOE混合专家架构，这一架构的引入，使得模型在处理复杂任务时能够表现出更高的效率和准确性。这一功能在智能客服、智能写作、智能设计等领域具有广泛的应用前景。
研究显示，GPT-4可以自主利用安全漏洞，具备攻击性

每周至少有一次，生成式人工智能都会给我们带来新的恐惧。虽然我们仍在焦急地等待OpenAI发布的下一个大型语言模型，但与此同时，GPT-4似乎比你想象的更具备能力。”他们还指出，在发布研究之前，他们已向OpenAI披露了他们的发现该公司要求他们不要将他们的提示公开分享。

GPT-4 AI头条
荐Llama 3突然来袭！开源社区再次沸腾：GPT-4级别模型可以自由访问的时代到来

Llama3来了!就在刚刚，Meta官网上新，官宣了Llama380亿和700亿参数版本。并且推出即为开源SOTA:Meta官方数据显示，Llama38B和70B版本在各自参数规模上超越一众对手。好在乌龙完了，官方也没拖着，关心开源大模型的小伙伴们，可以造作起来了。

Llama3
对标GPT-4！中国移动九天大模型通过双备案

日前，国家网信办公布已备案大模型清单，中国移动九天自然语言交互大模型”名列其中，标志着中国移动九天AI大模型可正式对外提供生成式人工智能服务。中国移动表示，这是同时通过国家生成式人工智能服务备案”和境内深度合成服务算法备案”双备案的首个央企研发的大模型。据介绍，九天自然语言交互大模型具有行业能力增强、安全可信、支持全栈国产化等特点，已

大模型清单中国移动九天生成式人工智能服务
苹果AI放大招！声称其设备端模型性能优于GPT-4

在最近的一篇论文中，苹果的研究团队宣称，他们提出了一个可以在设备端运行的模型ReALM，这个模型在某些方面可以超过GPT-4。ReALM的参数量分别为80M、250M、1B和3B，体积都非常小，适合在手机、平板电脑等设备端运行。这项研究有望用来改进苹果设备上的Siri助手，帮助Siri更好地理解和处理用户询问中的上下文。

苹果 ReALM AI

今日大家都在搜的词：

热文

3 天
7天

DiagrammerGPT：GPT-4主导的颠覆性双层文生图表模型

今日大家都在搜的词：

热文

站长商机