11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
腾讯云
12-20
数字时代的信息安全需求催生了图像隐藏技术的持续演进。传统算法在密钥管理、抗攻击能力和认证机制方面存在固有缺陷,难以满足医疗、金融等领域的严苛安全要求。区块链技术的分布式账本特性与智能合约机制,为构建可信认证体系提供了新路径。微算法科技(NASDAQ: MLGO)研发区块链可逆图像隐藏算法(Blockchain-based Reversible Image Steganography Algorithm,BRISA),通过融合混沌加�
在CVPR2024上,美国英特尔研究院的蔡志鹏博士及其团队提出了一种名为L-MAGIC的新技术。这项技术通过结合语言模型和图像扩散模型,实现了高质量、多模态、零样本泛化的360度场景生成。技术应用:L-MAGIC还能够利用深度估计模型生成场景的沉浸式视频和三维点云,为场景理解和可视化提供了更多可能性。
来自伦敦帝国理工学院和戴尔的研究团队推出了StyleMamba,这是一种有效的框架,用于转移图片风格,通过使用文本来指导风格化过程,同时保持原始图像内容。当前文本驱动风格化技术的计算需求和训效率低下的问题在这个引入中得到了解决。StyleMamba在各种应用和媒体格式上都表现出多功能性和适应性,包括多种风格转移任务和视频风格转移。
根据研究团队发表的预印本文章,InstantMesh是由腾讯PCGARC实验室和上海科技大学的研究人员开发的人工智能框架,能够在仅需10秒的时间内,从单个2D图像生成高质量的3D网格。该开源框架由多视图扩散模型和3D网格重建模型组成,通过使用不同角度合成的3D视图来实现高质量的重建。这一技术有望显著提升3D行业生产力,尤其在视频游戏开发领域。
元象公司发布了首个多模态大型模型XVERSE-V,并将其开源。这一模型支持任意宽高比的图像输入,并在多个权威评测中取得了优异的成绩。除了图像识别,XVERSE-V还在多个实际应用场景中表现突出,包括信息图理解、视障场景处理、文本生成、教育解题等。
PuLID是一个新兴的ID保持项目,它在提升ID保持效果的同时致力于最小化对原始模型的影响。这一技术通过对比对齐的方式,实现了Pure和LightningID的自定义,既保持了高度的ID保真度,又有效减少了对原始模型行为的干扰。注:PuLID的代码和模型即将发布,敬请期待。
一个可以自动分析PDF、网页、海报、Excel图表内容的大模型,对于打工人来说简直不要太方便。上海AILab,香港中文大学等研究机构提出的InternLM-XComposer2-4KHD模型让这成为了现实。IXC2-4KHD将多模态大模型支持的分辨率提升到了4K的水平,研究人员表示目前这种通过增加切块个数支持更大图像输入的策略遇到了计算代价和显存的瓶颈,因此他们计划提出更加高效的策略在未来实现�
Diffusion-RWKV是一种基于RWKV架构的扩散模型,旨在提高扩散模型的可扩展性。它针对图像生成任务进行了相应的优化和改进,可以生成高质量的图像。欲了解更多详细信息并开始使用Diffusion-RWKV,请访问Diffusion-RWKV官方网站。
北京大学最近发布了一种新的图像生成框架,名为VAR。这一突破性的技术首次使GPT风格的自回归模型在图像生成上超越了扩散transformer,同时展现出了与大语言模型观察到的类似Scalinglaws的规律。VAR算法为计算机视觉中的自回归算法设计提供了新的见解,有望推动这一领域的进一步发展。
FouriScale是一款可以从预训练的扩散模型生成高分辨率图像的工具。它通过创新的、无需训练的方法,结合膨胀技术和低通操作的方法,成功实现了灵活处理各种宽高比文本到图像生成。想要了解更多关于高分辨率图像生成工具FouriScale的使用方法,请访问FouriScale官方网站。