11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
日前,360创始人周鸿祎发文,称自己是开源的信徒”,信奉开源的力量。他还宣布即将开源360智脑7B,支持360k长文本输入。月之暗面宣布Kimi智能助手启动200万字内测,文心一言计划在下个月将字数上限提高至200万-500万字。
微软近日对非Edge浏览器访问必应聊天的字符数限制进行了放宽,将用户输入的文本数量从2000个提升至4000个,但每个主题对话依然仅限5轮。这意味着用户在每个主题下的对话仍然需要在5轮以内完成,这可能会对一些用户造成不便。这意味着在其他浏览器上使用必应聊天时,用户可能无法享受到这些功能。
HuggingFace推出了一个名为IDEFICS的开源多模态AI模型,它可以接受图像和文本作为输入,并生成连贯的文本输出。IDEFICS是一个强大的视觉语言模型,拥有高达800亿的参数量,功能包括根据图像生成描述、回答相关问题以及根据多个图像生成叙述等。未来如果能进一步提升多模态理解和生成能力,将可以大幅推动诸如机器人、自动驾驶等多模态AI应用的发展。
华尔街日报发布文章称,下一个十亿移动用户将会依靠视频和语音,文本输入时代将会结束。新一代的互联网用户——很多都收入比较低,受教育程度较低——趋向于使用语音识别功能和其它直观易用的应用,而不是使用文本,这将会改变科技领域的竞争格局,造就新的赢家和输家。硅谷的巨头们正在加紧进行应对,在针对发展中国家重新思考它们的产品设计。
据国外媒体报道,Avatron公司日前推出Air Dictate语音应用,可借助iPhone手机实现电脑文本输入。目前,该应用仅适用于苹果iPhone 4S手机与Mac笔记本。
手机端的文本输入受到使用环境、网络状况及设备本身条件的制约,使其用户体验的改良成为一个老生常谈的话题。
一个名为MagicTime的新模型引起了业界的广泛关注。这个模型专注于生成变形时间延迟视频,基于DiT的架构,解决了现有文本到视频生成模型未能充分编码现实世界物理知识的问题。MagicTime还计划将额外的变形景观时间延迟视频集成到相同的注释框架中,查找ChronoMagic-Landscape数据集,然后使用该数据集Open-Sora-Planv1.0.0,获得MagicTime-DiT模型。
首个生成式AI网站开发平台doraAI正式开启公测,用户可以通过文本提示快速开发多种类型网站,平均仅需3分钟一站点。与传统模版网站不同,doraAI根据用户提供的文本生成页面,支持可视化编辑操作,使网站开发变得简单高效。欢迎用户尝试doraAI,体验AI带来的快捷网站开发方式。
百度推出的UniVG是一款视频生成模型,其特点在于针对高自由度和低自由度两种任务分别采用不同的生成方式,以更好地平衡两者之间的关系。项目地址:https://univg-baidu.github.io/视频生成技术基于“扩散”原理的方法近来在学术和产业界引起广泛关注,并取得显著成就。这一成绩不仅超越了当前的开源方法与业界领先的闭源方法Gen2不相上下,显示出了卓越的实用价值和技术优势�
一家名为NationA的初创公司以其创新性的生成式人工智能技术Neuroid。动画制作一直是一个繁琐、复杂且昂贵的过程现在,NationA的人工智能技术有望彻底改变这一局面。对于那些不太愿意使用AI提示动画生成器的人,公司还提供了一个包含即用动画的资产商店。
VideoCrafter是一款全新的开源视频创建和编辑套件,采用了扩散模型,能够从文本描述生成照片和视频逼真的输出。尽管尚未正式发布,但VideoCrafter有望显著改变视频制作流程。更重要的是,VideoCrafter是一个免费的开源项目。
北京交通大学等机构联合推出了新多模态大模型MMICL。它支持文本、图像、视频三种模态的混合输入,在多项多模态能力评测中表现抢眼。随着其性能和适用场景的不断优化,MMICL有望成为多模态领域的新宠。
百度输入法上线AI创作助手“超会写”小红书爆款标题轻松拿捏百度输入法推出基于文心大模型的创作助手“超会写”,可以为用户提供场景化的高质量文本创作服务。用户只需在“超会写”界面输入需求,AI助手就会提供几个符合条件的文本供选择。AiLMe天燕大模型官网:www.apusai.com/#/马斯克承认用X数据训练AI:微软别想用,但我自己能用马斯克更新推特隐私政策表示会使用用户�
Narakeet是一个语音合成工具,可以快速创建语音解说视频。它可以将PowerPoint、GoogleSlides或Keynote文稿转换为视频可以将文字脚本转换为音频文件。开发人员可以使用NarakeetAPI或命令行客户端将视频制作集成到持续交付流程和自动化系统中。
小编发现不少微博大V都在玩一个绘画指令。在微博输入“#召唤服务生成#@星汉未来”就可以生成4张图像。不过看完大家的图,我倒觉得,这个服务用来做网络梗图还是挺有意思的。
科技公司Suno推出了一款生成式音频AI基础模型,用户只需简单的文本输入,就可以生成两段约30秒带有歌词的音乐。这个玩法跟之前的Midjourney很相似,在Suno的Discord频道里输入“/chirp”命令,再加上提示词,告诉它你想要的音乐风格和歌词即可。Suno的新技术为创作人员提供了更多的创作灵感和可能性,让他们能够以更有趣、更出色的方式表达自己的创意。
谷歌宣布推出了一款新的AI系统Imagen,可以将文字描述转化为逼真的图像的人工智能技术...据报道,Imagen可以创建比OpenAI的人工智能工具DALL-E2更逼真和逼真的图像,不过谷歌尚未公开Imagen[1]...Imagen进一步利用文本条件超分辨率扩散模型对图像进行64×64的上采样,然后这个图像继续增长并并最终形成...谷歌声称,对比其它模型,在图像保真度和图像-文本匹配方面,人类评估者更喜欢 Imagen...谷歌指出,在生成事件、物体和活动的图像时,Imagen会编码“社会和文化偏见”......
夏季最热的“三伏天”来临,热得人烦躁不堪周身不想动,是不是只想保持“葛优躺”的姿势,不想思考,懒得打字,让脑子和身体一块瘫软?近日,讯飞输入法iPhone V6.1.1635上线文本替换功能,让你无忧畅享“葛优躺”。你准备好升级了吗?
2月3日消息,据国外媒体报道,微软将以2.5亿美元收购输入法应用SwiftKey。这笔交易将于本周内公布。SwiftKey是一款应用人工智能技术的输法,可以预测用户输入的文本内容。
移动应用的设计师们一直在努力降低用户的输入量。屏幕太小了,手指无法精准触摸,输入过程中产生错误简直是家常便饭。输入量是无法被无限制的降低的,很多时候我们更需要考虑的是怎样使输入变得更加容易。
据美国IT网站PCWorld报道,软件开发商Avatron开发出了一款新应用AirDictate,可以通过Siri功能向Mac发布指令,语音随后会转换为文本,从而解放了用户的双手。
亚马逊音乐推出了一项名为Maestro的人工智能功能,旨在让用户通过简单的文本提示构建个性化的音乐播放列表。该功能可在iOS和Android应用程序上使用,利用自然语言生成播放列表,为用户带来更加便捷的音乐体验。这一创新性的AI功能为音乐爱好者带来了更多探索和发现音乐的乐趣,为亚马逊音乐平台增添了更多吸引力和竞争优势。
一种名为DynamicTypography的创新“动态排版”技术,正在为文本表达开辟新天地。这项技术通过视频扩散先验,将文本字母转化为动画,从增强语义表达和动态效果。利用向量图形技术,动画在任何分辨率下都能保持高质量,同时用户可以轻松调整文本样式。
知名生成式AI平台BlockadeLabs在官网重磅发布了全新模型——Model3。与Model2相比,Model3的生成效果实现质的提升,原生支持超高清8192x4096分辨率,增强了文本提示器能更好的描述生成世界,并且大幅度减少了生成世界的灰度值,使建筑、风景、人物等看起来更加高清、细腻。经过一年多的技术创新与业务积累,Blockade的用户超过150万,生成的作品超过1000万,成为很多游戏开发工作室、3D建模等常用工具,尤其是与Unity开发引擎集成后,迎来了一波用户增长高峰。
纵观生成式AI领域中的两个主导者:自回归和扩散模型。一个专攻文本等离散数据,一个长于图像等连续数据。通讯作者为一二作的导师StefanoErmon,他是斯坦福计算机科学系副教授。
2txt是一个基于AI的图像转文字工具,使用ClaudeHaiku和VercelAISDK创建。这个工具不仅可以将任意图像上的文字识别出来能将其转换成可编辑的文本格式。用户只需上传图片,系统就会自动识别图片中的文字,并将其转换成可编辑的文本格式,极大地提高了工作效率。
在人工智能领域,多模态模型的发展一直是行业关注的焦点。马斯克XAI公司发布了其最新的多模态模型——Grok-1.5Vision,这一模型不仅能够处理文本信息能够理解和分析各种视觉数据,如文档、图表、截图和照片,标志着公司在人工智能技术上迈出了重要一步。随着该模型的进一步优化和应用,我们有理由相信,它将在多个领域发挥重要作用,推动人工智能技术向前发展。
Meta与德国慕尼黑工业大学研发出创新模型ViewDiff,旨在帮助用户通过文本、图像或二者结合使用,快速生成高质量多视角3D图像。该模型解决了传统文本生成多视角3D图像领域的三大难点:无法生成真实背景环境、图像质量和多样性不理想、缺乏多视角和一致性。该模型的推出不仅在技术层面上具有重大意义,也将为未来的3D图像生成领域带来更多创新可能。
VQAScore是一种新的评估指标,旨在更好地评估复杂的文本到视觉生成效果。这一指标结合了CLIP-FlanT5模型,能够在文本到图像/视频/3D生成评估中实现最佳性能,是评估和优化文本到视觉生成模型的强大工具。如果您希望了解更多信息并开始使用VQAScore进行评估,请访问VQAScore官方网站。
一个名为Parler-TTS的全新开源项目引起了业界的广泛关注。Parler-TTS是一个高质量的文本到语音模型,它能够生成听起来非常自然的语音,为用户提供了前所未有的语音合成体验。项目团队还提供了交互式的演示和详细的训练指南,帮助用户快速上手并根据自己的需求对模型进行定制。