站长之家(ChinaZ.com)5月23日 消息:百度文心一言宣布推出全新功能「智能配图」。用户在回答后新增了【智能配图】按钮,适用于文本创作场景。
据了解,目前文心一言会员用户可以无限次使用,而非会员则可以免费体验三次。
2024年4月16日,百度创始人、董事长兼首席执行官李彦宏在Create2024百度AI开发者大会上表示,文心一言用户数已超2亿,API日均调用量也突破了2亿,服务客户数8.5万,千帆平台AI原生应用数超过19万。
(举报)
11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
统信UOS官方宣布,由百度研发的人工智能大语言模型产品文心一言正式上架统信应用商店。用户可通过统信应用商店一键下载、安装并使用文心一言。统信桌面操作系统是统信软件基于Linux开发的自研桌面操作系统,具备安全稳定、智能协同、美观易用的特点,拥有丰富软硬件兼容性、广泛应用生态支持,兼容国内主流处理器架构。
百度旗下的小度科技正式推出了首款基于文心大模型的学习机Z30,已在京东平台全面开售。这款学习机以“重新定义AI老师”为核心理念,旨在通过先进的AI技术助力孩子主动学习,同时让家长享受全陪伴的超省心体验。它还配备了10000mAh的电池和33W有线充电功能,确保用户在使用过程中拥有足够的续航时间和便捷的充电体验。
今日,百度智能云宣布文心大模型的两款主力模型ENIRESpeed、ENIRELite全面免费,即刻生效。这两款大模型今年3月发布,均支持8K和128k上下文长度。百度则更进一步,直接宣布两款主力模型免费,从天价”到骨折价”再到免费,大模型进入免费时代已然到来。
5月21日上午,阿里云在其例行峰会上意外地释放了大降价的消息:通义千问GPT-4级主力模型推理输入价格降至0.5元/百万tokens,直降97%。这一消息瞬间引发了业界的广泛关注和讨论。中国大模型企业的API商业模式将如何发展,让我们拭目以待。
5月20日,百度文库宣布行业首发「智能画本」功能,并对用户全面开放。同时,百度文库宣布与“猪猪侠”IP达成战略合作,行业首创“3D风格AI画本”创作功能,引领“IP创作”走向人机共创时代。据悉,百度文库将联合“猪猪侠”IP版权方广东咏声动漫股份有限公司,打造全球领先的“3D+AI”智能画本解决方案,在跨模态技术、IP内容共创上展开深度合作,携手打造“猪猪侠”
快科技6月16日消息,据微博小秘书”发文,微博转发功能升级到500字上限,微博用户转发内容可以更加完整、丰富。在此之前,140字的转发限制常常让用户在表达时感到局促,难以完整地传达自己的意图。而现在,随着500字转发上限的引入,用户们将能够更自由地表达自己的观点和感受,无疑极大地提升了用户的转发体验。值得一提的是,微博还宣布将快转”功能与无理由转发进行了合并。在合并之前,如果用户直接转发原创微博而不添加任何转发理由,系统会自动添加转发微博”这四个字作为默认文案。但现在,这一默认文案将不再占据转发微博的文本空
大语言模型发展至今,对各行各业的赋能程度越来越深,一些代表性产品正在改变甚至颠覆着整个行业。简单回顾便能发现,ChatGPT引领了一场文本创作革命、StableDiffusion等文生图大模型降低了绘画门槛、视频大模型Sora令影视从业者感到恐慌、音乐大模型Suno引发了一场音乐圈地震……我们能够感受到AI大模型重塑内容创作行业尤其是跨模态生成的巨大潜力。随着百度文库AI功能持续丰富和增强,内容创作领域会加速进入NextLevel——任何人都能胜任,什么任务都能搞定。
苹果公司可能会再次引发“Sherlock”效应,这次的目标是AI驱动的搜索功能。苹果被指从其开发者社区借鉴创意以丰富自家应用和操作系统功能。”Arc承诺继续探索AI摘要以外的创新想法,确保其在激烈的市场竞争中保持领先地位。
5月24日,36Kr新质生产力·AIPartner大会在北京举行。百度副总裁、文库事业部负责人王颖出席并发表《创作新纪元:人人都是内容创作者》主题演讲。在5月30日即将举办的2024百度移动生态万象大会上,百度文库也将发布全新产品,联合更多IP及企业在内容创作领域展开重磅合作,共同打造跨模态AI内容创作生态,全民自由创作的时代或将来临。
5月30日,2024百度移动生态万象大会在苏州召开。百度集团资深副总裁、百度移动生态事业群组总经理何俊杰表示,大模型是继互联网技术之后,下一个让人人都能普惠受益的前沿技术百度移动生态是大模型应用生长的热土,也是智能体浪潮的潮头,每个人都能享受到低门槛、多场景、高价值的智能体生态所带来的无限机遇。”王颖表示,百度文库也将携手更多行业伙伴,推动A
Nemotron-4-340B-Reward是由NVIDIA开发的多维奖励模型,用于合成数据生成管道,帮助研究人员和开发者构建自己的大型语言模型(LLMs)。该模型由Nemotron-4-340B-Base模型和一个线性层组成,能够将响应末尾的标记转换为五个标量值,对应于HelpSteer2属性。它支持最多4096个标记的上下文长度,并能够对每个助手轮次的五个属性进行评分。
Nemotron-4-340B-Instruct是由NVIDIA开发的大型语言模型(LLM),专为英文单轮和多轮对话场景优化。该模型支持4096个token的上下文长度,经过监督式微调(SFT)、直接偏好优化(DPO)和奖励感知偏好优化(RPO)等额外的对齐步骤。模型在约20K人工标注数据的基础上,通过合成数据生成管道合成了超过98%的用于监督微调和偏好微调的数据。这使得模型在人类对话偏好、数学推理、编码和指令遵循方面表现良好,并且能够为多种用例生成高质量的合成数据。
BookSlice是一款面向忙碌人群的游戏化阅读应用,通过心理学原理帮助用户建立阅读习惯,并通过设置每日挑战来维持阅读连续性。它利用实施意图、习惯叠加等心理工具,使阅读变得习惯性和上瘾。此外,BookSlice还提供AI问答功能,帮助用户在阅读过程中获得上下文答案。
agentUniverse 是一个基于大型语言模型的多智能体应用开发框架,提供了构建单一智能体和多智能体协作机制的所有必需组件。通过模式工厂,允许开发者构建和自定义多智能体协作模式,轻松构建多智能体应用,并分享不同技术与业务领域的模式实践。
HunyuanDiT Distillation Acceleration 是腾讯 Hunyuan 团队基于 HunyuanDiT 模型开发的蒸馏加速版本。通过渐进式蒸馏方法,在不降低性能的情况下,实现了推理速度的两倍提升。该模型支持多种GPU和推理模式,能够显著减少时间消耗,提高图像生成效率。
WonderWorld是一个创新的3D场景扩展框架,允许用户基于单张输入图片和用户指定的文本探索和塑造虚拟环境。它通过快速高斯体素和引导扩散的深度估计方法,显著减少了计算时间,生成几何一致的扩展,使3D场景的生成时间少于10秒,支持实时用户交互和探索。这为虚拟现实、游戏和创意设计等领域提供了快速生成和导航沉浸式虚拟世界的可能性。
ChatTTS_Speaker是一个基于ERes2NetV2说话人识别模型的实验性项目,旨在对音色进行稳定性评分和音色打标,帮助用户选择稳定且符合需求的音色。项目已开源,支持在线试听和下载音色样本。
fastc是一个基于大型语言模型嵌入的简单且轻量级的文本分类工具。它专注于CPU执行,使用高效的模型如deepset/tinyroberta-6l-768d生成嵌入。通过余弦相似度分类代替微调,实现文本分类。它还可以在不增加额外开销的情况下,使用相同的模型运行多个分类器。
MeshAnything是一个利用自回归变换器进行艺术家级网格生成的模型,它可以将任何3D表示形式的资产转换为艺术家创建的网格(AMs),这些网格可以无缝应用于3D行业。它通过较少的面数生成网格,显著提高了存储、渲染和模拟效率,同时实现了与先前方法相当的精度。
HunyuanDiT-v1.1是由腾讯Hunyuan团队开发的一款多分辨率扩散变换模型,它具备精细的中英文理解能力。该模型通过精心设计的变换器结构、文本编码器和位置编码,结合从头开始构建的完整数据管道,实现数据的迭代优化。HunyuanDiT-v1.1能够执行多轮多模态对话,根据上下文生成和细化图像。经过50多名专业人类评估员的全面评估,HunyuanDiT-v1.1在中文到图像生成方面与其他开源模型相比,达到了新的最先进水平。
UniAnimate是一个用于人物图像动画的统一视频扩散模型框架。它通过将参考图像、姿势指导和噪声视频映射到一个共同的特征空间,以减少优化难度并确保时间上的连贯性。UniAnimate能够处理长序列,支持随机噪声输入和首帧条件输入,显著提高了生成长期视频的能力。此外,它还探索了基于状态空间模型的替代时间建模架构,以替代原始的计算密集型时间Transformer。UniAnimate在定量和定性评估中都取得了优于现有最先进技术的合成结果,并且能够通过迭代使用首帧条件策略生成高度一致的一分钟视频。
LVBench是一个专门设计用于长视频理解的基准测试,旨在推动多模态大型语言模型在理解数小时长视频方面的能力,这对于长期决策制定、深入电影评论和讨论、现场体育解说等实际应用至关重要。
Mo是一款结合超现实主义艺术和堂吉诃德理想主义精神的AI科技学习APP。它通过卡片形式,以图文、动画、视频、语音等多样化内容,使AI和科技知识的学习变得生动有趣。Mo不仅覆盖了AI的基础知识,还包含了元宇宙、大数据、大模型等前沿技术,适合各种背景的学习者,旨在打造一个个性化的学习体验。
开搜AI问答搜索引擎是一款面向大众的、直达答案的AI问答搜索引擎,它能够帮助用户从海量的文献资料中筛选出有用的信息,提供直接、精准的答案,并且能够自动总结重点、生成大纲、思维导图并下载。
AI Math Notes 是一个开源的交互式绘图应用程序,允许用户在画布上绘制数学方程。应用程序利用多模态大型语言模型(LLM)计算并显示结果。该应用程序使用Python开发,利用Tkinter库创建图形用户界面,使用PIL进行图像处理。灵感来源于Apple在2024年全球开发者大会(WWDC)上展示的'Math Notes'。
VideoTetris是一个新颖的框架,它实现了文本到视频的生成,特别适用于处理包含多个对象或对象数量动态变化的复杂视频生成场景。该框架通过空间时间组合扩散技术,精确地遵循复杂的文本语义,并通过操作和组合去噪网络的空间和时间注意力图来实现。此外,它还引入了一种新的参考帧注意力机制,以提高自回归视频生成的一致性。VideoTetris在组合文本到视频生成方面取得了令人印象深刻的定性和定量结果。
Visual Sketchpad 是一种为多模态大型语言模型(LLMs)提供视觉草图板和绘图工具的框架。它允许模型在进行规划和推理时,根据自己绘制的视觉工件进行操作。与以往使用文本作为推理步骤的方法不同,Visual Sketchpad 使模型能够使用线条、框、标记等更接近人类绘图方式的元素进行绘图,从而更好地促进推理。此外,它还可以在绘图过程中使用专家视觉模型,例如使用目标检测模型绘制边界框,或使用分割模型绘制掩码,以进一步提高视觉感知和推理能力。
GoMate是一个基于Retrieval-Augmented Generation (RAG)框架的模型,专注于提供可靠输入和可信输出。它通过结合检索和生成技术,提高信息检索和文本生成的准确性和可靠性。GoMate适用于需要高效、准确信息处理的领域,如自然语言处理、知识问答等。
SD3-Controlnet-Canny 是一种基于深度学习的图像生成模型,它能够根据用户提供的文本提示生成具有特定风格的图像。该模型利用控制网络技术,可以更精确地控制生成图像的细节和风格,从而提高图像生成的质量和多样性。
EMMA是一个基于最前沿的文本到图像扩散模型ELLA构建的新型图像生成模型,能够接受多模态提示,通过创新的多模态特征连接器设计,有效整合文本和补充模态信息。该模型通过冻结原始T2I扩散模型的所有参数,并仅调整一些额外层,揭示了预训练的T2I扩散模型可以秘密接受多模态提示的有趣特性。EMMA易于适应不同的现有框架,是生成个性化和上下文感知图像甚至视频的灵活有效工具。