首页 > 业界 > 关键词  > Bing最新资讯  > 正文

AI视野:OpenAI成全球第三最有价值初创公司;SDXL推精简版本;小米14将搭载WPS AI功能;Bing AI拒绝生成女性逼真图像

2023-10-27 15:17 · 稿源:站长之家

📰🤖📢AI新鲜事

OpenAI估值飙升,成为全球第三最有价值初创公司

OpenAI的估值预计将达到800亿美元,使其成为全球第三最有价值的初创公司,仅次于TikTok的字节跳动和Elon Musk的SpaceX。

【AiBase提要:】

1. OpenAI的估值即将达到800亿美元,使其成为全球第三最有价值的初创公司。

2. 这一成就将OpenAI超越金融科技公司Stripe和时尚品牌Shein。

3. 公司计划出售高达10亿美元的员工股份,以提高在工程人才市场中的竞争力。

Bing AI图片生成器拒绝生成女性的逼真图像,称其“不安全”

微软的Bing AI图片生成器在生成逼真男性图像方面表现出色,但拒绝生成逼真女性图像,声称这不符合其内容政策,引发了性别相关问题的讨论。

【AiBase提要:】

🤖 Bing的 AI 图片生成器在生成男性图像上表现出色,但拒绝生成逼真女性图像,声称违反内容政策。

🚺 用户怀疑问题可能与训练数据中女性被性化有关,导致AI将女性图像与不安全内容联系在一起。

🗣 微软回应称AI拒绝生成女性图像是为了过度防护,但后来放宽了生成限制,强调改进技术准确性和内容过滤器的完善。

谷歌搜索引入语法检查模型EdiT5提高语法纠正准确性

Google的研究团队最近开发了一高效的语法检查模型,将其引入Google搜索,提供用户查询语法方面的辅助工具,基于EdiT5架构,通过文本编辑方法减少解码延迟,提高语法纠正准确性。

image.png

【AiBase提要】

1. 谷歌研究团队开发高效语法检查模型,引入Google搜索,提供查询语法辅助。

2. EdiT5模型采用新颖文本编辑方法,降低解码延迟,提高语法纠正准确性。

3. 结合大型语言模型,提高效率,降低延迟,提供更好的用户体验。

小米14手机深度合作金山办公,搭载WPS AI功能

小米14手机宣布与金山办公深度合作,推出搭载WPS AI功能的专属版WPS,旨在提供更智能的移动办公体验。

【AiBase提要:】

🔍 小米14手机与金山办公宣布深度合作,推出搭载WPS AI功能的专属版WPS。

🔍 WPS AI在小米14系列手机上提供强大的办公功能,包括一键生成PPT演示文稿,细化调节等。

🔍 这一深度合作旨在帮助小米手机用户提高工作效率和办公体验。

OpenAI成立准备组以评估和防范人工智能带来的灾难性风险

OpenAI成立名为「准备组」的团队,由麻省理工学院的亚历山大·马德里领导,旨在评估、检测并预防人工智能模型可能导致的「灾难性风险」。

【AiBase提要:】

1. OpenAI的新团队「准备组」由亚历山大·马德里领导,专注于评估和预防人工智能模型可能带来的「灾难性风险」。

2. 「准备组」的职责包括追踪、预测和防范AI系统可能带来的危险,涵盖了诱导人类、恶意代码生成等领域。

3. OpenAI将向社区征集风险研究方案,前十名提交者有机会获得奖金和职位,以应对高性能AI系统的潜在风险。

英特尔数据中心和人工智能业务收入38亿美元

英特尔公司在第三季度实现142亿美元的营收,数据中心和人工智能业务收入为38亿美元,尽管同比下降,但超过了市场预期。

【AiBase提要】

📉 营收下降: 英特尔第三季度营收同比下降8%,低于市场预期。

💻 数据中心业务: 数据中心和人工智能业务收入为38亿美元,同比下降10%。

💡 人工智能竞争: 英特尔面临竞争,一些客户正在转向英伟达等公司的人工智能芯片。

微软必应聊天将非Edge浏览器的文本输入量提升至4000个

微软最近扩大了非Edge浏览器用户在必应聊天中的文本输入量,从2000个提高到4000个,但每个主题对话仍限制在5轮内。这可能会给一些用户带来不便,但微软考虑根据反馈和市场需求进一步增加对话轮次的限制。需要注意的是,历史记录和个性化答案仍仅在Edge浏览器中可用。

【AiBase提要】

📈 非Edge浏览器的必应聊天文本输入量提升至4000个。

🔄 每个主题对话限制仍为5轮,但可根据反馈调整。

🌐 Edge浏览器保留历史记录和个性化答案功能。

联合国成立39人人工智能国际治理咨询团队

联合国秘书长安东尼奥·古特雷斯成立39人咨询顾问团队,以解决人工智能国际治理问题,包括技术公司高管、政府官员和学者,该团队将发布初步和最终建议,加强国际合作。

【AiBase提要:】

🌐 联合国秘书长成立39人咨询顾问团队,解决人工智能国际治理问题。

👥 该团队包括技术公司高管、政府官员和学者,将发布初步和最终建议。

🤝 任务包括建立全球科学共识、识别风险、加强国际合作,以处理人工智能的复杂问题。

机器人替身!远程机器人VRoxy可在VR中模仿你的动作

康奈尔大学和布朗大学的研究人员开发了名为VRoxy的远程机器人系统,它能够实时响应虚拟现实中用户的动作和手势,允许用户在小空间中与远程团队协作。

image.png

论文网址:https://infosci.cornell.edu/~mose/papers/UIST2023_VRoxy.pdf

【AiBase提要】:

1. VRoxy是一款高级远程机器人,能够自动并实时响应虚拟现实中用户的动作和手势。

2. 这一系统允许用户在狭小的空间中,如办公室,通过虚拟现实与更大空间中的团队成员进行协作,提高了远程合作的效率。

3. 未来的发展计划包括增加机械手臂和实时地图制作功能,使VRoxy更加多功能化。

扎克伯格:到2024年AI将成为Meta最大的投资领域

Meta公司股价下跌3%后,扎克伯格强调到2024年AI将成为其最大投资领域,发布开源AI模型,并招聘员工以推动元宇宙发展。

【AiBase提要:】

📈 Meta公司股价下跌3%,受以色列-哈马斯战争影响,但第三季度财报表现强劲,尽管谨慎展望。

🧠 扎克伯格强调AI在未来的重要性,计划将AI作为最大的投资领域,并发布开源AI模型吸引AI人才。

🌐 公司将在2024年招聘员工,主要集中在AI、盈利化、元宇宙和监管合规领域,同时推出生成式AI产品。

🤖📱💼AI应用

SDXL推精简版本SSD-1B 推理速度提升60%

Segmind Stable Diffusion1B(SSD-1B)是一款高效、高速的文本生成图像AI模型,为图像生成提供广泛可能性,它是稳定扩散XL的精简版本,体积减小50%,但速度提升60%。

image.png

项目地址:https://huggingface.co/segmind/SSD-1B

【AiBase提要】

🚀 SSD-1B模型能根据文本提示生成图像,适用于创意应用,速度提高60%。

📚 该模型经过多种数据集的训练,能有效处理各种文本提示。

🖼️ 可在艺术与设计、教育、研究等领域应用,提供安全内容生成和偏见分析。

《福布斯》推出新型人工智能搜索工具Adelaide 测试版

福布斯杂志发布了Adelaide,一款人工智能搜索工具,可根据读者提出的问题生成相关文章和答案,提高用户参与度和搜索创新应用。

【AiBase提要】

🔍 Adelaide是福布斯的新AI搜索工具,通过生成文章回答读者问题。

📈 工具可提高用户参与度和搜索创新应用。

📰 目前使用一年内的新闻报道,未来计划扩大知识库到全部历史档案。

AudioSep:可以从音频剪辑中仅分离出特定的声音

AudioSep是一款创新的AI模型,能够通过自然语言查询,精确从音频中分离特定声音,提供训练和微调功能、内存效率以及强大的分离性能。

【AiBase提要】

🎵 使用自然语言查询进行声音分离的创新AI模型。

🎧 AudioSep提供训练和微调功能,适应不同音频需求。

💡 内存高效且具有强大的分离性能,适用于音频事件分离、乐器分离和语音增强等任务。

🤖📈💻💡大模型动态

谷歌发布PaLI-3视觉语言模型,小体量达到SOTA!

谷歌最新发布的PaLI-3视觉语言模型以更小的体量和更快的推理速度,在多个任务中实现了SOTA性能,引起广泛关注,为视觉语言领域带来新的可能性。

image.png

论文地址:https://arxiv.org/pdf/2310.09199.pdf

【AiBase提要】

🌟 谷歌的PaLI-3视觉语言模型以小体量取得SOTA性能,尤其在定位和文本理解领域表现出色。

🚀 通过对比预训练方法,它成功地深入研究了多语言模态检索,提供了更强大性能和低参数需求的替代方案。

💡 虽未完全开源,但已发布多语言和英文模型,对未来视觉语言模型的发展方向具有重要影响。

👨‍💻💡🎯聚焦开发者

NYU重磅发现登Nature:AI神经网络具有类人泛化能力

研究人员通过Meta-Learning for Compositionality(MLC)方法,成功培养神经网络实现「举一反三」能力,甚至超越人类思维。

论文链接:https://www.nature.com/articles/s41586-023-06668-3#auth-Brenden_M_-Lake-Aff1

【AiBase提要】:

🧠 AI神经网络具备系统泛化能力

🤖 MLC方法培养神经网络实现「举一反三」

📚 研究成果首次发表在Nature杂志,或许解决AI理解未训练知识的问题。

FreeU:无需额外训练或微调即可提高图像生成质量

一句话总结核心内容: FreeU是一种新的人工智能技术,使用概率扩散模型,能够提高生成模型的图像质量,无需额外的训练或微调,广泛应用于计算机视觉任务。

【AiBase提要】:

🔹 自由扩展技术(FreeU)是新的人工智能技术,无需额外训练或微调,提高生成模型质量。

🔹 利用概率扩散模型,通过平衡低频和高频特征改善生成图像质量,已在多个应用中成功应用。

🔹 引入两个调制因子,平衡主干和跳跃连接的特征贡献,显著提高生成输出质量。

举报

  • 相关推荐
  • 大家在看
  • Jector:AI 创建工具,打造令人惊叹的产品照片。

    Jector是一个AI创作工具,专注于为产品摄影提供高质量的背景生成服务。它通过简化AI设置,提供独立的生成环境插槽,以及基于节点的图像生成历史记录,使得用户能够轻松创建和合成产品图像。Jector的主要优点包括无需复杂设置即可开始使用,提供简单但高度灵活的生成选项,自动产品合成,以及额外的清除和放大功能。此外,它还提供无限保存和下载功能,让用户可以轻松地为产品生成自己的心情历史。

  • Spon:一站式社区构建平台,管理活动、社区和成员。

    Spon是一个专为线下社区构建者设计的全功能平台,由人工智能提供支持。它允许用户从单一界面管理活动、社区和成员。它提供了多种工具来促进社区成员之间的互动,如即兴活动、有意义的讨论和专门的聊天。Spon还提供了社区发现、兴趣匹配和基于位置的搜索功能,帮助用户扩大社区影响力。此外,Spon还提供了一个内置钱包和真实奖励系统,鼓励社区领导者通过他们的努力获得认可和奖励。Spon的愿景是超越事件本身,强调社区的支持、友谊、勇气、好奇心、联系和爱。

  • ChatTTS:一个用于文本到语音转换的开源项目。

    ChatTTS是一个开源的文本到语音转换(TTS)模型,它允许用户将文本转换为语音。该模型主要面向学术研究和教育目的,不适用于商业或法律用途。它使用深度学习技术,能够生成自然流畅的语音输出,适合研究和开发语音合成技术的人员使用。

  • Doly for iPhone:快速轻松生成出色的3D产品视频。

    Doly是一款为iPhone 11及以上版本设计的应用程序,它允许用户通过简单的操作生成高质量的3D产品视频。这款应用通过提供一系列3D模板,使得用户能够快速创建出吸引人的产品展示视频,从而提升产品在社交媒体、广告或产品页面上的呈现效果。Doly的主要优点包括易用性、成本效益和高效的视频生成速度。

  • Streaks 66:66天习惯养成助手,AI智能指导。

    Streaks 66是一款习惯追踪应用程序,旨在帮助用户通过66天的挑战来建立持久的日常习惯。它提供了不同难度模式以适应不同用户的需求,并通过集成的AI习惯教练为用户提供个性化建议、激励和关于习惯和目标的洞察。此外,该应用程序还支持设置提醒、与朋友和家人分享习惯进展以及跨设备同步数据。

  • ChatGPT Notepad:在线文本编辑器,提供文本编辑、保存、复制、剪切等功能。

    ChatGPT Notepad是一款在线文本编辑器,旨在帮助用户高效地编辑和处理文本内容。它支持基本的文本编辑功能,如保存、复制、剪切等,同时提供全屏模式和大小写转换等高级功能。该产品重视用户隐私保护,不使用第三方跟踪工具,确保用户数据安全。

  • InternLM-Math-Plus:双语开源数学推理大型语言模型。

    InternLM-Math-Plus 是一个最新的双语(英文和中文)开源大型语言模型(LLM),专注于数学推理,具有解决、证明、验证和增强数学问题的能力。它在非正式数学推理(如思维链和代码解释)和正式数学推理(如LEAN 4翻译和证明)方面都有显著的性能提升。

  • Selfarama:用AI将孩子的肖像与画家相结合 生成书籍

    Selfarama 是一款教育图书产品,通过将孩子与历史上最伟大的画家联系起来,帮助他们学习艺术史知识。产品包含定制的孩子肖像画和通俗易懂的教育文本。

  • Open-Sora-Plan-v1.1.0:文本到视频生成的开源模型,性能卓越。

    Open-Sora-Plan是一个由北京大学元组团队开发的文本到视频生成模型。它在2024年4月首次推出v1.0.0版本,以其简单高效的设计和显著的性能在文本到视频生成领域获得了广泛认可。v1.1.0版本在视频生成质量和持续时间上进行了显著改进,包括更优的压缩视觉表示、更高的生成质量和更长的视频生成能力。该模型采用了优化的CausalVideoVAE架构,具有更强的性能和更高的推理效率。此外,它还保持了v1.0.0版本的极简设计和数据效率,并且与Sora基础模型的性能相似,表明其版本演进与Sora展示的扩展法则一致。

  • &udm=14:无AI干扰的谷歌搜索页面

    &udm=14的AI-Free Search是一个提供无AI干扰的谷歌搜索服务的网站,允许用户在没有人工智能干预的情况下进行搜索。它使用'udm=14'参数来实现这一点,旨在保护用户的隐私,同时提供快速、准确的搜索结果。该网站由Tedium团队构建,支持开源代码,用户可以通过Glitch或Github获取。

  • LookOnceToHear:实时语音提取智能耳机交互系统

    LookOnceToHear 是一种创新的智能耳机交互系统,允许用户通过简单的视觉识别来选择想要听到的目标说话者。这项技术在 CHI 2024 上获得了最佳论文荣誉提名。它通过合成音频混合、头相关传输函数(HRTFs)和双耳房间脉冲响应(BRIRs)来实现实时语音提取,为用户提供了一种新颖的交互方式。

  • Models Table:大型语言模型的详细列表和信息

    Models Table 提供了一个包含300多个大型语言模型的列表,这些模型被所有主要的AI实验室使用,包括Amazon Olympus, OpenAI GPT-5, OpenAI GPT-6等。该列表展示了大型语言模型的发展趋势和多样性,对于AI研究者和开发者来说是一个宝贵的资源。

  • ReVideo.pro:一键式AI视频制作工具,适用于社交媒体和商业广告。

    ReVideo是一款功能强大的在线视频制作工具,它集成了100多个高级模板、AI背景移除工具、无版权音乐和图片库等。用户可以通过ReVideo轻松创建适用于Facebook、Instagram、YouTube、TikTok、Snapchat、播客等多种平台的视频内容。ReVideo的主要优点包括:无需录制视频或面对镜头、AI自动转录音频为字幕、自动生成音频波形、一键式品牌资产个性化、媒体库集成、超过300万的库存照片和视频资源可供搜索等。此外,ReVideo还提供了商业许可,允许用户为其客户创建视频并保留100%的利润。

  • SignLLM:首个多语种手语生成模型,优化手语翻译与教学。

    SignLLM是首个多语种手语生成模型,它基于公共手语数据构建,包括美国手语(ASL)和其他七种手语。该模型能够从文本或提示生成手语手势,并通过强化学习加速训练过程,提高数据采样质量。SignLLM在八种手语的生产任务上都达到了最先进的性能。

  • InstructAvatar:文本引导的情感和动作控制,生成生动的2D头像

    InstructAvatar是一个创新的文本引导方法,用于生成具有丰富情感表达的2D头像。该模型通过自然语言接口控制头像的情感和面部动作,提供了细粒度控制、改进的交互性和对生成视频的泛化能力。它设计了一个自动化注释流程来构建指令-视频配对的训练数据集,并配备了一个新颖的双分支扩散基础生成器,可以同时根据音频和文本指令预测头像。实验结果表明,InstructAvatar在细粒度情感控制、唇同步质量和自然度方面均优于现有方法。

  • AnyNode:ComfyUI的节点,能够根据用户指令生成任何类型的输出。

    AnyNode是一个为ComfyUI设计的插件,它利用LLMs(大型语言模型)的能力,根据用户的输入生成所需的输出。它支持使用OpenAI API或本地LLMs API,允许用户通过简单的配置和指令,实现复杂的编程任务,无需编写代码。该插件的主要优点包括易用性、灵活性和强大的功能,能够显著提高开发效率,尤其适合需要快速原型开发和自动化任务的开发者。

  • FlashRAG:高效的检索增强生成研究工具包

    FlashRAG是一个Python工具包,用于检索增强生成(RAG)研究的复现和开发。它包括32个预处理的基准RAG数据集和12种最先进的RAG算法。FlashRAG提供了一个广泛且可定制的框架,包括检索器、重排器、生成器和压缩器等RAG场景所需的基本组件,允许灵活组装复杂流程。此外,FlashRAG还提供了高效的预处理阶段和优化的执行,支持vLLM、FastChat等工具加速LLM推理和向量索引管理。

  • MusicGPT:在本地使用 LLMs 根据自然语言提示生成音乐。

    MusicGPT 是一款允许在任何平台上以高性能方式在本地运行最新音乐生成 AI 模型的应用程序。它支持文本条件音乐生成、旋律条件音乐生成以及不确定长度 / 无限音乐流。产品优势在于无需安装重型依赖如 Python 或机器学习框架,能够本地运行 AI 模型,提供自然语言提示生成音乐的功能。

  • AI Menti Builder:AI驱动的快速演示文稿制作工具

    AI Menti Builder是一个在线工具,它利用人工智能技术帮助用户快速创建演示文稿。这个工具能够根据用户输入的主题,即时生成一个可交互的演示文稿草稿,用户可以根据自己的需求进行调整和完善。它适用于团队会议、研讨会、讲座、调查、趣味测验等多种场合,大大减少准备时间,提高效率。

  • Copilot for Telegram:Telegram上的AI伴侣,智能聊天新体验。

    Copilot for Telegram是由微软推出的一款AI聊天助手,它通过GPT技术为用户提供智能聊天体验。用户可以与Copilot进行无缝对话,获取信息,享受更智能的聊天体验,所有这些功能都集成在Telegram应用中。Copilot for Telegram的主要优点包括提供个性化建议、娱乐内容、生活小贴士等,旨在提高用户的社交互动质量。

今日大家都在搜的词: