首页 > 业界 > 关键词  > FLUX最新资讯  > 正文

AI日报:阿里发布 FLUX.1-Turbo-Alpha;苹果多模态模型MM1升级为MM1.5;获奖AI画作《太空歌剧院》版权申请遭拒

2024-10-14 14:44 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、阿里发布 FLUX.1-Turbo-Alpha:基于FLUX.1-dev、8步提炼Lora

阿里妈妈创意团队发布了基于FLUX.1-dev模型训练的FLUX.1-Turbo-Alpha,采用8步蒸馏Lora模型,多头判别器显著提高蒸馏质量,支持多种FLUX相关应用。推荐引导尺度设置为3.5,Lora尺度为1,未来将推出更低步数版本。模型可与Diffusers框架结合使用,通过几行代码加载模型生成高质量图像。训练过程在超过100万幅图像上进行,采用对抗训练方法,具备6.3以上美学评分,分辨率高于800。FLUX.1-Turbo-Alpha的推出推动了人工智能技术的普及与应用。

image.png

【AiBase提要:】

🌟 基于FLUX.1-dev,采用8步蒸馏和多头判别器,提升图像生成质量。

🖼️ 支持文本到图像生成及修复控制网,用户可轻松创建多种有趣场景。

📊 训练过程采用对抗训练,训练数据超过100万张图像,确保模型高质量输出。

详情链接:https://huggingface.co/alimama-creative/FLUX.1-Turbo-Alpha

2、告别繁琐对齐!F5-TTS 让文本转语音变得轻松自如!

最近,来自上海交通大学、剑桥大学和吉利汽车研究院的研究团队推出了一种全新的文本到语音(TTS)系统,名为 F5-TTS。这种系统的特别之处在于,它采用了一种无自回归的方法,结合了流匹配与扩散变换器(DiT),成功简化了传统 TTS 模型中的复杂步骤。

image.png

【AiBase 提要:】

🌟 F5-TTS 是一种新型无自回归文本到语音系统,简化了传统 TTS 模型的复杂性。

⚡ 该系统结合 ConvNeXt 和 DiT,提高文本与语音的对齐效果,提升合成质量。

🔒 研究团队关注伦理问题,建议引入水印和检测机制以防滥用。

项目入口:https://github.com/SWivid/F5-TTS

体验地址:https://huggingface.co/spaces/mrfakename/E2-F5-TTS

3、OPPO 文档 AI新功能曝光!支持苹果 iWork 格式转换、文档翻译、扫描文档等!

OPPO 官方今日发布了一条预热消息,宣布即将推出全新的文档应用。根据预热消息,这款应用将支持多项功能,包括“文件随心开”、“AI 随心帮写”、“格式随心转换”和“文档随心搜索”。

62170c0fgy1hulyjyf19oj20u01tydll.jpg

【AiBase 提要:】

📝 OPPO 即将推出全新文档应用,支持多项 AI 功能。

🔄 应用可进行苹果 iWork 格式转换,提升兼容性。

📄 提供文档扫描和翻译功能,优化文档处理体验。

4、蚂蚁CodeFuse IDE0.6版发布 支持编辑器诊断问题 AI 修复

蚂蚁CodeFuse IDE0.6版本发布,新增编辑器诊断问题AI修复功能和内敛补全特性,提升代码编写便捷性和效率。IDE支持主流编程语言,提供代码编写建议、问题修复等功能。

image.png

【AiBase提要:】

🚀 IDE新增编辑器诊断问题AI修复功能,开发者可通过悬停触发智能修复按钮解决错误信息。

⚙️ 优化代码智能补全体验,支持下拉补全和内敛补全同时出现,用户可通过Tab键快速采纳内敛补全。

💻 CodeFuse IDE基于蚂蚁自研大模型和OpenSumi框架开发,提供智能终端、单元测试生成等功能。

详情链接:https://github.com/codefuse-ai/codefuse-ide

5、苹果的 “多模态炼丹炉” 又升级!MM1.5增强文本密集、多图理解

苹果公司最近为其多模态人工智能模型MM1推出了重大更新,将其升级为MM1.5版本。这次升级不仅仅是简单的版本号变更,而是全方位的能力提升,使得模型在各个领域都展现出了更强大的性能。MM1.5的核心升级在于其创新的数据处理方法,包括高清晰度的OCR数据和合成图像描述的使用,以及优化的视觉指令微调数据混合。

image.png

【AiBase提要:】

🚀 MM1.5采用以数据为中心的训练方法,优化了训练数据集,在文字识别、图像理解和执行视觉指令等方面表现显著提升。

💡 MM1.5涵盖了从10亿到300亿参数的多个版本,包括密集型和专家混合(MoE)变体,即使是较小规模的模型也能达到令人印象深刻的性能水平。

🔍 MM1.5的能力提升主要体现在文本密集型图像理解、视觉指代和定位、多图像推理、视频理解以及移动UI理解等方面,拓展了应用场景。

详情链接:https://arxiv.org/pdf/2409.20566

6、合成数据有毒!Meta团队证实:1%数据就能让大模型完全崩溃

最近AI圈子发生了一件怪事,就像一个吃播博主突然开始吃自己做的菜,越吃越上瘾,菜也越来越难吃。这事儿说起来还挺吓人,专业的术语叫模型崩溃(model collapse)。模型崩溃是AI模型在训练过程中,如果大量使用自己生成的数据,就会陷入恶性循环,导致模型生成的质量越来越差,最终完犊子。

image.png

【AiBase提要:】

🔍 模型崩溃现象:AI模型在训练中过度依赖合成数据导致生成质量下降,最终崩溃。

💡 解决方案:优先使用真实数据,谨慎使用合成数据,控制模型规模,避免模型崩溃。

📈 实验发现:即使使用1%的合成数据也可能导致模型崩溃,模型规模越大,崩溃现象更严重。

详情链接:https://arxiv.org/pdf/2410.04840

7、获奖AI画作《太空歌剧院》版权申请遭拒

最近,合成媒体艺术家Jason Allen因创作的作品《太空歌剧院》遭到版权办公室拒绝注册引发争议。Allen不满决定上诉,认为作品中有大量人类创作成分,应获版权保护。AI生成的作品是否应获得版权保护成为焦点,引发关于AI艺术创作版权法律的讨论。

【AiBase提要:】

🌟 Allen认为作品中有大量人类创作成分,应获得版权保护。

🤖 版权办公室认为AI生成作品缺乏足够人类创作,拒绝注册。

📜 Allen的上诉可能推动AI艺术创作版权法律的进一步讨论。

8、台积电第三季度利润增长40%,AI 热潮助推需求激增

最近,台积电宣布预计第三季度净利润将大幅增长40%,受益于AI芯片需求激增。公司客户包括苹果、英伟达等知名企业,推动AI技术发展。市场对台积电未来表现乐观,营收和资本支出计划均有提升。

【AiBase提要:】

💰 台积电第三季度净利润预计将达到2982亿新台币,较去年同期增长40%。

📈 台积电的客户正在推出新产品,推动其业绩超预期增长。

🌍 台积电加大投资建设新工厂,未来资本支出预计在300亿至320亿美元之间。

9、Anthropic CEO:AI将助力人类抗击疾病5-10年内人类寿命可延长至150岁

在Anthropic的CEO达里奥·阿莫代伊的文章中,他大胆预测了人工智能(AI)在未来的发展。尽管公众对AI的风险有所担忧,但他认为AI的积极潜力巨大,可以为人类社会带来前所未有的进步。阿莫代伊强调了处理AI风险的紧迫性,并警告过度夸大技术可能带来的误导。他展望了AI在生物学、健康、神经科学、心理健康、经济、贫困和智者国度等领域的变革。

【AiBase提要:】

🔬 生物学和健康: AI能加速医学进步,控制传染病、降低癌症死亡率、治疗遗传病,预计人类寿命可翻倍至150岁。

🧬 生物自由: AI赋予人类更多生物学特征控制权,包括生育和外貌选择。

🧠 神经科学和心理健康: AI应用改善精神疾病理解和治疗,提升心理健康。

10、苹果可能会在明年推出售价2000美元的 Vision 头显

苹果公司计划推出新型 Vision 头显,价格约为2,000美元,采用更便宜的材料和性能更低的处理器。该设备不包含 EyeSight 功能,是苹果混合现实计划的一部分。苹果还将推出第二代 Vision Pro、智能眼镜和带摄像头的 AirPods,以及价格实惠的类似 iPad 的屏幕和带机械臂的桌面设备。尽管混合现实计划并未取得巨大成功,苹果仍坚持推进相关产品的开发。

image.png

【AiBase提要:】

🔍 苹果计划推出价格约为2,000美元的新型 Vision 头显,采用更便宜的材料和性能更低的处理器。

🚀 苹果将在未来推出第二代 Vision Pro、智能眼镜和带摄像头的 AirPods,推动混合现实领域的发展。

💡 苹果还计划推出价格实惠的类似 iPad 的屏幕和带机械臂的桌面设备,作为智能家居战略的一部分。

11、谷歌在美国搜索广告市场份额或将跌破50%

谷歌在美国搜索广告市场份额可能在2025年跌破50%,面临新竞争者挑战。新兴竞争者如TikTok、亚马逊和人工智能初创公司Perplexity正抢占市场份额。亚马逊在搜索广告开支中增长迅速,对谷歌构成压力。人工智能的发展改变搜索广告格局,谷歌计划在AI搜索摘要中插入广告。搜索广告市场正经历深刻变革。

【AiBase提要:】

📉 谷歌搜索广告市场份额预计将在2025年跌破50%,面临新竞争者的挑战。

📱 TikTok和亚马逊正迅速崛起,抢占谷歌的市场份额。

🤖 谷歌计划在AI搜索摘要中加入广告,为品牌提供新的投放渠道。

12、联想发布ThinkSmart Core Gen2专为视频会议打造 AI助力高效协作!

联想推出的ThinkSmart Core Gen2为智能协作领域带来突破,搭载英特尔Core Ultra处理器,强大的AI处理能力提升会议效率,重新定义会议空间和工作方式,实现智能协作体验。

image.png

【AiBase提要:】

💡 ThinkSmart Core Gen2搭载英特尔Core Ultra处理器,集成神经处理单元,AI处理能力强大,能耗降低40%。

💼 支持Microsoft Teams Rooms和Zoom Rooms,提供AI增强功能,包括智能框选、自动语音识别、智能姿态标签等。

🔒 提供高度自动化和前瞻性管理,预装ThinkSmart Manager软件和ThinkShield解决方案确保全方位安全保护。

举报

  • 相关推荐
  • 声启未来新章 BANG & OLUFSEN 铂傲 推出全新Beo grace耳机

    Bang & Olufsen推出全新无线耳机Beo Grace,融合纤薄铝制机身与卓越音质,体现品牌对声学创新与永恒设计的追求。耳机灵感源自高级珠宝,采用标志性抛光铝材打造,支持杜比全景声与自适应主动降噪技术,降噪效果较前代提升四倍。配备12毫米钛金属驱动单元,续航达4.5小时(搭配充电盒可达17小时),具备IP57防水防尘。通过NearTap™手势操控与定制电池管理系统,兼顾便捷使用与长效耐用,开启可佩戴声学新纪元。

  • AI日报:生数科技推出Vidu Q2;火山引擎推出炉米Lumi;通义千问开源300+模型

    本文汇总了近期AI领域多项重要进展:生数科技推出Vidu Q2模型,显著提升视频生成中细微表情的真实感;火山引擎发布炉米Lumi平台,支持视觉模型LoRA微调以定制独特风格;阿里云通义千问开源超300个模型,下载量突破6亿次;百度开源多模态视觉理解模型Qianfan-VL,适配不同场景需求;微软在Copilot中引入Anthropic模型,拓展AI助手功能;OpenAI计划在美国新建五个数据中心以加速Stargate项目;英伟达开源Audio2Face模型,提升实时面部动画生成效果;Meta发布具备沙箱推演能力的32B代码世界模型CWM,优化代码调试效率。这些动态展示了AI技术在视觉、多模态、开源生态及硬件支持等方面的快速迭代与创新突破。

  • 哈弗大狗PLUS正式上市,解锁家庭泛越野SUV全新体验!

    哈弗大狗PLUS正式上市,作为行业首款家庭泛越野中型SUV,兼具出色越野性能与舒适性。拥有超长轴距和超大空间,提供燃油和PHEV两种动力选择,满足不同用户需求。配备智能四驱系统、L2级辅助驾驶及多种地形模式,兼顾城市通勤与户外出行。搭载Coffee OS3智能系统,带来优秀交互体验,是家庭出行的理想选择。

  • influxdb详细安装配置教程 influxdb怎么安装配置

    influxdb是一款开源的时序数据库,可以用作监控系统的数据存储或用来存储基于时序进行分析的业务系统的数据存储。influxdb的部署及使用均比较简单,但是集群(官方版集群已闭源)及高可用方案较少,所以后续测试完几种方案后再推送给大家参考。

  • flux ai官网地址入口 FLUX.1模型怎么使用方法详细教程指南

    FLUX.1是什么?FLUX.1是由BlackForestLabs推出的一款先进AI图像生成模型,旨在提供高质量的图像生成服务。您可以通过我们的AI产品库轻松发现最适合您需求的人工智能工具,解锁AI的力量。

  • 采用树图结构的Conflux 被Libra严重低估

    随着几年前,区块链技术在国外兴起后,国内一直处于落后状态。时至今日,依据树图结构的区块链公链开发团队Conflux,在应用树图结构创新后,将整个区块链技术已经达到了领先水平,远超拜占庭共识算法,而当初Libra明显低估了树图结构的性能。今年 6 月,由脸书发起的Libra项目发布关于共识部分的白皮书《State Machine Replication in the Libra Blockchain》,其中第一部分Introduction中这样写到:“Several blockchains are sim

  • 树图区块链Conflux: 如何存储历史数据

    区块链相关从业者朋友们经常提到这样一个问题:树图区块链Conflux 把 TPS 大幅度提高以后,数据怎么存?以现在树图区块链Conflux 的网络参数为例,平均每秒生成 4 个区块,每个区块大小约为 300KB。那么在满载的情况下,一秒的吞吐量为 1.2MB,一天约 100GB,每年新增的交易历史数据可达 30TB。在企业级和工业级的应用中存储 30TB 数据并不是一件特别困难的事情,按照现在的市场价 3 块 10TB 硬盘只需 5000-7000 元。但是不同于 Has

  • 币安区块101丨Conflux张元杰:DeFi新物种

    2020年8月13日,币安Zora对话Conflux Network联合创始人张元杰。张元杰在直播中分享了未来团队在DeFi上的布局以及公链未来的前景。张元杰认为区块链的应用从服务边缘金融发展到边界金融,再到全球金融和传统金融,会有更多基于token(不止是金融资产,也包括车、房、艺术品等的权益)的数字经济商业创新。张元杰认为DeFi是开放式的金融应用,而在DeFi中所有协议和资产都是透明的,且DeFi减少了中介服务,用户的资金托管在以太坊的?

  • 树图区块链Conflux:优秀的区块链项目应该具备有哪些特点?

    众所周知,区块链技术的优越性对于科技和金融行业的发展,有着重要的促进作用,但是面对从事区块链行业的众多公司,如何分辨出哪些是优秀的区块链项目就至关重要,今日,国内著名树图区块链Conflux团队,在此为大家解惑,一个优秀的区块链项目,应具备哪些特点。树图区块链Conflux看来,一个理想的公链系统应该具备以下三个特点:1.足够的鲁棒性(Robustness)这个系统应该在任何时候都能持续的有进展。 2.高性能。所谓高性能,就是?

  • 树图区块链Conflux研究院 | 树图上的轻节点设计

    近日,树图区块链Conflux研究院在介绍延迟执行策略时提到树图区块链Conflux的轻节点设计,并为我们点明了疑惑。树图区块链Conflux提出解释道:为了节约计算资源,在转发区块时可以只检查区块的格式和引用是否合法(包括工作量证明),而尽量少检查区块中所存的状态根(State Root)。但是不强制检查状态根在安全性上会带来一些隐患,例如有些矿工可能会偷懒,只打包交易而不管实际执行交易,也不去验证收到的区块里的状态根的正确性—?

今日大家都在搜的词: