突发!DeepSeek除夕搞炸裂,开源多模态AI模型发布,仅128颗英伟达A100训练1周,性能碾压美国企业

专题:DeepSeek为何能震动全球AI圈   刚刚,DeepSeek除夕放大招,这绝对是 AI 行业最难眠的一夜了。...

专题:DeepSeek为何能震动全球AI圈

突发!DeepSeek除夕搞炸裂,开源多模态AI模型发布,仅128颗英伟达A100训练1周,性能碾压美国企业

  刚刚,DeepSeek除夕放大招,这绝对是 AI 行业最难眠的一夜了。

  1月28日凌晨,人工智能社区Hugging Face显示,DeepSeek刚刚发布了开源多模态人工智能模型Janus-Pro,拥有10亿和70亿参数规模。其中Janus-Pro-7B在GenEval和DPG-Bench基准测试中击败了OpenAI的DALL-E 3和Stable Diffusion。

  简单来说,这个模型既能让AI读图(基于SigLIP-L),又能让AI生图(借鉴LlamaGen),分1.5B和7B两个大小。要知道,GPT-4o的图片生成多模态模型至今没开放。

  它到底有多么厉害?给你看看DeepSeek给的案例。

突发!DeepSeek除夕搞炸裂,开源多模态AI模型发布,仅128颗英伟达A100训练1周,性能碾压美国企业

突发!DeepSeek除夕搞炸裂,开源多模态AI模型发布,仅128颗英伟达A100训练1周,性能碾压美国企业

  它能解答图片在杭州西湖,也能根据提示词生成惟妙惟肖的图片。

  事实上,DeepSeek一直在研发多模态生成式AI模型。

  2024年前后,该公司推出Janus,这是一种统一理解和生成的开源多模态模型(MLLM),它将视觉编码解耦,以实现多模态理解和生成。

  Janus 基于 DeepSeek-LLM-1.3b-base 构建,该库在大约 500B 个文本标记的语料库上进行训练。对于多模态理解,它使用 SigLIP -L作为视觉编码器,支持 384 x 384 图像输入。对于图像生成,Janus 使用此处的标记器,下采样率为 16。

  2024年11月13日,JanusFlow 发布,一种用于图像生成的具有校正流的新型统一模型。

  简单来说,JanusFlow是一个功能强大的框架,它将图像理解和生成统一到一个模型中。JanusFlow 引入了一种极简架构,将自回归语言模型与最先进的生成模型方法整流流相结合。我们的主要发现表明,整流流可以直接在大型语言模型框架内进行训练,无需进行复杂的架构修改。

  2025年开年,Janus全面升级到高级版Janus-Pro。

  具体来说,Janus-Pro 是一种新颖的自回归框架,它将多模态理解和生成统一起来,将视觉编码解耦,以实现多模态理解和生成。它通过将视觉编码解耦为单独的路径来解决以前方法的局限性,同时仍然使用单一、统一的转换器架构进行处理。

  这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。

  不过,Janus-Pro架构与Janus相同。总体体系结构的核心设计原理是将视觉编码解析,以进行多模式的理解和生成。我们应用独立的编码方法将原始输入转换为功能,然后由统一自回归Transformer处理。为了进行多模式理解,我们使用siglip 编码器从图像中提取高维语义特征。将这些特征从2-D网格平坦为1-D序列,并使用理解适配将这些图像特征映射到LLM的输入空间中。对于视觉生成任务,我们使用的VQ令牌将图像转换为离散ID。将ID序列平坦为1-D之后,我们使用一代适配器将与每个ID相对应的代码簿嵌入到LLM的输入空间中。然后,我们将这些特征序列加和形成多模式特征序列,然后将其送入LLM进行处理。除了LLM中的内置预测头外,我们还利用一个随机初始化的预测头来进行视觉生成任务中的图像预测。整个模型遵循自回归框架。

  Janus-Pro 超越了之前的统一模型,并且达到或超过了特定任务模型的性能。Janus-Pro 的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。

  Janus-Pro 是基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建。

  最重要的是训练:我们在单个训练步骤中根据指定的比率混合所有数据类型。我们的 Janus 使用 HAI-LLM [15] 进行训练和评估,这是一个构建在 PyTorch 之上的轻量级且高效的分布式训练框架。整个训练过程在 1.5B/7B 模型的 16/32 个节点的集群上花费了大约 7/14 天,每个节点配备 8 个 Nvidia A100 (40GB) GPU。

突发!DeepSeek除夕搞炸裂,开源多模态AI模型发布,仅128颗英伟达A100训练1周,性能碾压美国企业

  对外展示的多个基准测试显示,Janus-Pro 卓越的多模态理解能力,并显着提高了文本到图像的指令跟踪性能。具体来说,Janus-Pro-7B在多模态理解基准MMBench 上取得了79.2的分数,超越了Janus (69.4)、TokenFlow (68.9)等最先进的统一多模态模型,和MetaMorph (75.2)。此外,在文本到图像指令跟踪排行榜 GenEval中,Janus-Pro-7B 得分为 0.80,优于 Janus (0.61)、DALL-E 3 (0.67) 和 Stable Diffusion 3 Medium(0.74)。

  Janus-Pro-7B 在 GenEval 上获得了 80% 的总体准确率,这优于所有其他统一或仅生成的方法,例如 Transfusion (63%) SD3-Medium (74%) 和DELLE-E 3 (67%)。这表明我们的方法具有更好的指令跟踪能力。另外,Janus-Pro 在 DPG-Bench 上获得了 84.19 的分数,超过了所有其他方法。这表明 Janus-Pro 擅长遵循密集的指令来生成文本到图像。

突发!DeepSeek除夕搞炸裂,开源多模态AI模型发布,仅128颗英伟达A100训练1周,性能碾压美国企业

突发!DeepSeek除夕搞炸裂,开源多模态AI模型发布,仅128颗英伟达A100训练1周,性能碾压美国企业

  目前,相关代码已经放在了GitHub当中。

  https://github.com/deepseek-ai/Janus?tab=readme-ov-file

  我们非常期待接下来DeepSeek能够带来优异的多模态(如文生图、文生视频)等功能和表现,这可能会让OpenAI、Meta,甚至是英伟达会更加恐慌。

  最后的最后,还是要提醒,DeepSeek已经限制新用户注册了,也就是锁区了,海外的朋友需要买虚拟号注册:近期DeepSeek线上服务受到大规模恶意攻击,为持续提供服务,暂时限制了+86手机号以外的注册方式,已注册用户可以正常登录,感谢理解和支持。

本文来自作者[admin]投稿,不代表百科商品立场,如若转载,请注明出处:http://xn--g2xx48ccpa940a.com/bm/202501_2314.html

(14)

文章推荐

  • 又一家互联网巨头跟进:百度搜索和文心智能体平台将全面接入DeepSeek

    百度搜索和文心智能体平台宣布接入DeepSeek。2月16日晚,百度搜索宣布,为丰富更多元化的搜索体验,百度搜索将全面接入DeepSeek和文心大模型最新的深度搜索功能。文心智能体平台也宣布,为服务广大开发者朋友们调用各类模型能力创建和调优智能体,文心智能体平台将全面接入DeepSeek。这并非

    2025年02月17日
    17
  • 国华早盘持续上涨逾52% 拟与达闼成立合资公司

      国华(00370)早盘高开,涨幅持续扩大至上涨52.08%,现报0.73港元,成交额139.42万港元。  国华发布公告,与人工智能独角兽公司达闼签订合作框架协议。公司与达闼拟在香港成立合资公司,并在人形机器人大脑的相关技术和产品方面展开合作。合资公司目标为开拓人形机器人操作系统的民用产品市

    2025年02月19日
    13
  • 胖东来要来郑州开店了

      来源:大河财立方  记者司高妍实习生刘程  2月23日,大河财立方记者获悉,胖东来创始人、董事长于东来在社交媒体发文称,响应河南省委、省政府创造高品质生活的号召,为河南加油,为郑州商业增光加彩,胖东来超市公司决定在郑州开设一个具有艺术特色的超市作品,带动郑州商业更加美好,为郑州增添美丽。

    2025年02月23日
    11
  • 消费电子高端化困于品牌,内容营销能否破局?_消费电子有哪些板块

    本文目录一览:1、新潮传媒曾健:“过剩”时代下,快消品品牌如何破局?2、做好私域内容营销,突破转化瓶颈3、精锐纵横的破局营销之道4、破局营销破局营销的五大战术新潮传媒曾健:“过剩”时代下,快消品品牌如何破局?在产品过剩的时代,快消品品牌如何破局?这个问题,新潮传媒集团联合创

    2025年03月05日
    12
  • 嘀嗒出行CEO宋中杰:对企业发展和行业未来充满期待_嘀嗒出行的创始人

    本文目录一览:1、共同打造全民参与的低碳出行模式!2、从嘀嗒出行上市看“真假顺风车”3、滴滴出行和嘀嗒出行哪个好用些4、嘀嗒上市,滴滴上架共同打造全民参与的低碳出行模式!“广东省多年来一直在积极布局谋划低碳出行体系建设,广州、珠海等城市都在积极打造绿色出行试点,同时广东省也

    2025年03月17日
    10
  • 平安银行:聘任方蔚豪为副行长

      3月21日金融一线消息,平安银行发布董事会决议公告指出,该行第十二届董事会第三十七次会议审议通过了《关于聘任方蔚豪先生为平安银行股份有限公司副行长的议案》,同意聘任方蔚豪为平安银行副行长。上述任职须报国家金融监督管理总局核准。  公开资料显示,方蔚豪,1973年出生,中共党员,北京理工大学

    2025年03月21日
    8
  • 淘宝补单单号怎么弄?如何操作?_淘宝补单是怎么发货的

    本文目录一览:1、天猫补单发货重量有要求吗?补单的快递单号咋弄?2、淘宝补单物流怎么弄?如何操作补单?3、淘宝补单是怎么操作4、补单快递单号怎么弄?补单要注意什么?5、一件代发补单去哪获取物流单号?6、淘宝补单怎么弄物流?要注意什么?天猫补单发货重量有要求吗?补单

    2025年03月23日
    8
  • 京东新品怎么样?便宜吗?_京东上新品的时候会便宜吗

    本文目录一览:1、京东商城的东西是正品吗,为什么那么便宜2、京东预售的新品质量怎么样?价格便宜吗?3、京东自营是正品吗为什么那么便宜?4、为什么京东新百货比自营便宜?东西保真吗?京东商城的东西是正品吗,为什么那么便宜1、京东的商品不全是正品,也有假货的。第一种是京东自营商品

    2025年03月25日
    9
  • 中国人寿刘晖:2025年投资思路“基础配置坐稳、风险资产做优”

      3月27日金融一线消息,中国人寿2024年度业绩发布会今日召开。中国人寿副总裁刘晖表示,2025年中国经济回升向好的态势有望进一步巩固和增强,预计债券市场利率将从去年的单边下行转为今年的双向波动,A股市场运行中枢有所上行,但受益于政策支持和流动性充裕,估值仍有回升的修复空间,对于2025年的权益

    2025年03月27日
    9
  • 美联储巴尔金:政策不确定性抑制需求,当前货币政策立场适宜

      汇通财经APP讯——在华盛顿与李大学的经济学讲座上,里奇蒙联储主席巴尔金周四(3月27日)以“浓雾”比喻当前异常复杂的政策环境,强调高度不确定性正抑制企业与消费者需求。他指出,美联储当前“适度限制性”货币政策处于灵活应对的有利位置,但警告称特朗普政府的关税、税收等快速变革政策正制造能见度“归零”

    2025年03月28日
    9

发表回复

本站作者后才能评论

评论列表(4条)

  • admin
    admin 2025年01月28日

    我是百科商品的签约作者“admin”!

  • admin
    admin 2025年01月28日

    希望本篇文章《突发!DeepSeek除夕搞炸裂,开源多模态AI模型发布,仅128颗英伟达A100训练1周,性能碾压美国企业》能对你有所帮助!

  • admin
    admin 2025年01月28日

    本站[百科商品]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • admin
    admin 2025年01月28日

    本文概览:专题:DeepSeek为何能震动全球AI圈   刚刚,DeepSeek除夕放大招,这绝对是 AI 行业最难眠的一夜了。...

    联系我们

    邮件:百科商品@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们