这家初创公司把模型"刻"在硅片上,速度快 48 倍

  • 2026-02-23
  • 人工智能
  • ai ai芯片 硬连线 芯片
  • --

AI 摘要

>> 加拿大初创公司Taalas推出HC1芯片,通过将AI模型直接‘刻’在芯片上,采用硬连线技术,实现AI推理速度达英伟达B200的48倍,生产成本仅为传统方案的1/20,单芯片TPS达16,960,集群性能提升60倍,功耗低至2.5kW。该技术消除了数据搬运瓶颈,将计算与存储融合,显著提升效率。尽管具备高性能和低成本优势,但存在模型灵活性差、需为每个版本单独流片等局限,未来计划推出支持更大模型的HC2芯片,推动AI芯片专用化发展。

最近,AI 芯片圈出了件大事。

加拿大多伦多有家叫 Taalas(塔拉斯)的初创公司,刚拿了 1.69 亿美元 融资,还甩出了一组亮眼的数据:

他们用自家芯片跑 AI 模型,速度是英伟达最新 B200 的 48 倍 ,生产成本却只有传统方案的 1/20

怎么做到的?

说白了就四个字:把 AI 模型直接”刻”在芯片上

图 1: Taalas 公司发布的 HC1 芯片


硬连线技术:把 AI 模型”印刷”在芯片上

要理解 Taalas 的创新,得先搞明白传统 GPU 是怎么工作的。

传统 GPU 像”通用计算器” ,什么都能算,但什么都要临时算。每次运行 AI 模型,都得从内存里读取数据,计算完再写回去。这过程中,数据搬运就花了不少时间。

Taalas 的芯片像”专用计算器” ,它把特定 AI 模型的电路直接固化在硅片上。好比把微积分的运算逻辑直接做成硬件电路,拿来就能用,不用临时编程。

用一个更形象的类比:

GPU 像是手写 ,灵活但慢,每次都要一笔一划写; Taalas 像是印刷 ,制版后批量生产极快,但改内容要重新制版。

技术上是怎么实现的?

Taalas 采用了一种叫”硬连线”(Hard-wiring)的设计:

  1. 先完成约 100 层结构 、近乎完整的芯片制造
  2. 再在其中两层金属层 上做最终定制化
  3. 模型权重固化在芯片的 Mask ROM  和 SRAM  中

整个过程只需要 2 个月 ,而英伟达生产一块 Blackwell 芯片得花 6 个月

图 2: 技术概念图


性能对比:数据说明一切

光说原理你可能没感觉,直接看测试数据。

单芯片性能对比

在运行 Llama 3.1 8B 模型时,各家的 TPS(每秒生成 Token 数)对比:

产品TPS相对 Taalas
Taalas HC116,960-
Cerebras1,9818.6 倍
Sambanova93218.2 倍
Groq59428.6 倍
Nvidia B20035348 倍
Nvidia H20023073.7 倍

数据来源:93913

看到差距了吗?

Taalas HC1 的 16,960 TPS ,是英伟达 B200(353 TPS)的 48 倍 ,是 H200(230 TPS)的 73.7 倍

成本对比

性能猛,成本还低:

  • 生产成本 :传统方案的 1/20 (降低 95%)
  • 推理成本7.6 美分/百万 token ,不到同等吞吐量 GPU 方案的一半
  • 生产周期2 个月  vs 英伟达 6 个月

集群性能

如果用 30 颗芯片组成集群,那性能更夸张:

  • 吞吐速度12,000 TPS/User (每用户每秒 12000 个 token)
  • 对比 GPU :约 60 倍 (当前 GPU 技术约 200 TPS/User)
  • 延迟近乎零延迟
  • 服务器功耗 :仅 2.5kW

这个成绩,是在运行 DeepSeek R1 模型时创下的。


为什么能这么快?

说白了就一个原因:消除了数据搬运的瓶颈

传统架构里,计算单元和存储单元是分开的。数据得在这两者之间来回搬运,就像在一条拥堵的公路上开车,大部分时间都花在了路上。

Taalas 这做法,相当于把计算和存储融合在一起 ,数据不用”跑路”了,直接在原地计算。

再用一个类比:

传统 GPU 像是普通公路 ,有红绿灯、有交叉口,车速提不起来;
Taalas 像是专用高速公路 ,没有红绿灯,一脚油门到底。

具体来说:

  • 模型权重直接固化在硅片上,不用从内存读取
  • 大量使用高速 SRAM 内存,数据访问极快
  • 专为特定模型优化,没有通用芯片那些”额外开销”

所以它能快几十倍。

图 3: Taalas HC1 与竞品 TPS 对比


影响与展望

Taalas 的出现,对 AI 芯片行业意味着啥?

好处很明显

  • 证明了”硬连线”这条路走得通
  • 给 AI 推理提供了个高性能、低成本的新选择
  • 说不定能逼着英伟达这些巨头加快创新

但局限性也得看到

  • 灵活性不够 :单芯片只支持 80 亿参数模型,模型升级得重新流片(重新制造芯片)
  • 市场买不买账 :客户得为每个模型版本单独买专用硬件,这笔账得算清楚
  • 竞争不轻松 :Cerebras、Groq、D-Matrix 这些初创企业都在搞类似的东西,英伟达也不是吃素的

Taalas 计划在 2026 年上半年推出能支持中等规模的大模型的处理器,未来还要发布支持 200 亿参数的 HC2。

AI 芯片这场”专用化”的好戏,还在后头 。

Maple
Maple
© 2025 by Maplezz 本文基于 CC BY-NC-SA 4.0 许可 CC 协议 必须注明创作者 仅允许将作品用于非商业用途 改编作品必须遵循相同条款进行共享 最后更新:2026/2/23