作者 | ALAN J.AW
译者 | 万物有数
原载于 | Plus Magzine
引言
我们每天都在发送信息, 无论是给亲人的短信、给朋友的电子邮件, 还是那些古老的电报. 然而, 令人惊讶的是, 很少会有人问:“这些存储在iCloud、互联网存储库或某个不为人知的"极客设施"深处的数据是怎样以如此清晰和快速的方式传输的?” 也许借助物理学, 我们可以推测消息是通过波传输的. 然而, 这并不足以解释数据是如何以高准确度传输的. 因为凭直觉, 沿着非真空介质传播的波很可能会经历扰动, 这将引入错误的传输数据. 此外, 这些扰动可能是不可逆的, 也就是说, 波不会经历自我修正的机制. 因此, 主要的问题是:数据是怎样以如此高的保真度传输的?换句话说, 我们每天是如何享受如此迅速而准确的通信方式的?
消息、信息和数据
事实证明, 所有这些数据或信息传输背后都有一个基础的数学理论. 从互联网到智能设备的数据传输就是一个具体例子, 这是一种从一个点到另一个点的更一般、更抽象的数据传输概念. 在这里, 点可以是发送方(即信息源)或接收方(即目的地), 例如卫星或手机.
在这一通用的信息传输模型中, 发送方首先将信息或消息发送给编码器, 编码器随后通过使用合适的数学结构对消息进行编码. 一个具有历史意义的例子是使用二进制数字(比特), 即0和1, 来编码黑白图像. 在这种编码技术中(NASA在1960年代实施), 图像被划分为等大小的方块, 每个方块要么是完全黑色, 要么是完全白色;编码器用数字1表示每个黑色方块, 用0表示每个白色方块, 从而有效地产生了一组1和0(在数学术语中称为关联矩阵(Incidence matrix)).
编码后的下一个步骤是将编码的信息(我们称之为数据)传输到接收方. 在此过程中, 数据通过介质或通道传输——在卫星的情况下, 可能是大气层和靠近地球表面的银河区域——到达接收端. 最后, 接收端对数据进行解码, 即执行编码器对信息所做的反操作. 这样, 接收方就获得了原始信息. 如图1简要描述了这一过程.
消息传输系统无疑应该更复杂, 否则, 我们肯定会质疑, 从事这一领域的数学家或工程师究竟是如何赚取薪水的. 上述模型中存在两个固有的问题. 首先, 你可能已经从波扰动的例子中意识到, 通道会向数据中引入扰动或噪声. 这会影响传输数据的准确性或可靠性(见图2中的A). 其次, 参考NASA的例子, 有时无法100%准确地用数学结构表示图像或信息. 这就产生了我们所称的信息失真(见图2中的B).
这些问题是否得到了解决或妥善处理?答案是肯定的, 但还不是完全解决(确实很棘手!). 关于第一个问题, 也称为通道编码问题, 数学家们发现, 通过添加一些与传输数据无关的额外元素(在数学术语中称为冗余), 可以降低噪声影响数据保真度的概率. 这些冗余使数据对不可逆的或永久的扰动不那么敏感, 从而提高数据的准确性. 然而, 这会降低数据传输的速度, 因为发送方必须在每个时刻都通过通道发送额外的冗余. 最终, 必须在速度和准确性之间做出妥协, 但我们能达到的最佳妥协是什么呢?
让我们在考虑第二个问题(源编码问题)时牢记这个问题. 在通过数学结构表示我们的消息时, 我们必须使用一组符号来封装其各个不同的元素. 显然, 我们希望完整地捕捉信息而不失真, 但这需要使用更多的符号. 工程师对此非常关注, 因为他们的目标是使用尽可能少的符号,尽可能多地压缩信息. 因此, 必须做出妥协, 选择最佳妥协的问题再次浮出水面.
香农的通信理论
1948年, 数学家克劳德·艾尔伍德·香农(Claude Elwood Shannon)发表了两篇论文, 统称为《通信的数学理论》, 描述并分析了一种信息传输的通用的数学模型——实际上就是我们所描述的模型. 香农证明了数据传输速率和信息压缩程度存在基本限制. 也就是说, (i) 超过某个速率, 数据传输必然变得不可靠;(ii) 低于某个数据压缩水平(即使用尽可能少的符号), 信息必然会失真.
现在, 这些发现乍一看似乎显而易见, 但如果我们稍加深入, 就会意识到它们实际上是多么迷人. 首先, 香农利用概率理论中的思想, 深入探讨了一些数学细节. 他将发送者和发射器各自建模为一个随机变量, 每次生成一个特定元素时, 都会以某个特定的概率生成该元素. 接下来, 他巧妙地制定了一种数学度量, 来衡量消息中所含信息的量, 他称之为熵. 换句话说, 如果我们用随机变量X表示发射器, 那么有一个函数H, 当应用于X时会得到H(X), 这就是X的熵.
这个H(X)具有非常强大的性质, 因此, 香农建立了以下有趣的事实.
H(X)是信息源X在不遭受不可避免失真的情况下, 数据压缩的极限度量. 换句话说, 你的信息内容或熵越高, 就越无法压缩.
H函数的思想可以良好地扩展, 得出一个称为互信息(mutual information)[1]的数学表达式. 令人意外的是, 这个互信息的值是通过通道进行可靠数据传输的极限度量. 换句话说, 互信息越高, 可靠数据传输的最大速率就越大.
此外, 虽然在计算出的互信息值以上, 数据传输会变得不可靠, 但在该值以下, 任意可靠的通信水平是可以实现的. 也就是说, 可以选择在数据传输过程中允许的特定错误程度(由噪声引起), 并且总有一个低于互信息的相应速率, 使得错误恰好达到该程度. 同样, 在熵以上的任何压缩水平上, 也可以实现任意小程度的信息失真. 或许所有这些都与我们直觉上认为的不可靠性(失真程度)与速率(压缩水平)之间是连续关系的看法相悖;实际上, 对于压缩和速率都有非常明确的阈值, 超过这些阈值将导致灾难.
我们的问题解决了吗?
考虑到香农的智力成就, 我们可能会认为通信的两个基本问题已经完全解决. 不幸的是, 我们离解决这些问题还很远. 大多数人并不知道, 数学家和工程师们正在积极而持续地寻找实现压缩和速率极限的方法. 确实, 了解基本极限是一回事, 而实际达到它们则是另一回事, 而后者往往更具挑战性. 同时, 数学家们常常思考利用他们众多抽象结构的新方法来表示消息或信息. 简而言之, 数学和工程界还有许多未完成的任务.
诚然, 并不是所有人都能将香农的伟大思想与其他数学家和工程师的成就相提并论. (也许有人会略感惊讶, 香农被称为信息理论之父. )尽管如此, 至少我们现在知道, 正是由于香农理论的帮助, 我们能够在一个日益迅速和不可避免的全球化浪潮的世界中, 进行如此高效和有效的沟通.
推荐阅读
Claude Shannon (1948). A mathematical theory of communication. Bell Systems Technical Journal, vol. 27, pp. 379–423.
Raymond Hill (1990). A first course in coding theory. Oxford Applied Mathematics and Computing Science Series: Oxford University Press, New York.
James Gleick (2011). The information: A history, a theory, a flood. HarperCollins.
关于作者
Postdoctoral Researcher at University of Pennsylvania
- 在概率论和信息论中, 两个随机变量的互信息(MI)度量了两个变量之间相互依赖的程度. 具体来说, 对于两个随机变量, 互信息是一个随机变量由于已知另一个随机变量而减少的“信息量”. ⬅
- 原文发布于 Plus Magazine