算术编码(Arithmetic coding)
admin
2024-03-15 09:21:34
0

算术编码

  • 算术编码
    • 简介
    • 思想
    • 示例
    • 小结

算术编码

简介

算术编码是图像压缩的主要算法之一。 是一种无损数据压缩方法,也是一种熵编码的方法。和其它熵编码方法不同的地方在于,其他的熵编码方法通常是把输入的消息分割为符号,然后对每个符号进行编码,而算术编码是直接把整个输入的消息编码为一个数,一个满足(0.0 ≤ n < 1.0)的小数n。

思想

算术编码(Arithmetic coding)的本质思想也是对于高频字符进行短编码。

示例

编码过程:

对于字符AABABCABAB有P(A) = 0.5,P(B) = 0.4,P( C ) = 0.1。那么算术编码会对0-1进行区间划分。
A:[0, 0.5), B:[0.5, 0.9), C:[0.9, 1)
AABABCABAB的第1个字符为A,那么我们选中了A的区间[0, 0.5)作为新的目标区间。我们对新目标区间,再按照ABC的概率占比进行划分:
A:[0, 0.25), B:[0.25, 0.45), C:[0.45, 0.5)
AABABCABAB的第2个字符为A,那么我们选中了A的区间[0, 0.25)作为新的目标区间。我们对新目标区间,再按照ABC的概率占比进行划分:
A:[0, 0.125), B:[0.125, 0.225), C:[0.225, 0.25)
AABABCABAB的第3个字符为B,那么我们选中了B的区间[0.125, 0.225)作为新的目标区间。我们对新目标区间,再按照ABC的概率占比进行划分:
A:[0.125, 0.175), B:[0.175, 0.215), C:[0.215, 0.225)
我们重复上面的操作,一直到最后一个字符。

当前字符当前目标区间
A[0, 0.5)
A[0, 0.25)
B[0.125, 0.225)
A[0.125, 0.175)
B[0.15, 0.17)
C[0.168, 0.17)
A[0.168, 0.169)
B[0.1685, 0.1689)
A[0.1685, 0.1687)
B[0.1686, 0.16868)

完成上面的操作后,最终的目标区间为:[0.1686, 0.16868),我们在这个区间内,任意选一个小数,便可以作为最终的编码小数。但是计算机只能识别0和1,所以我们再将小数转成二进制。我们的诉求是进行最短压缩,所以我们从[0.1686, 0.16868)选一个二进制表示最短的小数。这里我们选定0.16864013671875,二进制为:0.00101011001011,去掉整数位0以及小数点后,最终的二进制编码为00101011001011,长度为14位,比哈夫曼编码更短1位。

算术编码的解码过程:

二进制编码为00101011001011,加上小数点后还原为 0.00101011001011,对应的十进制编码小数是0.16864013671875。
我们先从初始区间中定位第一个字符:
A:[0, 0.5), B:[0.5, 0.9), C:[0.9, 1)
0.16864013671875位于A区间,所以第一个字符为A。我们接着对A:[0, 0.5) 进行划分:
A:[0, 0.25), B:[0.25, 0.45), C:[0.45, 0.5)
0.16864013671875仍然位于A区间,所以第二个字符仍然为A。我们接着对A:[0, 0.25)再进行划分:
A:[0, 0.125), B:[0.125, 0.225), C:[0.225, 0.25)
0.16864013671875位于B区间,所以第三个字符为B。我们接着对B:[0.125, 0.225)再进行划分:
A:[0.125, 0.175), B:[0.175, 0.215), C:[0.215, 0.225)
0.16864013671875 位于 A 区间,所以第四个字符为 A。
依次类推,我们可以从0.16864013671875将整个字符解码出来,得到AABABCABAB。

小结

算术编码的压缩本质,就是保留字符排列顺序的同时,对于更高频出现的字符,也就是概率更大的字符,赋予更大的小数区间。

为什么要这样划分区间呢?

因为算术编码的目的,是要在最终的目标区间内,找一个二进制最短的小数作为最终编码。那怎么去找到这样一个目标区间呢?最终目标区间的范围更大,可容纳的小数精度就越低,意味着我们最终的二进制编码就更短。

相关内容

热门资讯

【MySQL】锁 锁 文章目录锁全局锁表级锁表锁元数据锁(MDL)意向锁AUTO-INC锁...
【内网安全】 隧道搭建穿透上线... 文章目录内网穿透-Ngrok-入门-上线1、服务端配置:2、客户端连接服务端ÿ...
GCN的几种模型复现笔记 引言 本篇笔记紧接上文,主要是上一篇看写了快2w字,再去接入代码感觉有点...
数据分页展示逻辑 import java.util.Arrays;import java.util.List;impo...
Redis为什么选择单线程?R... 目录专栏导读一、Redis版本迭代二、Redis4.0之前为什么一直采用单线程?三、R...
【已解决】ERROR: Cou... 正确指令: pip install pyyaml
关于测试,我发现了哪些新大陆 关于测试 平常也只是听说过一些关于测试的术语,但并没有使用过测试工具。偶然看到编程老师...
Lock 接口解读 前置知识点Synchronized synchronized 是 Java 中的关键字,...
Win7 专业版安装中文包、汉... 参考资料:http://www.metsky.com/archives/350.htm...
3 ROS1通讯编程提高(1) 3 ROS1通讯编程提高3.1 使用VS Code编译ROS13.1.1 VS Code的安装和配置...
大模型未来趋势 大模型是人工智能领域的重要发展趋势之一,未来有着广阔的应用前景和发展空间。以下是大模型未来的趋势和展...
python实战应用讲解-【n... 目录 如何在Python中计算残余的平方和 方法1:使用其Base公式 方法2:使用statsmod...
学习u-boot 需要了解的m... 一、常用函数 1. origin 函数 origin 函数的返回值就是变量来源。使用格式如下...
常用python爬虫库介绍与简... 通用 urllib -网络库(stdlib)。 requests -网络库。 grab – 网络库&...
药品批准文号查询|药融云-中国... 药品批文是国家食品药品监督管理局(NMPA)对药品的审评和批准的证明文件...
【2023-03-22】SRS... 【2023-03-22】SRS推流搭配FFmpeg实现目标检测 说明: 外侧测试使用SRS播放器测...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
初级算法-哈希表 主要记录算法和数据结构学习笔记,新的一年更上一层楼! 初级算法-哈希表...
进程间通信【Linux】 1. 进程间通信 1.1 什么是进程间通信 在 Linux 系统中,进程间通信...
【Docker】P3 Dock... Docker数据卷、宿主机与挂载数据卷的概念及作用挂载宿主机配置数据卷挂载操作示例一个容器挂载多个目...