浅析七种经典排序算法

本文分析冒泡、快速、选择、插入、希尔、归并和堆排序,为了对以下各个算法进行方便的测试,测试主方法体如下(Java 实现):

public class Sort {
public static void main(String[] args) {
int[] input = {5, 4, 7, 1, 6, 2, 8, 9, 10};
// 此处调用方法,以调用冒泡排序为例
bubbleSort(input);
for (int i = 1; i <= input.length; i++) {
System.out.println(input[i - 1]);
}
}
}

本篇博文所有排序实现均默认 从小到大

冒泡排序(Bubble Sort)

每一次通过两两比较找到最大(小)的元素放在未排序序列的最后,直至有序。

步骤

  1. 比较两个相邻的元素。如果前面比后面个大(小),就交换顺序。
  2. 从第 1 个数与第 2 个数开始比较,直到第 n-1 个数与第 n 个数结束。到最后,最大(小)的数就 “ 浮 “ 在了最上面。
  3. 持续每次对前面越来越少的未排序元素重复上面的步骤,直到所有元素有序。

排序演示

image

源代码(Java 实现)

public static void bubbleSort(int[] input) {
for (int i = 1; i <= input.length; i++) {
for (int j = 1; j <= input.length - i; j++) {
if (input[j - 1] > input[j]) {
int temp = input[j - 1];
input[j - 1] = input[j];
input[j] = temp;
}
}
}
}

算法指标分析

最好时间复杂度:O(n^2)。当元素有序时,要比较。n 个元素,每个元素比较 n次。

最坏时间复杂度:O(n^2)。当元素无序时,也要比较。

平均时间复杂度:O(n^2)。

辅助空间:不需要额临时的存储空间来运行算法,所以为 O(1)。

稳定性:因为排序方式是相邻数比较后交换,如果序列中有相等的两个数,待两数相邻时,不会交换两者的位置,所以稳定。

冒泡排序的两种优化方式

优化 1:

某一趟遍历如果没有元素交换,flag 标记依旧为 true。说明已经排好序了,结束迭代。

public static void bubbleSort2(int[] input) {
for (int i = 1; i <= input.length; i++) {
boolean flag = true;
for (int j = 1; j <= input.length - i; j++) {
if (input[j - 1] > input[j]) {
int temp = input[j - 1];
input[j - 1] = input[j];
input[j] = temp;
}
flag = false;
}
if (flag)
break;
}
}

算法指标分析

最好时间复杂度:当序列有序时。第一个 for 循环中,第 2/3/11/12 行语句执行 1 次,即频度为 1;第二个 for 循环中,第 4、5、9 行语句执行 n-1 次,即频度为 n-1。T(n) = 3*(n-1)+4 = 3n+1 = O(n)。所以最好时间复杂度为 O(n)。

最坏时间复杂度:当序列为逆序时。第一个 for 循环的频度为 n;第二个 for 循环中,j 可以取 1,2,…,n-1,所以第 3/4/6/7/8 语句,频度均为 (1+n-1)✖️(n-1)/2。T(n) = n✖️(n-1)/2+n = O(n^2)。所以最坏时间复杂度为 O(n^2)。

我们可以看出在嵌套层数多的循环语句中,由最内层语句的频度 f(n) 决定时间复杂度。

优化 2:

记录某次遍历时最后发生元素交换的位置(LastExchange),这个位置之后的数据显然已经有序,不用再排序了。因此通过记录最后发生元素交换的位置就可以确定下次循环的范围。

public static void bubbleSort3(int[] input) {
int LastExchange = input.length;
boolean flag = true;
for (int i = 1; i <= input.length; i++) {
int k = LastExchange;
for (int j = 1; j <= k - 1; j++) {
if (input[j - 1] > input[j]) {
int temp = input[j - 1];
input[j - 1] = input[j];
input[j] = temp;
}
LastExchange = j;
flag = false;
}
if (flag)
break;
}
}

快速排序(Quick Sort)

又称划分交换排序(partition-exchange sort)。采用了分而治之的思想。

思路

  1. 递归结束条件:1 个数或 0 个数不用排序
  2. 找一个基准值,从两边向中间遍历,将左边大于基准值与右边小于基准值交换。一次排序后,左边所有的数比右边所有的数小

选择末尾数为基准值

  • 如果选择中位数作为基准值,考虑条件太多,比如 20, 2, 10 ,1, 6, 9

排序演示

6  5  3  1  8  7  2  4
↑ ↑ ^
2 5 3 1 8 7 6 4
↑ ↑ ^
2 1 3 5 8 7 6 4
↑ ^
2 1 3 [4] 8 7 6 5

源代码

// Java
public static void quickSort(int[] input) {
quick_sort(input, 0, input.length - 1);
}

private static void quick_sort(int[] input, int start, int end) {
if (start >= end) {
return;
}
int left = start, right = end - 1;
int pivot = input[end];
while (left < right) {
// 跳过
while (input[left] <= pivot && left < right) {
left++;
}
while (input[right] >= pivot && left < right) {
right--;
}
int temp = input[left];
input[left] = input[right];
input[right] = temp;
}
// 此时左右指针重合(left == right),其指向元素可能大于基准值
if (input[left] >= pivot) {
int temp = input[left];
input[left] = pivot;
input[end] = temp;
} else
left++; // 跳过已经有序的中数
quick_sort(input, start, left - 1);
quick_sort(input, left, end);
}

算法指标分析

最好时间复杂度:n*log n。n:交换;log n:调用栈的高度(2^(high-1) = n),数组有序且基准值每次都是中间值。

最坏时间复杂度:n^2。调用栈的高度为 n,基准值每次都是最值。

平均时间复杂度:O(n log n)。随机选择基准值 (log n + n)/2 = log n

辅助空间:需要额临时的存储空间来运行算法,所以为 O(n log n)~O(n)。

稳定性:不稳定。

更多实现方式:快速排序的几种实现方式

选择排序(Selection Sort)

每一次通过选择找到未排序序列的最小(大)元素放在已排序序列的末尾(交换位置),直至有序。

思路

  • 选择排序一遍遍历,只交换一次,而冒泡排序会交换多次。

步骤

  1. 未排序序列中找到最小(大)元素,存放到序列的起始位置。
  2. 再从剩余未排序元素中继续找到最小(大)元素,放到已排序序列的末尾。
  3. 以此类推,直到所有元素均排序完毕。

排序演示

image

源代码(Java 实现)

public static void selectionSort(int[] input) {
for (int i = 1; i <= input.length; i++) {
int minIndex = i - 1;
for (int j = i; j < input.length; j++) {
if (input[minIndex] > input[j])
minIndex = j;
}
if (minIndex != i - 1) {
int temp = input[minIndex];
input[minIndex] = input[i - 1];
input[i - 1] = temp;
}
}
}

算法指标分析

不管序列有序还是逆序,第二个 for 循环的频度为 n*(n-1)/2。所以最坏时间复杂度和最好时间复杂度均为 O(n^2)。

平均时间复杂度:O(n^2)

辅助空间:不需要额临时的存储空间来运行算法,所以为 O(1)。

稳定性:不稳定。举例,5、7、5、2、9,找到最小 2 时,2 与 5 交换,此时两个 5 的相对位置发生改变。

插入排序(Insertion Sort)

对于每个未排序元素,在已排序序列中从后向前扫描,找到相应位置并插入。

思路

  • 插入时,需要移动后面的元素?插入并不是真正的插入,而是从后往前两两交换,最终效果像插入一样。

步骤

  1. 第 1 个元素视为已经被排序
  2. 取未排序的第 1 个元素,在已排序序列中从后向前扫描
  3. 如果被扫描的元素大于新元素,将该元素后移一位
  4. 重复步骤 3,直到找到已排序的元素小于或者等于新元素的位置
  5. 将新元素插入到该位置后
  6. 重复步骤 2~5
  7. 如果全部有序,结束迭代

排序演示

image

6 5 3 1 8 7 2 4
5 6 3 1 8 7 2 4 5 6 交换
5 3 6 1 8 7 2 4 6 3 交换
3 5 6 1 8 7 2 4 3 5 交换

源代码 (Java 实现)

public static void insertionSort(int[] input) {
for (int i = 1; i < input.length; i++) {
for (int j = i; j > 0; j--) {
if (input[j] < input[j - 1]) {
int temp = input[j];
input[j] = input[j - 1];
input[j - 1] = temp;
}
else break;
}
}
}

算法指标分析

最好时间复杂度:当序列有序时。当第一个 for 循环运行时,在第二个 for 循环中,因为序列有序,所以只会相邻比较 1 次,就跳出循环。所以两个循环的频度均为 n-1,所以最好时间复杂度均为 O(n)。

最坏时间复杂度:当序列逆序时。第二个 for 循环的频度为 n(n-1)/2。所以最坏时间复杂度均为 O(n^2)。

平均时间复杂度:O((n+n^2)/2) = O(n^2)。

辅助空间:不需要额临时的存储空间来运行算法,所以为 O(1)。

稳定性:因为排序方式是两两比较,序列中如果相邻两个数相等,不会交换两者的位置,所以稳定。

希尔排序(Shell Sort)

希尔排序,也称递减增量排序算法,实质上是一种分组插入排序算法。是插入排序的一种更高效的改进版本。
希尔排序是基于插入排序的以下两点性质而提出改进方法的:

  • 插入排序在对几乎已经排好序的数据操作时,效率高,即可以达到线性排序的效率
  • 但插入排序一般来说是低效的,因为插入排序每次只能将数据移动一位

步骤

  1. 假设数组为 {5, 4, 7, 1, 6, 2, 8, 9, 10},如果我们以步长为 4 开始进行排序,我们可以通过将这列表放在有 4 列的表中来更好地描述算法,这样他们就应该看起来是这样:

    5, 4, 7, 1
    6, 2, 8, 9
    10

  2. 将数组列在一个表中并对列分别进行插入排序

    5, 2, 7, 1
    6, 4, 8, 9
    10

  3. 重复这过程,不过每次用更长的列(步长更小,列数更少)来进行,如下步长为 2。

    5, 2
    7, 1
    6, 4
    8, 9
    10

  4. 最后整个表就只有一列了( 再进行插入排序)

    5, 1, 6, 2, 7, 4, 8, 9, 10

源代码(Java 实现)

public static void shellSort(int[] input) {
int len = input.length, j;
int gap = Math.round(len / 2);
for (; gap > 0; gap /= 2) // 步长每次就减少一倍
for (int i = gap; i < len; i++) {
int temp = input[i];
for (j = i - gap; j >= 0 && temp < input[j]; j -= gap) {// 列排序
input[j + gap] = input[j];
input[j] = temp;
}
}
}

算法指标分析

最好时间复杂度:当序列有序时。最好时间复杂度均为 O(n^s),1<s<2,跟算法步长有关。

最坏时间复杂度:当序列逆序时。最坏时间复杂度均为 O(n^2)。

平均时间复杂度:O(n log n)~O(n^2)。

辅助空间:不需要额临时的存储空间来运行算法,所以为 O(1)。

稳定性:不稳定。解释如下:

假设,序列为 5,5,7,3,2,取步长为 3 分组为
5,5,7
3,6
35 交换位置后,两个 5 的相对顺序发生改变,所以不稳定

堆排序(HeapSort)

使用到二叉堆这种数据结构,二叉堆是平衡二叉树。它具有以下性质:

  1. 父节点的值大于等于左右节点的值,为最大堆(大顶堆);父节点的值小于于等于左右节点的值,为最小堆(大顶堆)
  2. 每个父节点的左右节点都是二叉堆(大顶堆或小顶堆)

本质上堆排序是由数组实现。

步骤

  1. 调用构造大顶堆方法,将数组构造成大顶堆。叶子节点相当于大顶堆,假设数组下标范围为 0~n-1,则从下标 n/2 开始的元素(叶子节点)均为大顶堆。所以从下标 n/2-1 开始的元素(父节点)开始,向前依次(下标减 1)构造大顶堆。
  2. 堆排序:由于堆是用数组模拟的。构造的大顶堆相当于在数组中无序。因此需要将数组有序化。思想是循环将根节点与最后一个未排序元素交换,再调用构造大顶堆方法。循环结束后,整个数组就是有序的了。
  3. 构造大顶堆方法:调整节点,使得左右子节点小于父节点,保证根节点是当前堆中最大的元素。

    排序演示:

    第一次将数组构造成大顶堆时,跟此演示稍有不同,默认按数组顺序放入二叉堆,没有边放边构造。

image

源代码(Java 实现)

public static void heapSort(int[] input) {
int i = input.length/ 2 - 1;// 最后一个非叶子节点
// 将数组构造成大顶堆
for (; i >= 0; i--)
maxHeapify(input, i, input.length - 1);
// 堆排,将大顶堆转换成有序数组
for (i = input.length - 1; i >= 0; i--) {
int temp = input[0];
input[0] = input[i];
input[i] = temp;
maxHeapify(input, 0, i - 1);
}
}
// 构造大顶堆
public static void maxHeapify(int[] input, int start, int end) {
int child;
int root = start;
// 父节点不是叶子节点时循环;只有一个根节点时不再比较
for (; root <= (end - 1) / 2 && end > 0; ) {
child = root * 2 + 1;// 调整子节点
// 取较大的子节点
if (child + 1 <= end && input[child] < input[child + 1])
child += 1;

if (input[root] < input[child]) {
// 交换较小父节点和较大子节点的位置
int temp = input[root];
input[root] = input[child];
input[child] = temp;
root = child;// 较大的子节点成为父节点
} else
break;
}
}

算法指标分析

最好时间复杂度:当序列有序时。最好时间复杂度均为 O(n log n),跟算法步长有关。

最坏时间复杂度:当序列逆序时。最坏时间复杂度均为 O(n log n)。

平均时间复杂度:O(n log n)。

辅助空间:不需要额临时的存储空间来运行算法,所以为 O(1)。

稳定性:不稳定。

二分归并排序(MergeSort)

先递归分解序列,再合并序列。也采用了分治法的思想。

步骤

  1. 合并:合并的条件是两个序列都有序,当序列中只有 1 个元素时我们认为也是有序的;合并的方法是通过比较将较小元素先放入临时数组,再将左、右序列剩余元素放入。
  2. 分解:先将源序列从中位数(中数)分开为左右序列,递归分解左序列,中数不断减小,直到为 1。此时左、右序列中只有一个元素,通过比较将左、右序列合并为左序列后,再递归分解右序列(也分解到只有一个元素)。

    排序演示

    此图主要思想一致,但代码实现过程中,6531 合并完成时,8724 还没分解。

image

源代码(Java 实现)

public static void mergeSort(int[] input) {
merge_sort(input, 0, input.length - 1);
}
public static void merge_sort(int[] input, int start, int end) {
int middle;
// 当序列中只有一个元素时,结束当前递归
if (start < end) {
middle = (start + end) / 2;// 找出中位数(中数),中数越来越小
merge_sort(input, start, middle);// 中数左侧序列二分
merge_sort(input, middle + 1, end);// 中数右侧序列二分
merge(input, start, middle, end);// 合并成源序列
}
}
// 合并成源序列
public static void merge(int[] input, int left, int middle, int right) {
int[] temp = new int[right - left + 1];// 用于存放新排好序的序列
int i = left;// 左序列的起始下标
int j = middle + 1;// 右序列的起始下标
int n = 0;//temp[] 数组的起始下标
// 通过比较将较小元素先放入 temp 数组
while (i <= middle && j <= right) {
if (input[i] < input[j]) {
temp[n] = input[i];
i++;
} else {
temp[n] = input[j];
j++;
}
n++;
}
// 将第一个序列的剩余元素放入 temp[]
while (i <= middle) {
temp[n] = input[i];
i++;
n++;
}
// 将第二个序列的剩余元素放入 temp[]
while (j <= right) {
temp[n] = input[j];
j++;
n++;
}
// 将 num[] 中的元素复制到数组 input
for (int x = 0, y = left; x <= n && y <= right; x++, y++)
input[y] = temp[x];
}

算法指标分析

最好时间复杂度:当序列有序时。最好时间复杂度均为 O(n log n)。

最坏时间复杂度:当序列逆序时。最坏时间复杂度均为 O(n log n)。

平均时间复杂度:O(n log n)。

辅助空间:需要新建额外临时的存储空间来存储新排好序的序列,每一次归并都需要重新新建,新建频度为 n,所以辅助空间为 O(n)。

稳定性:稳定。因为两两比较。

时间复杂度

时间频度:一个算法花费的时间与算法中语句的执行次数成正比例,哪个算法中语句执行次数多,它花费时间就多。一个算法中的语句执行次数称为语句频度或时间频度。记为 T(n)。

时间复杂度:在刚才提到的时间频度中,n 称为问题的规模,当 n 不断变化时,时间频度 T(n) 也会不断变化。但有时我们想知道它变化时呈现什么规律。为此,我们引入时间复杂度概念。 一般情况下,算法中基本操作重复执行的次数是问题规模 n 的某个函数,用 T(n) 表示,若有某个辅助函数 f(n), 使得当 n 趋近于无穷大时,T(n)/f(n) 的极限值为不等于零的常数 C,则称 f(n) 是 T(n) 的同数量级函数。记作 T(n)=O(f(n)), 称 O(f(n)) 为算法的渐进时间复杂度,简称时间复杂度。

虽然对 f(n) 没有规定,但是一般都是取尽可能简单的函数。例如,O(2n^2+n+1) = O(3n^2+n+3) = O(7n^2 + n) = O(n^2) ,一般都只用 O(n^2) 表示就可以了。注意到大 O 符号里隐藏着一个常数 C,所以 f(n) 里一般不加系数。如果把 T(n) 当做一棵树,那么 O(f(n)) 所表达的就是树干,只关心其中的主干,其他的细枝末节全都抛弃不管。

image

由上图可见,常见的算法时间复杂度由小到大依次为:Ο(1)<Ο(log n)<Ο(n)<Ο(nlog n)<Ο(n^2)<Ο(n^3)<…<Ο(2^n)<Ο(n!)。

分析以下代码的时间复杂度。

i=1;     
while (i<=n)
i=i*2;

第 1 行语句的频度为 1
设第 3 行语句的时间频度为 f(n)k,2f(n) = n; –>f(n) = log n
第 2 行语句跟第 2 三行的频度一样,为 log n
以上代码的 T(n) = 2
log n+1 = O(log n)

由此可见,T(n) 由最大的 f(n) 决定。在嵌套层数多的循环语句中,由最内层语句的频度 f(n) 决定 T(n)。
注:log n = log₂n = lg n;复杂度中以 2 为底,不是数学中以 10 为底。

空间复杂度

一个算法的空间复杂度 (Space Complexity) 定义为该算法所耗费的存储空间,它也是问题规模 n 的函数。渐近空间复杂度也常常简称为空间复杂度。

一个算法在计算机存储器上所占用的存储空间,包括:

  • 存储算法本身所占用的存储空间
  • 算法的输入输出数据所占用的存储空间
  • 算法在运行过程中临时占用的存储空间

我们将算法在运行过程中临时占用的存储空间称为辅助空间,它随算法的不同而异,另外两种存储空间与算法本身无关。

如当一个算法的空间复杂度为一个常量,即不随被处理数据量 n 的大小而改变时,辅助空间可表示为 O(1);当一个算法的空间复杂度与以 2 为底的 n 的对数成正比时,辅助空间可表示为 O(1og₂n);当一个算法的空间复杂度与 n 成线性比例关系时,辅助空间可表示为 O(n)。

稳定性

在排序过程中,具有相同数值的对象的相对顺序被不被打乱。如果可以保证不被打乱就是稳定的,如果不能保证就是不稳定的。

总结

根据每个排序算法关于稳定性的指标分析,可以得出以下结论:

  1. 如果每次变换都只是交换相邻的两个元素,那么就是稳定的。
  2. 如果每次都有某个元素和比较远的元素的交换操作,那么就是不稳定的。

以上算法博主亲测都能正确运行。以下是上述七种算法的性能指标分析对比情况。

排序方式 平均时间复杂度 最好时间复杂度 最坏时间复杂度 空间复杂度
(辅助空间)
稳定性
冒泡排序 O(n^2) O(n^2) O(n^2) O(1) 稳定
快速排序 O(n log n) O(n log n) O(n^2) O(log n)~O(n) 不稳定
选择排序 O(n^2) O(n^2) O(n^2) O(1) 不稳定
插入排序 O(n^2) O(n) O(n^2) O(1) 稳定
希尔排序 O(n log n)~O(n^2) O(n^s)
(0<s<1,跟步长有关)
O(n^2) O(1) 不稳定
堆排序 O(n log n) O(n log n) O(n log n) O(1) 不稳定
二分归并排序 O(n log n) O(n log n) O(n log n) O(n) 稳定

参考资料

DeppWang wechat
个人公众号