Java 中文字符按Unicode排序的实现方法_Java

Java 中文字符按Unicode排序的实现方法

遇到了一个对包含中文的字符串进行排序的问题。要求按unicode编码对字符串进行排序。

测试字符串数组如下：

    string[] arr = {
        "1-测试",
        "1-编辑",
        "1-营销",
        "1结束",
        "2-测试",
        "1-qt"
    };

按unicode排序的期望结果应该是这样的：

1-编辑, 1-测试, 1-营销, 1-qt, 1结束, 2-测试

先按java.lang.string类提供的默认比较方案进行实现，大致如下：

import java.util.arrays;
import java.util.comparator;
public class myjob {
  public static void main(string[] args) {
    string[] arr = {
        "1-测试",
        "1-编辑",
        "1-营销",
        "1结束",
        "2-测试",
        "1-qt"
    };
    comparator<string> c = string::compareto;
    arrays.sort(arr, c);
    system.out.println(arrays.tostring(arr));
  }
}

结果如下：

[1-qt, 1-测试, 1-编辑, 1-营销, 1结束, 2-测试]

可以看到中文字符不能按照拼音进行排序。这时最直接的思路就是将中文字符转为拼音后再进行排序。但是要注意下，在这里面有个字符串不包含中文字符，这就容易导致顺序混乱。

如下面这几个字符串按拼音进行排序顺序如下：

1-编辑，1-测试，1-qt，1-营销

可以看到字符串“1-qt”的位置出错了。但是按拼音来说它的位置又是对的。这不能不说是一个让人有些头疼的地方。

不过不用担心，java提供了java.text.collator类来支持规范化的字符串比较。

使用collator来改造之前的代码：

import java.text.collator;
import java.util.arrays;
import java.util.comparator;
import java.util.locale;
public class myjob {
  public static void main(string[] args) {
    string[] arr = {
        "1-测试",
        "1-编辑",
        "1-营销",
        "1结束",
        "2-测试",
        "1-qt"
    };
    comparator<string> c = (o1, o2) -> collator.getinstance(locale.chinese).compare(o1, o2);
    arrays.sort(arr, c);
    system.out.println(arrays.tostring(arr));
  }
}

改造后的程序执行排序的结果如下：

[1-qt, 1-编辑, 1-测试, 1结束, 1-营销, 2-测试]

结果看着好像还ok。但是停停、注意下、字符串“1结束”的位置好像比较奇妙，理想情况下它应该在“1-营销”的后面。

这里出问题的原因我没有弄清楚。猜测着应该是java在chinese语法中将中划线处理为空字符了。不过最根本的问题还是java对unicode collation algorithm（uca，unicode整理算法）的支持并不好。

此时可以考虑使用ibm icu提供的collator来替换jdk默认的collator。代码如下：

import com.ibm.icu.text.collator;
import java.util.arrays;
import java.util.comparator;
import java.util.locale;
public class myjob {
  public static void main(string[] args) {
    string[] arr = {
        "1-测试",
        "1-编辑",
        "1-营销",
        "1结束",
        "2-测试",
        "1-qt"
    };
    comparator<string> c = (o1, o2) -> collator.getinstance(locale.chinese).compare(o1, o2);
    arrays.sort(arr, c);
    system.out.println(arrays.tostring(arr));
  }
}

您可能感兴趣的文章:

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

申请Jetbrains系列软件无限期免费用的方法

推荐阅读：idea2020.2.2激活与intellij idea2020注册码及intellij全家桶激活码的详细教程(有你足矣)众所周知，jet brain... [阅读全文]

如何免费获取 Jetbrain 全家桶使用兑换码的正确姿势(推荐)

自今年1月份以jetbrain公司严厉打击旗下开发工具产品（如：intellij idea、webstorm、pycharm等）的盗版破解以来。求新破解方式、分... [阅读全文]

IDEA 激活码到期之后的现象

jetbrains旗下有多款编译器工具（如：intellij、webstorm、pycharm等）在各编程领域几乎都占据了垄断地位。今日，疑似jetbrains... [阅读全文]

IntelliJ IDEA2020、pycharm、webstorm激活永久激活及使用教程(总目录篇) 原创

intellij idea的简介 idea 全称intellij idea，是用于java语言开发的集成环境（也可用于其他语言），in... [阅读全文]

在C#和Java语言中for和foreach的区别详解

for循环和foreach循环的区别首先在这里声明一点，c#和java这两种语言很相似，尤其是初学的数据类型那一部分，所以这里写的for和foreach的区... [阅读全文]

MyBatis Plus 将查询结果封装到指定实体的方法步骤

思路自定义方法，使用wrapper，自定义映射结果集mapper接口package com.mozq.boot.mpsand01.dao;import com.... [阅读全文]

Java Web制作登录验证码实现代码解析

图例如下具体操作如下：新建一个servlet，代码如下：标记一个webservlet,1 @webservlet(urlpatterns = {"/checkc... [阅读全文]

mybatis-plus 版本不兼容问题的解决

mybatis-plus 版本不兼容问题1，mybatis-plus 版本中存在一个问题。2，mybatis-plus-extension 版本为v3.2.1.... [阅读全文]

java8 多个list对象用lambda求差集操作

业务场景：调用同步接口获取当前全部有效账户，数据库已存在部分账户信息，因此需要筛选同步接口中已存在本地的帐户。调用接口获取的数据集合list<accoun... [阅读全文]

mybatis Plus 多表联合查询的实现示例

本文主要介绍了mybatis plus 多表联合查询，分享给大家，具体如下：//实体类package com.sk.skkill.entity;import c... [阅读全文]


验证码：

验证码：

Java 中文字符按Unicode排序的实现方法

2019年07月19日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论