当前位置：移动技术网 > 科技>操作系统>Linux > linux系统下批量转换UTF8到GB2312并处理UTF8的BOM标记

linux系统下批量转换UTF8到GB2312并处理UTF8的BOM标记

2018年11月08日 | 移动技术网科技 | 我要评论

　　背景

　　本人在使用oracle的sqlplus批量导入utf8编码的sql脚本时，由于不了解如何设置让sqlplus识别utf8格式，导致出现乱码、错行等错误，而使工作无法继续，在google无果的情况下只好想办法转换编码。

　　由于文件较多，手动转换太麻烦，于是想到用脚本批量转换，幸好网上相关脚本比较多，实现起来唯一的麻烦是utf8的bom标记。

　　内容：

复制代码

代码如下:

　　#!/bin/bash
　　for loop in `find . -type f -name "*.sql" -print`do
　　echo $loop
　　mv -f $loop $loop.tmp
　　dos2unix $loop.tmp
　　file_check_utf8='file_check_utf8.log'
　　sed -n '1l' $loop.tmp >$file_check_utf810. if grep '^\\357\\273\\277' $file_check_utf8 >/dev/null 2>&111. then
echo 'utf-8 bom'
sed -n -e '1s/^...//' -e 'w intermediate.txt' $loop.tmp14. iconv -f utf-8 -t gb2312 -o $loop intermediate.txt15. rm -rf intermediate.txt
rm -rf $loop.tmp
　　elif iconv -f utf-8 -t gb2312 $loop.tmp >/dev/null 2>&118. then
echo 'utf-8'
　　 iconv -f utf-8 -t gb2312 -o $loop $loop.tmp21. rm -rf $loop.tmp
　　 else
echo 'ansi'
mv -f $loop.tmp $loop
　　fi
　　rm -rf $file_check_utf8
　　 #模拟unix2dos，要求文本文件最后一行必须有换行符28. sed -n -e 's/$/\r/g' -e 'w '$loop.tmp $loop29. mv -f $loop.tmp $loop
　　done
　　
　　#!/bin/bash
　　for loop in `find . -type f -name "*.sql" -print`do
　　echo $loop
　　mv -f $loop $loop.tmp
　　dos2unix $loop.tmp
　　file_check_utf8='file_check_utf8.log'
　　sed -n '1l' $loop.tmp >$file_check_utf810. if grep '^\\357\\273\\277' $file_check_utf8 >/dev/null 2>&111. then
echo 'utf-8 bom'
sed -n -e '1s/^...//' -e 'w intermediate.txt' $loop.tmp14. iconv -f utf-8 -t gb2312 -o $loop intermediate.txt15. rm -rf intermediate.txt
rm -rf $loop.tmp
　　elif iconv -f utf-8 -t gb2312 $loop.tmp >/dev/null 2>&118. then
echo 'utf-8'
　　 iconv -f utf-8 -t gb2312 -o $loop $loop.tmp21. rm -rf $loop.tmp
　　 else
echo 'ansi'
mv -f $loop.tmp $loop
　　fi
　　rm -rf $file_check_utf8
　　 #模拟unix2dos，要求文本文件最后一行必须有换行符28. sed -n -e 's/$/\r/g' -e 'w '$loop.tmp $loop29. mv -f $loop.tmp $loop
　　done

　　解释

　　1.处理utf8的bom，本人没有找到好的办法，最后用sed＋grep判断了一下，如果前三个字节是\\357\\273\\277，则文件必定是utf8，用sed去掉这三个字节再转换

　　2.为了避免重复或者遗漏，脚本中用iconv对没有bom的文件尝试转换了一把，转换成功说明文件是utf8，否则说明是ansi也就是gb2312

　　3.关于最后的sed命令，那是因为本人的系统上没有unix2dos命令，所以进行了模拟，目的是为了方便自己在windows下查看和编辑

　　以上就是linux 批量转换utf8到gb2312并处理utf8的bom标记的方法，谢谢阅读，希望能帮到大家，请继续关注移动技术网，我们会努力分享更多优秀的文章。

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

linux系统怎么使用alias创建命令别名?

linux系统怎么使用alias创建命令别名？linux系统中有很多命令，今天我们就来看看alias命令的使用方法，详细请看下文介绍... 20-02-13 [阅读全文]
linux怎么快速创建创建一次性的计划任务?

linux怎么快速创建创建一次性的计划任务？linux系统总想要创建一次性任务，该怎么创建呢？下面我们就来看看详细的教程，需要的朋友可以参考下... 20-02... [阅读全文]
linux下文本编辑器vim的使用方法(复制、粘贴、替换、行号、撤销、多文件操作)

这篇文章主要介绍了linux下文本编辑器vim的使用方法，包括复制、粘贴、替换、行号、撤销、多文件操作,需要的朋友可以参考下... 20-02-16 [阅读全文]
Linux虚拟机怎么拍摄快照并管理?

Linux虚拟机怎么拍摄快照并管理？安装Linux虚拟机后，想要将操作步骤保存成快照，并管理，该怎么实现呢？下面我们就来看看详细的教程，需要的朋友可以参考下..... [阅读全文]
linux中crontab计划任务怎么删除?

linux中crontab计划任务怎么删除？linux中想要删除crontab计划任务，该怎么删除呢？下面我们就来看看详细的教程，需要的朋友可以参考下... 2... [阅读全文]
linux系统比windows系统声音小怎么办?

linux系统比windows系统声音小怎么办？电脑安装linux系统后，发现比windows系统的声音小，想要将声音变大，该怎么办呢？下面我们就来看看详细的教... [阅读全文]
linux怎么查看防火墙是否开启并清除防火墙规则?

linux怎么查看防火墙是否开启并清除防火墙规则？linux系统想要看看有没有开启防火墙，怎么删除防火墙规则？下面我们就来看看详细的教程，需要的朋友可以参考下.... [阅读全文]
centos7搭建wordpress博客

安装apache 启动apache 设置apache开机自启访问公网地址检测apache是否正常安装MySQL数据库启动MySQL数据库查看My... [阅读全文]
linux命令行,gcc,g++零基础

【上手由易到难，推荐wsl,虚拟机】 1、tdm gcc, mingw(dev c++) 2、wsl(Windows Subsystem for Lin... [阅读全文]
自动化运维工具Ansible之Roles测验详解

Ansible Roles 详解与实战案例主机规划添加用户账号说明： 1、运维人员使用的登录账号； 2、所有的业务都放在 /app/ 下「yu... [阅读全文]

网友评论


验证码：

linux系统下批量转换UTF8到GB2312并处理UTF8的BOM标记

2018年11月08日 | 移动技术网科技 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论