当前位置：移动技术网 > 科技>操作系统>Linux > Linux下删除大数据文件中部分字段重复行的方法

Linux下删除大数据文件中部分字段重复行的方法

2018年11月08日 | 移动技术网科技 | 我要评论

新恋爱时代全集下载,美女pk精子3,散粉和粉饼的区别

最近写的一个数据采集程序生成了一个含有1千多万行数据的文件，数据由4个字段组成，按照要求需要删除第二个字段重复的行，找来找去linux下也没找到合适的工具，sed/gawk等流处理工具只能针对一行一行处理，并无法找到字段重复的行。看来只好自己python一个程序了，突然想起来利用mysql，于是进行乾坤大挪移：

1. 利用mysqlimport --local dbname data.txt导入数据到表中，表名要与文件名一致
2. 执行下列sql语句(要求唯一的字段为uniqfield）

复制代码

代码如下:

use dbname;
alter table tablename add rowid int auto_increment not null;
create table t select min(rowid) as rowid from tablename group by uniqfield;
create table t2 select tablename .* from tablename,t where tablename.rowid= t.rowid;
drop table tablename;
rename table t2 to tablename;

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

linux系统怎么使用alias创建命令别名?

linux系统怎么使用alias创建命令别名？linux系统中有很多命令，今天我们就来看看alias命令的使用方法，详细请看下文介绍... 20-02-13 [阅读全文]
linux怎么快速创建创建一次性的计划任务?

linux怎么快速创建创建一次性的计划任务？linux系统总想要创建一次性任务，该怎么创建呢？下面我们就来看看详细的教程，需要的朋友可以参考下... 20-02... [阅读全文]
linux下文本编辑器vim的使用方法(复制、粘贴、替换、行号、撤销、多文件操作)

这篇文章主要介绍了linux下文本编辑器vim的使用方法，包括复制、粘贴、替换、行号、撤销、多文件操作,需要的朋友可以参考下... 20-02-16 [阅读全文]
Linux虚拟机怎么拍摄快照并管理?

Linux虚拟机怎么拍摄快照并管理？安装Linux虚拟机后，想要将操作步骤保存成快照，并管理，该怎么实现呢？下面我们就来看看详细的教程，需要的朋友可以参考下..... [阅读全文]
linux中crontab计划任务怎么删除?

linux中crontab计划任务怎么删除？linux中想要删除crontab计划任务，该怎么删除呢？下面我们就来看看详细的教程，需要的朋友可以参考下... 2... [阅读全文]
linux系统比windows系统声音小怎么办?

linux系统比windows系统声音小怎么办？电脑安装linux系统后，发现比windows系统的声音小，想要将声音变大，该怎么办呢？下面我们就来看看详细的教... [阅读全文]
linux怎么查看防火墙是否开启并清除防火墙规则?

linux怎么查看防火墙是否开启并清除防火墙规则？linux系统想要看看有没有开启防火墙，怎么删除防火墙规则？下面我们就来看看详细的教程，需要的朋友可以参考下.... [阅读全文]
centos7搭建wordpress博客

安装apache 启动apache 设置apache开机自启访问公网地址检测apache是否正常安装MySQL数据库启动MySQL数据库查看My... [阅读全文]
linux命令行,gcc,g++零基础

【上手由易到难，推荐wsl,虚拟机】 1、tdm gcc, mingw(dev c++) 2、wsl(Windows Subsystem for Lin... [阅读全文]
自动化运维工具Ansible之Roles测验详解

Ansible Roles 详解与实战案例主机规划添加用户账号说明： 1、运维人员使用的登录账号； 2、所有的业务都放在 /app/ 下「yu... [阅读全文]

网友评论


验证码：

Linux下删除大数据文件中部分字段重复行的方法

2018年11月08日 | 移动技术网科技 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论