当前位置:科技动态 > 计算机程序的思维逻辑(64)——常见文件类型处理:属性文件/CSV/EXCEL/HTML/压缩文件

计算机程序的思维逻辑(64)——常见文件类型处理:属性文件/CSV/EXCEL/HTML/压缩文件

  • 发布:2023-09-30 06:50

-->

本系列文章经过补充和完善,已修改整理成书《Java编程的逻辑》,由机械工业出版社华章分社出版。 2018年1月上线,畅销不衰,读者好评如潮!各大网店和书店均有销售,欢迎购买,京东自营链接:http://www.sychzs.cn/12299018.html


对于文件的处理,我们引入流方法。第57节介绍字节流,第58节介绍字符流。同时我们还介绍了操作文件的底层方法。第60节介绍了文件的随机读写。 ,第61节介绍内存映射文件,我们还介绍了对象的序列化/反序列化机制,第62节介绍Java标准序列化,第63节介绍如何使用Jackson处理XML/JSON和MessagePack等其他序列化格式。

在日常编程中,我们经常需要处理一些特定类型的文件,比如CSV、Excel、HTML等。直接使用前面介绍的方法来处理它们,一般是非常不方便的。往往有一些第三方的类库,在之前介绍的技术的基础上,提供了更加方便易用的接口。

本节我们将简单介绍如何使用Java SDK和一些第三方库来处理以下五种类型的文件:

  • 属性文件:属性文件是常见的配置文件,用于在不更改代码的情况下更改程序的行为。
  • CSV:CSV是Comma-Separated Values的缩写,意思是逗号分隔值。这是一种非常常见的文件类型。大多数日志文件都是 CSV。 CSV 也经常用于交换表类型数据。我们稍后会看到它 正如您将看到的,CSV 看起来很简单,但它的处理复杂性常常被低估。
  • Excel:每个人都知道Excel。在编程中,经常需要将表格类型的数据导出为Excel格式,以方便用户查看。通常还需要接受Excel类型的文件作为输入来批量导入数据。
  • HTML:所有网页都是HTML格式,我们经常需要分析HTML网页以从中提取有趣的信息。
  • 压缩文件:压缩文件有多种格式,压缩工具也有很多。大多数情况下,我们可以使用工具来处理压缩文件,而无需自己编写程序,但在某些情况下,我们需要自己编程来压缩文件或解压缩文件。文档。

属性文件

属性文件通常非常简单。一行代表一个属性。属性是一个键值对。键和值由等号 (=) 或冒号 (:) 分隔。它们一般用于配置程序的一些参数。例如,在需要连接数据库的程序中,常常会使用配置文件来配置数据库信息。比如有这样一个文件config.properties,其内容大致如下:

数据库主机 = 192.168.10.100
数据库端口:3306
db.用户名 = zhangsan
db.password = mima1234

使用字符流来处理这类文件是比较容易的,但是Java中有一个特殊的类java.util.Properties。它的使用也非常简单。主要有以下几个方法:

公共同步无效负载(InputStream inStream)
public String getProperty(String key)
public String getProperty(String key, String defaultValue)

load 用于从流中加载属性,getProperty 用于获取属性值。可以提供默认值。如果没有找到配置的值,则返回默认值。对于上面的配置文件,可以使用类似下面的代码来读取:

属性 prop = new Properties();
prop.load(new FileInputStream("config.properties"));
String host = prop.getProperty("www.sychzs.cn");
int port = Integer.valueOf(prop.getProperty("db.port", "3306"));

使用类Properties处理属性文件的好处是:

  • 可以自动处理空格。我们看到分隔符=前后的空格会被自动忽略
  • 可以自动忽略空行
  • 您可以添加评论。以字符 # 或 ! 开头的行会被视为评论而被忽略

但是,使用属性有一些限制。它不能直接处理中文。在配置文件中,所有非ASCII字符都需要用Unicode编码。例如,不能直接在配置文件中写入:

name=老马

“老马”需要替换为Unicode编码,如下图:

姓名=\u8001\u9A6C

在Eclipse等Java IDE中,如果使用属性文件编辑器,它会自动将中文替换为Unicode编码。如果使用其他编辑器,可以先用中文编写,然后使用JDK提供的命令native2ascii转换为Unicode编码。用法 如下例所示:

native2ascii -编码 UTF-8 native.properties ascii.properties

native.properties是输入,包含中文,ascii.properties是输出,中文用Unicode编码替换,-encoding指定输入文件的编码,这里指定为UTF-8。

CSV 文件

CSV 以逗号分隔

Values 的缩写表示以逗号分隔的值。一般来说,一行代表一条记录,一条记录包含多个字段,字段之间用逗号分隔。但一般来说,分隔符不一定是逗号,也可以是制表符'\t'、冒号':'、分号';'等其他字符。程序中的各种日志文件通常都是CSV文件。 CSV也是导入和导出表类型数据时常用的格式。

CSV格式看起来很简单。例如,我们保存第58节的学生名单时,使用的是CSV格式,如下图:

张三,18,80.9
李四,17,67.5

使用之前介绍的字符流,处理CSV文件似乎很容易,一行一行的读取,使用String.split分割每一行。但事实上,CSV 有一些复杂性,最重要的是:

  • 字段内容包含分隔符怎么办?
  • 字段内容有换行怎么办?

针对这些问题,CSV有一个参考标准,RFC-4180,https://www.sychzs.cn/html/rfc4180,但实际中不同的程序往往有其他的处理方式。幸运的是,处理方法大体相似。 ,大概有两种处理方法:

  1. 使用“”等引用符号,在字段内容两侧添加“”。如果内容本身包含“,则使用两个”“
  2. 使用转义字符,常用的是\,如果内容包含\,则使用两个\

例如字段内容有两行,则内容为:

你好,世界\abc
《老马》

使用第一种方法,内容会变成:

“你好,世界\abc
”“老马”“”

使用第二种方法,内容会变成:

你好\,世界\\ abc\n“老马”

CSV还有一些其他细节,不同的程序处理它们的方式不同,例如:

  • 如何表示空值?
  • 如何处理字段之间的空行和空格?
  • 如何表示评论?

由于上述问题复杂,使用简单的字符流很难处理。有一个第三方类库Apache Commons CSV,它为处理CSV提供了很好的支持。其官方网站地址为:http://www.sychzs.cn/proper/commons-csv/index.html

本节使用其1.4版本来简单介绍其使用方法。如果使用Maven来管理项目,可以在以下文件中引入依赖项:https://www.sychzs.cn/swiftma/program-logic/blob/master/csv_lib/dependency.xml。如果您没有使用Maven,可以从以下地址下载依赖库:https://www.sychzs.cn/swiftma/program-logic/tree/master/csv_lib

Apache Commons CSV 中有一个重要的类 CSVFormat,它代表了 CSV 格式。它有很多方法来定义特定的CSV格式,例如:

//定义分隔符
public CSVFormat withDelimiter(最终字符分隔符) //定义引号
公共 CSVFormat withQuote(final char quoteChar) //定义转义字符
public CSVFormat withEscape(最终字符转义) //定义值为null的对象对应的字符串值
公共 CSVFormat withNullString(最终字符串 nullString) //定义记录之间的分隔符
公共 CSVFormat withRecordSeparator(最终字符记录分隔符) //定义是否忽略字段之间的空格
公共 CSVFormat withIgnoreSurroundingSpaces(final booleanignoreSurroundingSpaces)

例如,如果CSV格式定义为:使用分号;作为分隔符," 作为引号字符,使用 N/A 表示空对象,并忽略字段之间的空格,可以这样创建 CSVFormat:

CSVFormat 格式 = CSVFormat.newFormat(';')
.withQuote('"').withNullString("N/A")
.withIgnoreSurroundingSpaces(true);

除了自定义CSVFormat之外,CSVFormat类还定义了一些预定义的格式,例如:CSVFormat.DEFAULT、CSVFormat.RFC4180。

CSVFormat 有一个可以分析字符流的方法:

public CSVParser parse(final Reader in) 抛出 IOException

返回值类型为CSVParser,有以下方法获取记录信息:

公共迭代器迭代器()
public List getRecords() 抛出 IOException
public long getRecordNumber()

CSVRecord 代表一条记录。它有以下方法来获取每个字段的信息:

//根据字段列索引获取值,索引从0
开始 公共字符串 get(最终 int i) //根据列名获取值
公共字符串获取(最终字符串名称) //字段数
公共 int 大小() //字段迭代器
公共迭代器迭代器()

分析CSV文件的基本代码如下:

CSVFormat 格式 = CSVFormat.newFormat(';')
.withQuote('"').withNullString("N/A")
.withIgnoreSurroundingSpaces(true);
Reader reader = new FileReader("student.csv");
尝试一下{
for(CSVRecord 记录:format.parse(reader)){
int fieldNum = record.size();
for(int i=0; i System.out.print(record.get(i)+" ");
}
System.out.println();
}
}终于{
reader.close();
}

除了分析 CSV 文件之外,Apache Commons CSV 还可以编写 CSV 文件。有一个CSVPrinter,它有很多种打印方式,比如:

//输出一条记录,参数是可变的,每个参数是一个字段值
public void printRecord(final Object...values) 抛出 IOException //输出一条记录
public void printRecord(final Iterable值)抛出IOException

看代码示例:

CSVPrinter out = new CSVPrinter(new FileWriter("student.csv"),
CSVFormat.DEFAULT);
out.printRecord("老马", 18, "看电影、看书、听音乐");
out.printRecord("小马", 16, "乐高;赛车;");
out.close();

输出文件student.csv的内容为:

《老马》,18,《看电影、看书、听音乐》
“小马”,16,乐高;赛车;

Excel

Excel主要有两种格式,后缀名是.xls和.xlsx。 .xlsx是Office 2007之后的默认扩展名。POI类库在Java中广泛用于处理Excel文件和其他Microsoft文档。其官方网站是http://www.sychzs.cn/。

本节使用其3.15版本来简单介绍其使用方法。如果您使用Maven来管理您的项目,您可以在以下文件中引入依赖项:https://www.sychzs.cn/swiftma/program-logic/blob/master/excel_lib/dependency.xml。如果您没有使用Maven,可以从以下地址下载依赖库:https://www.sychzs.cn/swiftma/program-logic/tree/master/excel_lib

使用POI处理Excel文件,主要有以下几类:

  • 工作簿:表示 Excel 文件对象。它是一个接口,有两个主要类:HSSFWorkbook 和 XSSFWorkbook。前者对应.xls 格式,后者对应.xlsx 格式。
  • 工作表:代表工作表
  • Row:代表一行
  • Cell:代表一个单元格

例如将学生名单保存到student.xls,代码可以是:

public static void saveAsExcel(List list) 抛出 IOException {
工作簿wb = new HSSFWorkbook();
Sheetsheet = wb.createSheet();
for (int i = 0; i < list.size(); i++) {
学生student = list.get(i);
行行=sheet.createRow(i);
row.createCell(0).setCellValue(student.getName());
row.createCell(1).setCellValue(student.getAge());
row.createCell(2).setCellValue(student.getScore());
}
OutputStream out = new FileOutputStream("student.xls");
wb.write(out);
out.close();
wb.close();
}

如果要另存为.xlsx格式,只需替换第一行:

工作簿wb = new XSSFWorkbook();

POI还可以用来轻松解析Excel文件,只需使用WorkbookFactory的create方法即可,如下所示:

公共静态列表 readAsExcel() 抛出异常 {
工作簿wb = WorkbookFactory.create(new File("student.xls"));
List list = new ArrayList();
for(工作表:wb){
for(行 行 : 表){
字符串名称 = row.getCell(0).getStringCellValue();
int Age = (int)row.getCell(1).getNumericCellValue();
双倍分数 = row.getCell(2).getNumericCellValue();
list.add(new Student(姓名,年龄,分数));
}
}
wb.close();
返回列表;
}

上面我们只介绍了基本用法。如果您需要更多信息,例如配置单元格的格式、颜色和字体,请参阅http://www.sychzs.cn/spreadsheet/quick-guide.html。

HTML

HTML 是网页的格式。如果您不熟悉,可以参考http://www.sychzs.cn/html/html_intro.asp。在日常工作中,您可能需要分析HTML页面并提取有趣的信息。有许多 HTML 解析器。我们简单介绍一下jsoup,它的官方网站地址是https://www.sychzs.cn/。

本节使用其1.10.2版本。如果使用Maven来管理项目,可以在以下文件中引入依赖项:https://www.sychzs.cn/swiftma/program-logic/blob/master/html_lib/dependency.xml。如果不是Maven,可以从以下地址下载依赖库:https://www.sychzs.cn/swiftma/program-logic/tree/master/html_lib。

我们通过一个简单的例子来看看jsoup的使用。我们要分析的网页地址是:http://www.sychzs.cn/swiftma/p/5631311.html

这就是浏览器中的样子(部分截图):

保存网页,其HTML代码如下(部分截图):

假设我们要提取网页主题内容中每篇文章的标题和链接。如何实现这一目标? jsoup 支持使用 CSS 选择器语法来查找元素。如果你不了解CSS选择器,可以参考http://www.sychzs.cn/cssref/css_selectors.asp。

用于定位文章列表的CSS选择器可以是

#cnblogs_post_body p a

我们看一下代码(假设文件是​​articles.html):

文档 doc = Jsoup.parse(new File("articles.html"), "UTF-8");
elements elements = www.sychzs.cn("#cnblogs_post_body p a");
for(元素 e : 元素){
String title = e.text();
String href = e.attr("href");
System.out.println(标题+","+href);
}

输出为(部分):

计算机程序的思维逻辑(一)——数据与变量,http://www.sychzs.cn/swiftma/p/5396551.html
计算机程序的思维逻辑(2)-作业,http://www.sychzs.cn/swiftma/p/5399315.html

jsoup也可以直接连接URL进行分析。例如上面代码的第一行可以替换为:

String url = "http://www.sychzs.cn/swiftma/p/5631311.html";
文档 doc = Jsoup.connect(url).get();

jsoup的更多使用方法请参考其官网。

Zip 文件

压缩文件有多种格式。 Java SDK支持两种类型:gzip和zip。 Gzip只能压缩一个文件,而一个zip文件可以包含多个文件。下面我们介绍一下Java SDK的基本用法。如果您需要更多格式,可以考虑 Apache Commons compress:http://www.sychzs.cn/proper/commons-compress/

我们先来看看gzip。主要有两大类:

java.util.zip.GZIPOutputStream
java.util.zip.GZIPInputStream

分别是OutputStream和InputStream的子类,两者都是装饰类。 GZIPOutputStream可以添加到现有流中以实现压缩,而GZIPInputStream可以添加到现有流中以实现解压缩。例如,压缩文件的代码可以是:

public static void gzip(String fileName) 抛出 IOException {
输入流 in = null;
String gzipFileName = 文件名 + ".gz";
OutputStream out = null;
尝试一下{
in = new BufferedInputStream(new FileInputStream(文件名));
输出 = 新 GZIPOutputStream(新 BufferedOutputStream(
新的 FileOutputStream(gzipFileName)));
复制(输入、输出);
}终于{
if (out != null) {
out.close();
}
if (in != null) {
in.close();
}
}
}

调用的copy方法就是我们在第57节介绍的,解压文件的代码可以是:

公共静态无效gunzip(字符串gzip文件名,字符串unzip文件名)
抛出 IOException {
输入流 in = null;
OutputStream out = null;
尝试一下{
in = new GZIPInputStream(new BufferedInputStream(
new FileInputStream(gzipFileName)));
out = new BufferedOutputStream(new FileOutputStream(
解压缩文件名));
复制(输入、输出);
}终于{
if (out != null) {
out.close();
}
if (in != null) {
in.close();
}
}
}

zip 文件支持在一个压缩文件中包含多个文件。 Java SDK的主要类有:

java.util.zip.ZipOutputStream
java.util.zip.ZipInputStream

它们也分别是OutputStream和InputStream的子类。它们也是装饰类,但不能像 GZIPOutputStream/GZIPInputStream 那样简单地使用。

ZipOutputStream可以写入多个文件,它有一个重要的方法:

public void putNextEntry(ZipEntry e) 抛出 IOException

在写入每个文件之前,必须先调用该方法,表示要写入一个压缩条目ZipEntry。每个压缩条目都有一个名称。该名称是压缩文件的相对路径。如果名称以‘/’结尾,表示目录,其构造方法为:

public ZipEntry(字符串名称)

我们来看一段压缩文件或目录的代码:

public static void zip(File inFile, File zipFile) 抛出 IOException {
ZipOutputStream out = new ZipOutputStream(new BufferedOutputStream(
新的 FileOutputStream(zipFile)));
尝试一下{
if (!inFile.exists()) {
抛出新的 FileNotFoundException(inFile.getAbsolutePath());
}
inFile = inFile.getCanonicalFile();
String rootPath = inFile.getParent();
if (!rootPath.endsWith(File.separator)) {
rootPath += File.separator;
}
addFileToZipOut(inFile, out, rootPath);
}终于{
out.close();
}
}

参数inFile代表输入,可以是普通文件或目录,zipFile代表输出,rootPath代表父目录,用于计算每个文件的相对路径。主要是调用addFileToZipOut将文件添加到ZipOutputStream中。代码是:

private static void addFileToZipOut(文件文件,ZipOutputStream 输出,
String rootPath) 抛出 IOException {
StringrelativePath = file.getCanonicalPath().substring(
rootPath.length());
if (file.isFile()) {
out.putNextEntry(new ZipEntry(relativePath));
输入流 = new BufferedInputStream(new FileInputStream(file));
尝试一下{
复制(输入、输出);
}终于{
in.close();
}
}否则{
out.putNextEntry(new ZipEntry(relativePath + File.separator));
for (文件 f : file.listFiles()) {
addFileToZipOut(f, out, rootPath);
}
}
}

还调用copy方法将文件内容写入ZipOutputStream,并对目录进行递归调用。

ZipInputStream 用于解压缩 zip 文件。它有相应的方法来获取压缩条目:

public ZipEntry getNextEntry() 抛出 IOException

如果返回值为null,则表示没有条目。要使用ZipInputStream解压文件,可以使用类似以下的代码:

public static void unzip(File zipFile, String destDir) 抛出 IOException {
ZipInputStream zin = new ZipInputStream(new BufferedInputStream(
新的 FileInputStream(zipFile)));
if (!destDir.endsWith(File.separator)) {
destDir += 文件.分隔符;
}
尝试一下{
ZipEntry 条目 = zin.getNextEntry();
while (条目!= null) {
extractZipEntry(entry, zin, destDir);
条目 = zin.getNextEntry();
}
}终于{
zin.close();
}
}

调用extractZipEntry处理压缩每个边境,代码为:

私有静态无效 extractZipEntry(ZipEntry 条目, ZipInputStream zin,
String destDir) 抛出 IOException {
if (!entry.isDirectory()) {
文件父 = new File(destDir + entry.getName()).getParentFile();
if (!parent.exists()) {
父.mkdirs();
}
OutputStream EntryOut = new BufferedOutputStream(
new FileOutputStream(destDir + entry.getName()));
尝试一下{
复制(zin,entryOut);
}终于{
EntryOut.close();
}
}否则{
新文件(destDir + entry.getName()).mkdirs();
}
}

总结

本节简要介绍了属性文件、CSV、EXCEL、HTML、压缩文件五种常见文件类型的处理,介绍了基本用法和更多信息的参考链接。

至此,我们已经介绍了文件的所有部分。

从下一节开始,让我们一起探索并发和线程的世界吧!

(与其他章节一样,本节所有代码均位于https://www.sychzs.cn/swiftma/program-logic)

----------------

未完待续,查看最新文章请关注微信公众号《老马讲编程》(扫描下方二维码),从入门到进阶,深入浅出,老马将与您一起探索Java编程和计算机技术的精髓。用心原创,保留所有版权。

-->

相关文章

热门推荐