顺序运行时间从最初的100秒左右降低到15秒以下,回顾以上代码优化过程:关闭日志记录、共享数据库连接、使用预编译 SQL使用 SQL批处理、使用多线程实现并发 /并行、使用 DA O模式笼统出数据访问层。性能上得到很大的提升,同时也具有了更好的可读性和可扩展性。
衡量顺序的规范
可以从多个角度进行分析。其中,衡量一个程序是否优质。最常见的衡量规范是顺序的时间复杂度、空间复杂度,以及代码的可读性、可扩展性。针对顺序的时间复杂度和空间复杂度,想要优化顺序代码,需要对数据结构与算法有深入的理解,并且熟悉计算机系统的基本概念和原理;而针对代码的可读性和可扩展性,想要优化顺序代码,需要深入理解软件架构设计,熟知并会应用合适的设计模式。
如今计算机系统的存储空间已经足够大了达到TB级别,首先。因此相比于空间复杂度,时间复杂度是顺序员首要考虑的因素。为了追求高性能,某些频繁操作执行时,甚至可以考虑用空间换取时间。其次,由于受到处置器制造工艺的物理限制、利息限制,CPU主频的增长遇到瓶颈,摩尔定律已渐渐失效,每隔 18个月 CPU主频即翻倍的时代已经过去了顺序员的编程方式发生了完全的改变。目前这个多核多处理器的时代,涌现了原生支持多线程的语言(如 Java以及分布式并行计算框架(如 Hadoop为了使顺序充分地利用多核 CPU简单地实现一个单线程的顺序是远远不够的顺序员需要能够编写出并发或者并行的多线程程序。最后,大型软件系统的代码行数达到百万级,如果没有一个设计良好的软件架构,想在已有代码的基础上进行开发,开发代价和维护成本是无法想象的一个设计良好的软件应该具有可读性和可扩展性,遵循“开闭原则”依赖倒置原则”面向接口编程”等。
项目介绍
通过这个实例剖析代码优化的过程。下面简要地介绍该系统的相关局部。本文将介绍笔者经历的一个项目中的一部分。
相关局部主要有以下操作:通过某外部系统 D提供的RESTAPI获取信息,该系统的开发语言为 Java安排在共拥有 4核 CPULinux服务器上。从中提取出有效的信息,并通过 JDBC存储到某数据库系统 S中,供系统其他局部使用,上述操作的执行频率为每天一次,一般在午夜当系统空闲时定时执行。为了实现高可用性(HighAvailabl外部系统 D安排在两台服务器上,因此需要分别从这两台服务器上获取信息并将信息插入数据库中,有效信息的条数达到上千条,数据库插入操作次数则为有效信息条数的两倍。
图 1.系统体系结构图
图 1.系统体系结构图
最初的实现中优先考虑了功能的实现,为了快速地实现预期效果。而未考虑系统性能和代码可读性等。系统大致有以下的实现:1RESTAPI获取信息、数据库操作可能抛出的异常信息都被记录到日志文件中,作为调试用;2共有 5次数据库连接操作,包括第一次清空数据库表,针对两个外部系统 D各有两次数据库插入操作,这 5个连接都是独立的用完之后即释放;3所有的数据库插入语句都是使用 java.sql.Stat类生成的;4所有的数据库插入语句,都是单条执行的即生成一条执行一条;5整个过程都是单个线程中执行的包括数据库表清空操作,数据库插入操作,释放数据库连接;6数据库插入操作的JDBC代码散布在代码中。虽然这个版本的系统可以正常运行,达到预期的效果,但是效率很低,从通过 RESTAPI获取信息,解析并提取有效信息,再到数据库插入操作,总共耗时 100秒左右。而预期的时间应该在一分钟以内,这显然是不符合要求的
代码优化过程
以及如何提升效率,笔者开始分析整个过程有哪些耗时操作。缩短顺序执行的时间。通过 RESTAPI获取信息,因为是使用外部系统提供的API所以无法在此处提升效率;取得信息之后解析出有效部分,因为是对特定格式的信息进行解析,所以也无效率提升的空间。所以,效率可以大幅度提升的空间在数据库操作局部以及顺序控制局部。下面,分条叙述对耗时操作的改进方法。
针对日志记录的优化
或者更改日志输出级别。因为从两台服务器的外部系统 D上获取到信息是相同的所以数据库插入操作会抛出异常,关闭日志记录。异常信息类似于“Attempttoinsertduplicrecord这样的异常信息跟有效信息的条数相等,有上千条。这种情况是能预料到所以可以考虑或者不关闭日志记录而是更改日志输出级别,只记录严重级别(severlevel错误信息,并将此类操作的日志级别调整为警告级别(warnlevel这样就不会记录以上异常信息了本项目使用的Java自带的日志记录类,以下配置文件将日志输出级别设置为严重级别。
清单 1.log.properti设置日志输出级别的片段
#defaultfileoutputisinusershomedirectory.
WA RNING, #levelcanbe:SEVERE.INFO,FINE,FINER,FINEST
java.util.logging.ConsoleHandler.level=SEVERE
javajava.util.logging.FileHandler.formatter=java.util.logging.SimpleFormatter
java.util.logging.FileHandler.append=true
性能有了大幅度的提升,通过上述的优化之后。从原来的100秒左右降到50秒左右。为什么仅仅不记录日志就能有如此大幅度的性能提升呢?查阅资料,发现已经有人做了相关的研究与实验。经常听到Java顺序比 C/C++顺序慢的言论,但是运行速度慢的真正原因是什么,估计很多人并不清楚。对于 CPU密集型的顺序(即顺序中包括大量计算)Java顺序可以达到C/C++顺序同等级别的速度,但是对于 I/O密集型的顺序(即顺序中包含大量 I/O操作)Java顺序的速度就远远慢于 C/C++顺序了很大程度上是因为 C/C++顺序能直接访问底层的存储设备。因此,不记录日志而得到大幅度性能提升的原因是Java顺序的I/O操作较慢,一个很耗时的操作。
针对数据库连接的优化
每次都需重新建立数据库连接,共享数据库连接。共有 5次数据库连接操作。数据库插入操作完成之后又立即释放了数据库连接没有被复用。为了做到共享数据库连接,可以通过单例模式(SingletonPattern获得一个相同的数据库连接,每次数据库连接操作都共享这个数据库连接。这里没有使用数据库连接池(DatabasConnectPool因为在顺序只有少量的数据库连接操作,只有在大量并发数据库连接的时候才需要连接池。
清单 2.共享数据库连接的代码片段
publicclassJdbcUtil{
privatstaticConnectcon;
//从配置文件读取连接数据库的信息
privatstaticStringdriverClassName;
privatstaticStringurl;
privatstaticStringusername;
privatstaticStringpassword;
privatstaticStringcurrentSchema;
privatstaticPropertiproperti=newProperti;
static{
代码略去 //driverClassName,url,username,password,currentSchema等从配置文件读取。
try{
Class.forNamdriverClassNam;
}catchClassNotFoundExcepte{
e.printStackTrac;
}
usernam; properties.setProperti"user".
password; properties.setProperti"password".
currentSchema; properties.setProperti"currentSchema".
try{
properti; con=DriverManager.getConnecturl.
}catchSQLExceptione{
e.printStackTrac;
}
}
privatJdbcUtil{}
//获得一个单例的共享的数据库连接
publicstaticConnectgetConnect{
returncon;
}
publicstaticvoidclosethrowSQLException{
ifcon!=null
con.clos;
}
}
性能有了小幅度的提升,通过上述的优化之后。从 50秒左右降到40秒左右。共享数据库连接而得到性能提升的原因是数据库连接是一个耗时耗资源的操作,需要同远程计算机进行网络通信,建立 TCP连接,还需要维护连接状态表,建立数据缓冲区。如果共享数据库连接,则只需要进行一次数据库连接操作,省去了多次重新建立数据库连接的时间。
针对插入数据库记录的优化 1
可以传入参数。而 Statement生成的SQL语句在每次提交时,使用预编译 SQL具体做法是使用 java.sql.PreparedStat代替 java.sql.Stat生成 SQL语句。PreparedStat使得数据库预先编译好 SQL语句。数据库都需进行编译。执行大量类似的SQL语句时,可以使用 PreparedStat提高执行效率。使用 PreparedStat另一个好处是不需要拼接 SQL语句,代码的可读性更强。通过上述的优化之后,性能有了小幅度的提升,从 40秒左右降到30~35秒左右。
清单 3.使用 Statement代码片段
执行效率不高, //需要拼接 SQL语句。代码可读性不强
StringBuildsql=newStringBuild;
column2valu'"; sql.append"insertintotable1column1.
sql.appendcolumn1Valu;
'"; sql.append"'.
sql.appendcolumn2Valu;
sql.append"';";
Statementst;
try{
st=con.createStat;
st.executeUpdsql.toStr;
}catchSQLExceptione{
e.printStackTrac;
}
清单 4.使用 PreparedStat代码片段
执行效率高, //预编译 SQL语句。可读性强
column2valu?, Stringsql=insertintotable1column1.?;
PreparedStatpst=con.prepareStatsql;
column1Valu; pst.setStr1.
column2Valu; pst.setStr2.
pst.execut;
针对插入数据库记录的优化 2
这样在调用 execut方法时,使用 SQL批处理。通过 java.sql.PreparedStataddBatch方法将 SQL语句加入到批处理。就会一次性地执行 SQL批处理,而不是逐条执行。通过上述的优化之后,性能有了小幅度的提升,从 30~35秒左右降到30秒左右。
针对多线程的优化
相互独立的任务,使用多线程实现并发 /并行。清空数据库表的操作、把从 2个外部系统 D取得的数据插入数据库记录的操作。可以给每个任务分配一个线程执行。清空数据库表的操作应该先于数据库插入操作完成,可以通过 java.lang.Thread类的join方法控制线程执行的先后次第。单核 CPU时代,操作系统中某一时刻只有一个线程在运行,通过进程 /线程调度,给每个线程分配一小段执行的时间片,可以实现多个进程 /线程的并发(concurr执行。而在目前的多核多处置器背景下,操作系统中同一时刻可以有多个线程并行(parallel执行,大大地提高了计算速度。
清单 5.使用多线程的代码片段
Threadt0=newThreadnewClearTableTask;
Threadt1=newThreadnewStoreServersTaskADDRESS1;
Threadt2=newThreadnewStoreServersTaskADDRESS2;
try{
t0.start;
再进行后续操作 //执行完清空操作后。
t0.join;
t1.start;
t2.start;
t1.join;
t2.join;
}catchInterruptedExcepte{
e.printStackTrac;
}
//断开数据库连接
try{
JdbcUtil.clos;
}catchSQLExceptione{
e.printStackTrac;
}
性能有了大幅度的提升,通过上述的优化之后。从 30秒左右降到15秒以下,10~15秒之间。使用多线程而得到性能提升的原因是系统布置所在服务器是多核多处理器的使用多线程,给每个任务分配一个线程执行,可以充分地利用 CPU计算资源。
希望能使顺序运行得更快,笔者试着给每个任务分配两个线程执行。但是事与愿违,此时顺序运行的时间反而比每个任务分配一个线程执行的慢,大约 20秒。笔者推测,这是因为线程较多(相对于 CPU内核数)使得 CPU忙于线程的上下文切换,过多的线程上下文切换使得顺序的性能反而不如之前。因此,要根据实际的硬件环境,给任务分配适量的线程执行。
针对设计模式的优化
代码结构显得十分凌乱。使用 DA O模式(DataAccessObjectPattern可以笼统出数据访问层,使用 DA O模式笼统出数据访问层。原来的代码中混杂着 JDBC操作数据库的代码。这样使得顺序可以独立于不同的数据库,即便访问数据库的代码发生了改变,上层调用数据访问的代码无需改变。并且顺序员可以解脱单调繁琐的数据库代码的编写,专注于业务逻辑层面的代码的开发。通过上述的优化之后,性能并未有提升,但是代码的可读性、可扩展性大大地提高了
图 2.DA O模式的层次结构
图 2.DA O模式的层次结构
清单 6.使用 DA O模式的代码片段
上层的业务逻辑代码引用该接口, //DeviceDA O.java定义了DA O笼统。面向接口编程
publicinterfacDeviceDA O{
publicvoidaddDevicdevic;
}
具体的SQL语句和数据库操作由该类实现 //DeviceDA OImpl.javaDA O实现。
publicclassDeviceDA OImplimplementDeviceDA O{
privatConnectcon;
publicDeviceDA OImpl{
代码略去 //获得数据库连接。
}
@Override
publicvoidaddDevicdevic{
代码略去 //使用 PreparedStat进行数据库插入记录操作。
}
}