[논문 전문] : https://www.sciencedirect.com/science/article/abs/pii/S2352152X23034035
[출처] Chunsheng Hu, Fangjuan Cheng, Yong Zhao, Shanshan Guo, Liang Ma, State of charge estimation for lithium-ion batteries based on data augmentation with generative adversarial network, Journal of Energy Storage, Volume 80, 2024, 110004, ISSN 2352-152X, https://doi.org/10.1016/j.est.2023.110004.
※ The picture and content of this article are from the original paper.
All picture and figures used in this article are sourced from publicily available on the internet.
[논문 요약]
State of charge estimation for lithium-ion batteries based on data augmentation with generative adversarial networks
GAN을 활용하여 배터리 V,I,T 데이터를 생성해내는 논문입니다.
TS-DCGAN 이라고 저자가 명명했는데, 이름 그대로 Time Series Data를 CNN으로 처리한다는 내용입니다.
그것을 가능하게끔 하는것이 상당히 재미있습니다.
또한, 최근에 Publish되었고 내용도 기승전결 잘 정리되어있어서 한번 리뷰해보고자합니다.
Contents

본 논문에서 GAN Framework 자체에 특별한 테크닉을 적용하지는 않습니다.
하지만, 배터리 (TS) 데이터를 전처리하는 방식과 이것을 이미지화하여 DC-GAN으로 처리하는 부분. 즉, GAN보다는 GAN 학습을 위한 데이터 전처리/후처리 부분에서 재미있는 아이디어를 사용하는 논문입니다.
저도 신호처리가 연구베이스이기때문에, 다른 카테고리에서 시계열 데이터에 대한 이런식의 논문을 발표한적이 있는데 비슷한 Approach인것 같습니다.

일단 본 논문에서는 GAN의 Generator/Discriminator를 Deep Convolutional Neural Network로 구성합니다.
1D-CNN도 아니고 Vision에 특화된 2D-CNN을 사용하겠다는것으로 봐서 시계열 데이터를 이미지화 하겠다는것을 바로 캐치할 수 있습니다.
그러면 어떤식으로 이미지화를 하냐??
아쉽게도 논문의 Fig.2에 방식이 그림으로 모두 묘사되어있으나, 원논문 사이트에서 open 되진 않았습니다.

Fourier Transform을 통해 Spectrogram 이라는 형태로 Signal을 2D-Image화 하는 방식입니다.
오디오쪽에서는 본 테크닉이 거의 Main인데요, 본 논문의 저자는 배터리의 V,I,T 데이터를 3차원(R,G,B)이미지와 같이 대응시켜 이를 Spectrogram으로 이미지화 한후 DC-GAN으로 생성하는 형식입니다.
따라서 Generator가 생성하는 데이터는 Spectrogram입니다.
그런데 우리가 필요한 생성 데이터는 V,I,T이죠?? 그렇기때문에 Generator뒤에 Inverse Fourier Transform을 하는 IFFT 구간이 하나 더 붙게됩니다.
(입력 데이터 시퀀스의 Overlap을 통해 FFT-IFFT로 인한 손실이 없게끔 하거나 Gaussian Noise를 Add하여 Data Augmentation의 효과를 노리는 미세한 테크닉들도 있음.)
즉, 하기 순서대로 데이터가 생성됩니다.
배터리 데이터 -> FFT Spectrogram(이미지화) -> DC-GAN 학습 -> IFFT(Inverse FFT) -> 배터리 데이터 생성

그런데 검증부분이 제가 봤을때 상당히 이상합니다.
얼핏봤을땐 Generated된 데이터가 Real 데이터와 거의 비슷하게 흘러가네?? 성능좋네?? 이렇게 생각하실수도 있는데요
오히려 그 반대여야합니다.
Generated된 데이터가 Real Data와 같다는 말은 전혀 새로운 데이터를 생성해내고 있지 못하다는 말이니까요
즉, Mode Collapse가 발생했음을 의미합니다.
그런데 본 논문에서는 이게 Real Data의 분포를 잘 따라가는 Generated 데이터의 검증결과를 보여준다고 하며 Figure로 내세우고 있습니다.
분포를 잘 따라가는건, 이 뒷부분에 있는 t-SNE와 PCA 검증 결과 정도로도 충분히 표현가능한데, y축을 보시면 사실상 0.02도 정도의 온도로 따라간다는건 데이터 Generation이 아니라 Regression에 가깝습니다.
이는, 학습한 데이터를 그대로 생성해내고 있는 완전히 잘못된 상황이라는 뜻입니다. (제가 잘못이해하고 있는 부분이 있으면 의견 부탁드립니다.)
논문에서도 Fig.6에 대해 "Fig.6 compares the synthetic data generated by the proposed method with real values. The results reveal tht the trend of generated variables is consistent with the original samples while not completely overlapping, indicating that the TS-D GAN model has the powerful ability to generate data with the same trends as the real data" 라고 말합니다.
즉, 해당 결과에 대해 엄청 긍정적으로 평가하고 있는데요, 제가 Reviewer라면 바로 Reject 할 사안인데 IF가 높은 저널에 투고되었다는점에서 뭔가 제가 놓치고 있는 부분이 있는건지.. 이해가안되네요

이런 연유로 보면, 상기 t-SNE와 PCA결과도 생성한 데이터가 Real Data와 거의 흡사하고 Noise일부 추가한 정도만의 Diversity를 보여주기때문에 이렇게 결과가 나오는것 아닐까싶기도합니다.
Results
논문의 전개과정은 재미있었으나,
검증 과정과 최종 결과 부분에서 많은 의구심을 자아내게 하는 논문
참조
[1] Chunsheng Hu, Fangjuan Cheng, Yong Zhao, Shanshan Guo, Liang Ma, State of charge estimation for lithium-ion batteries based on data augmentation with generative adversarial network, Journal of Energy Storage, Volume 80, 2024, 110004, ISSN 2352-152X, https://doi.org/10.1016/j.est.2023.110004.
댓글