بهبود تشخیص ناهنجاری داده ها با یادگیری عمیق

نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانش آموخته کارشناسی ارشد نرم افزار، دانشگاه آزاد بناب، بناب، ایران

2 دانشجوی دکتری، دانشگاه تبریز، تبریز، ایران

چکیده

دلیل اصلی که باعث شد داده­کاوی، مورد توجه صنعت اطلاعات قرار بگیرد، مسئله در دسترس بودن حجم وسیعی از داده­ها و استخراج اطلاعات و دانش سودمند از آن‌ها است. در عملیات پاک­سازی داده، مشکل کیفیت داده­ها برطرف می­شود. یکی از مشکلاتی که بر کیفیت داده­ها تأثیر می­گذارد، داده­های برون‌هشته هستند. این نمونه­ها رکوردهایی هستند که مقادیر مشخصه آن­ها با رکوردهای دیگر بسیار تفاوت دارد. در این تحقیق از یک روش مبتنی بر یادگیری عمیق و شبکه عصبی عمیق 14 لایه­ای بر روی پکیج تنسورفلو و کراس برای تشخیص برون‌هشته‌ای و بهبود عملکرد آن استفاده شده است. مجموعه داده مورد استفاده در این تحقیق مجموعه‌ای با 2 درصد برون‌هشته‌ای است. میزان صحت روش پیشنهادی مقدار 08/97 را نشان داد و معیارهای بازخوانی و دقت نیز 97 درصد محاسبه شده است. روش پیشنهادی با 5 مدل دیگر مبتنی بر شبکه عصبی کانولوشن و شبکه بازگشتی LSTM نیز مقایسه شدند. مقدار معیارهای ارزیابی کلاس­بندها نشان از بهبود بسیار خوب روش پیشنهادی در مقابل روش­های سنتی و حتی روش­های مبتنی بر یادگیری عمیق را داده است.

کلیدواژه‌ها


عنوان مقاله [English]

Improve Anomaly Detection with Deep learning

نویسندگان [English]

  • Amir Asl Taghivand 1
  • Ehsan Aminvash 2
1 Graduate of Master of Software, Bonab Azad University, Bonab, Iran
2 Ph.D. student, University of Tabriz, Tabriz, Iran.
چکیده [English]

The main reason that data mining has become the focus of attention in the information industry is the availability of large volumes of data and the urgent need to extract useful information and knowledge from this data. In data cleaning operation, the problem of data quality is solved. One of the problems that affects the quality of data is skewed data or abnormal data. These are records whose attribute values are very different from other records. In this research, a method based on deep learning and 14-layer deep neural network on the tensorflow and cross package has been used to diagnose the abnormality and improve its performance. The data set used in this research is a data set with 2% anomalies. The accuracy of the proposed method was 97.08 and the readability and accuracy criteria were 97%. The proposed method was compared with 5 other models based on convolutional neural network and LSTM recursive network. The value of the classification evaluation criteria showed a very good improvement over the proposed method compared to traditional methods and even methods based on deep learning.

کلیدواژه‌ها [English]

  • Detection of Anomaly
  • Deep Neural Network
  • Convulsion Neural Network
  • Keras
Ahmed  M, Mahmood A N & Hu J. 2016. A survey of network anomaly detection techniques. Journal of Network and Computer Applications, 60, 19-31.
Alam S, Dobbie G, Riddle P, and Naeem A. 2010. A swarm intelligence based clustering approach for outlier detection. IEEE Press, 978(1), 4244-8126.
Bossers H, Hurink J, and Smit G. 2014. Selection of tests for outlier detection. IEEE 31st VLSI Test Symposium (VTS).
Daneshfaraz R, Aminvash E, Ghaderi A, Abraham J, Bagherzadeh M. 2021a. SVM Performance for Predicting the Effect of Horizontal Screen Diameters on the Hydraulic Parameters of a Vertical Drop. Applied science. 11, 4238. https://doi.org/10.3390/app11094238.
Daneshfaraz R. Aminvash E, Mirzaei R, Abraham J. 2021b. Predicting the energy dissipation of a rough sudden expansion rectangular stilling basins using the SVM algorithm. Journal of Applied Research in Water and Wastewater, 11, 4238. https://doi.org/10.3390/app11094238.
Gupta M, Gao J, Aggrawal C & Jiawei H. 2014. Outlier detection for temporal data. Morgan and Claypool Publishers.The U.S.
Kieu T, Yang B & Jensen C. S. 2018. Outlier detection for multidimensional time series using deep neural networks. In 2018 19th IEEE International Conference on Mobile Data Management (MDM) (pp. 125-134). IEEE.
LeCun Y, Bottou L, Bengio Y & Haffner P. 1998. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 2278-2324.
Liu L. and Fern Z. 2012. Constructing training sets for outlier detection.
Marco A, Pimental N, Clifton D, Clifton L & Tarassenko L. 2014. A review of novelty detection. Retrived from www.elsevier.com/locate/sigpro>, page 215-249.
Masakazu M, Mori K, Mitari Y, Kaneda Y. 2003. Subject independent facial expression recognition with robust face detection using a convolutional neural network. International Journal of Science and Research(IJSR).
Rezapour M, Asadi R, Marghoob B. 2021. Machine Learning Algorithms as new screening framework for recommendation of Appropriate Vascular Access and Stroke Reduction. Int J Hosp Res, 10 (3).
Rezapour M. 2021. Predicting Stroke in Hemodialysis Patients Using Data Mining. Digital Transformation, 1(1), 45-57. doi: 10.22034/dtj.2021.250451.1001
Sermanet P, LeCun Y. 2011. Traffic sign recognition with multi-scale Convolutional Networks. In The 2011 International Joint Conference on Neural Networks; 2809–2813.
Shadroo Sh, Rahmani A M. 2018. Systematic survey of big Data and Data Mining in Internet of Things. Computer Networks, Accepted Manuscript, 70 pages.
Souza A M & Amazonas J. R. 2015. An outlier detect algorithm using big data processing and internet of things architecture. Procedia Computer Science, 52, 1010-1015.
Tsai C F, Chang Fu-Yu. 2016. Combining instance selection for better missing value imputation, Journal of Systems and Software, 122, 63-71.
Yan Z, Liu J, Yang L T & Chawla N. 2018. Big data fusion in Internet of Things. Information fusion, 100(40), 32-33.
Yang S, Liu W. 2011. Anomaly detection on collective moving patterns: A hidden markov model based solution”. IEEE International Conference of Things, and Cyber, Physical and Computing.
Zenati H, Foo C S, Lecouat B, Manek G & Chandrasekhar V R. (2018). Efficient gan-based anomaly detection. Institute for Infocomm Research, Singapore. School of Computer Science, Nanyang Technological University.
Zhou Q. 2018. Bidirectional long short-term memory network for proto-object representation (Doctoral dissertation).