Анализ IP-трафика методами Data Mining. Проблема классификации

Автор: Щербакова Наталья Григорьевна

Журнал: Проблемы информатики @problem-info

Рубрика: Вычислительные и сетевые ресурсы

Статья в выпуске: 4 (16), 2012 года.

Бесплатный доступ

Предложен подход к решению задачи классификации IP-трафика, основанный на методах интеллектуального анализа данных. На основе статистических параметров потоков, извлекаемых из характеристик, не зависящих от полезной нагрузки IP-пакетов, проводится идентификация сетевых приложений. Для решения задачи применяется анализ данных, обеспечивающий автоматическое выявление скрытых закономерностей. Рассмотрен ряд алгоритмов классификации и поиска. Проведен их сравнительный анализ.

Классификация ip-трафика, p2p-трафик, методы машинного обучения, эффективность и стабильность алгоритмов классификации

Короткий адрес: https://sciup.org/14320145

IDR: 14320145

Список литературы Анализ IP-трафика методами Data Mining. Проблема классификации

  • Барсегян А. А. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, Olap/А. А. Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод. СПб.: БХВ-Петербург, 2007.
  • Mitchell T. Machine learning. N. Y.: McGraw-Hill, 1997.
  • Гмурман В. Е. Теория вероятностей и математическая статистика. М.: Юрайт, 2011.
  • Crotti M., Dusi M., Este A., et al. Application protocol fingerprinting for traffic classification//Annual GTTI award for PhD theses in the field of communication technologies, 2007. [Electron. resource]. http://www.gtti.it/GTTI07/papers/Dusi_unibs.pdf.
  • Haddad R. A., Akansu A. N. A class of fast Gaussian binomial filters for speech and image processing//IEEE Trans. Acoust., Speech Signal Proc. 1991. V. 39. P. 723-727.
  • Dedinski I., De Meer H., Han L., et al. Cross-layer peer-to-peer traffic identification and optimization based on active networking//Proc. of the 7th Intern. workshop on active networks (IWAN 2005), Sophia-Antipolis (France). Nov. 21-23, 2005. Berlin; Heidelberg: Springer-Verlag, 2009. P. 13-27.
  • Chui Ch. K. An introduction to the wavelets. N. Y.: Acad. Press, 1992.
  • Moore A. W., Zuev D. Internet traffic classification using Bayesian analysis techniques//ACM SIGMETRICS 2005, Banff, Alberta (Canada), June 2005. N.Y.: ACM, 2005. P. 50-60.
  • Yu L., Liu H. Feature selection for high-dimensional data: A fast correlation-based filter solution//Proc. of the 20th Intern. conf. on machine learning (ICML 2003), Washington, 2003. Palo Alto: AAAI Press, 2003. P. 856-863.
  • Duffield N. G., Lewis J. T., O’Connell N., et al. Entropy of ATM traffic streams//IEEE J. Select. Areas Commun. 1995. V. 13, iss. 6. P. 981-990.
  • Moore A. W., Zuev D. Discriminators for use in flow-based classification: Tech. report/Intel Res. Cambridge, 2005.
  • Wand M. P. Kernel smoothing/M. P. Wand, M. C. Jones. L.: Chapman and Hall/CRC, 1995.
  • John G., Langley P. Estimating continuous distributions in Bayesian classifiers//UAI’95: Proc. of the 11th conf. on uncertainty in artificial intelligence, Quebec (Canada), 1995. San Francisco: Morgan Kaufmann, 1995. P. 338-345.
  • Guyon I., Elisseeff A. An introduction to variable and feature selection//J. Machine Learn. Res. 2003. V. 3. P. 1157-1182.
  • Moore A. W. Discrete content-based classification -a data set: Tech. report/Intel Res. Cambridge, 2005.
  • Lin Y-D., Lu Ch-N., Lai Y-Ch., et al. Application classification using packet size distribution and port association//J. Network Computer Appl. 2009. V. 32. P. 1023-1030.
  • Hu Y., Chiu D-M., Lui J. C. S. Profiling and identification of P2P traffic//Comput. Networks. 2009. V. 53. P. 849-863.
  • Agrawal R., Srikant R. Fast algorithms for mining association rules//Proc. of the 20th VLDB conf., Santiago de Chile (Chile), Sept. 12-15, 1994. San Francisco: Morgan Kaufmann, 1994. P. 487-499.
  • Paxson V. Bro: A system for detecting network intruders in real-time//Comput. Networks. 1999. V. 31, N 23/24. P. 2435-2463.
  • Li W., Canini M., Moore A. W., Bolla R. Efficient application identification and the temporal and spatial stability of classification schema//Comput. Networks. 2009. V. 53, N 6. P. 790-809.
  • Williams N., Zander S., Armitage G. A preliminary performance comparison of five machine learning algorithms for practical IP traffic flow classification//SIGCOMM Comput. Commun. Rev. 2006. V. 36, iss. 5. P. 5-16.
  • Lim T.-S., Loh W.-Y., Shih Y.-S. A comparison of prediction accuracy, complexity, and training time of thirty-three old and new classification algorithms//Machine Learn. 2000. V. 40, iss. 3. P. 203-229.
  • Canini M., Li W., Moore A. W., Bolla R. GTVS: Boosting the collection of application traffic ground truth//Lecture Notes Comput. Sci. 2009. V. 5537. P. 54-63.
  • Transmission Control Protocol. [Electron. resource]. http://www.ietf.org/rfc/rfc793.txt.
  • Internet assigned numbers authority (IANA). [Electron. resource]. http://www.iana.org/assignements/port-numbes.
  • Moore A. W., Papagiannaki K. Toward the accurate identification of network applications//Lecture Notes Comput. Sci. 2005. V. 3431. P. 41-54.
  • Application layer packet classifier for Linux. [Electron. resource]. l7-filter.sourceforge.net.
Еще
Статья научная