Анализ эффективности методов обработки больших массивов данных с использованием вычислительных систем

Автор: Рыговский Иван

Журнал: Проблемы информатики @problem-info

Рубрика: Вычислительные и сетевые ресурсы

Статья в выпуске: 2 (23), 2014 года.

Бесплатный доступ

Производится обзор проблемы обработки больших массивов данных методами интеллектуального анализа данных, и дается сравнительный анализ методов для решения различных типов задач на вычислительных системах с различной архитектурой. Основным критерием для сравнения выбрана эффективность решения поставленной задачи на сверхбольших массивах данных с использованием в перспективе вычислительных систем экзофлопсной производительности.

Анализ данных, вычислительные системы, параллельные алгоритмы, распределенные файловые системы, большие массивы данных

Короткий адрес: https://sciup.org/14320242

IDR: 14320242

Список литературы Анализ эффективности методов обработки больших массивов данных с использованием вычислительных систем

  • HAN, J. AND M. KAMBER, Data Mining: Concepts and Techniques, Morgan Kauf¬mann, San. Fran-cisco, 2000 [Электронный ресурс]. Режим доступа: http://media.wiley.com/product_data/excerpt/24/04712285/0471228524-1.pdf.
  • MIKE2.0, Big Data Definition [Электронный ресурс]. Режим доступа: http://mike2.openmethodology.org/wiki/Big_Data_Definition.
  • А. В. КАРЕВА, И. А. РЫГОВСКИЙ. Система хранения и постобработки данных трафика научного учреждения//Труды конференции молодых ученых, Новосибирск. 2011. С. 114-121.
  • BaseGroup Labs -Масштабируемый алгоритм, Scalable Alghorithm. [Электронный ресурс]. Режим доступа: http://www.basegroup.ru/glossary/definitions/scalable_algorithm/.
  • Parallel computing and Monte Carlo algorithms by Jeffrey S. Rosenthal//Far East Journal of Theoretical Statistics. N 4. 2000. P. 207-236.
  • WEIZHONG ZHAO, HUIFANG MA AND QING HE. Parallel K-Means Clustering Based on Map¬Redu-ce, 2009. 7. CLARK F. OLSON, Parallel algorithms for Hierarchical clustering, 1995. [Электронный ресурс]. Режим доступа: http://www.cs.gsu.edu/~wkim/index_files/papers/parallel_hierarchical.pdf.
  • Parallel Algorithms for Hierarchical Clustering and Cluster Validity, Xiaobo Li. [Электронный ресурс]. Режим доступа: http://www.cs.gsu.edu/~wkim/index_files/papers/parallelhierarchical.pdf.
  • OpenMP Consortium [Электронный ресурс]. Режим доступа: http://www.openmp.org. 10. MPI: A Message-Passing Interface Standard. [Электронный ресурс]. Режим доступа: http://www.mpi-forum.org/docs/docs.html.
  • Design an MPI-based parallel and distributed machine learning platform on large-scale HPC clusters, Zhi-Jie Yan Teng Gao Qiang Huo. [Электронный ресурс]. Режим доступа: http://www.ism.ac.jp/IWSML2012/r1.pdf.
  • The R Project for Statistical Computing. [Электронный ресурс]. Официальный сайт проекта R Project. Режим доступа: http://www.r-project.org.
  • Google’s MapReduce Programming Model -Revisited, Ralf Lammel. [Электронный ресурс]. Режим доступа: http://userpages.uni-koblenz.de/~laemmel/MapReduce/paper.pdf.
  • M. STONEBRAKER ET AL. Requirements for science data bases and SciDB. In CIDR, 2009. [Электронный ресурс]. Режим доступа: http://www-db.cs.wisc.edu/cidr/cidr2009/Paper_26.pdf.
  • J. CHOI ET AL. ScaLAPACK: a portable linear algebra library for distribu¬ted me¬mo¬ry compu-ters -design issues and performance. Computer Physics Communications, 97(1-2), 1996, High-Performance Computing in Science. [Электронный ресурс]. Режим доступа: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.38.7367.
  • NoSQL vs. Parallel DBMS for Large-scale Data Management, Kyu-Young Whang, 2011. [Электронный ресурс]. Режим доступа: http://www.cintec.cuhk.edu.hk/DASFAA2011/doc/KyuYoungWhang-Panel.pdf.
  • DFS Architecture Guide. [Электронный ресурс]. Режим доступа: https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html.
Еще
Статья научная