Великі дані можна класифікувати структуровані, напівструктуровані та неструктуровані дані. Структуровані дані добре впорядковані та акуратно вписуються в традиційні бази даних. Напівструктуровані дані, такі як JSON або XML, є частково організованими, тоді як неструктуровані дані, такі як текст або мультимедіа, не мають попередньо визначеної структури.
У цій статті ми досліджуємо різні типи даних, зокрема структуровані дані, неструктуровані дані та великі дані. Дані — це будь-яка інформація. У контексті бізнесу та обчислювальної техніки ми матимемо справу (здебільшого) з інформацією у машиночитаному форматі.
Є три визначальні властивості, які можуть допомогти розбити термін. Названий трьома Vs; обсяг, швидкість і різноманітність, це ключ до розуміння того, як ми можемо вимірювати великі дані та наскільки сильно відрізняються «великі дані» від старомодних даних.
Три основні компоненти великих даних:
- Обсяг (великий обсяг даних)
- Velocity (висока швидкість генерації даних)
- Різноманітність (різні формати даних)
Основні джерела великих даних можна згрупувати за заголовками соціальний (людський), машинний (сенсорний) і транзакційний.
Класифікація даних зазвичай включає три категорії: Конфіденційні, внутрішні та публічні дані. Обмеження вашої політики кількома простими типами полегшить класифікацію всієї інформації, якою володіє ваша організація, щоб ви могли зосередити ресурси на захисті найважливішої інформації.