ಮನೆ ಬಾಯಿಯಿಂದ ವಾಸನೆ ಎಲ್ಲಿ ಅಧ್ಯಯನ ಮಾಡಬೇಕು ಡೇಟಾ ವಿಜ್ಞಾನಿ. ಡೇಟಾ ವಿಜ್ಞಾನ ಎಂದರೇನು ಮತ್ತು ಅದು ಹೇಗೆ ಕೆಲಸ ಮಾಡುತ್ತದೆ? ವೀಡಿಯೊ: ಹೊಸ ವಿಶೇಷತೆ "ಬಿಗ್ ಡೇಟಾ" - ಮಿಖಾಯಿಲ್ ಲೆವಿನ್

ಎಲ್ಲಿ ಅಧ್ಯಯನ ಮಾಡಬೇಕು ಡೇಟಾ ವಿಜ್ಞಾನಿ. ಡೇಟಾ ವಿಜ್ಞಾನ ಎಂದರೇನು ಮತ್ತು ಅದು ಹೇಗೆ ಕೆಲಸ ಮಾಡುತ್ತದೆ? ವೀಡಿಯೊ: ಹೊಸ ವಿಶೇಷತೆ "ಬಿಗ್ ಡೇಟಾ" - ಮಿಖಾಯಿಲ್ ಲೆವಿನ್

ಡೇಟಾ ವಿಶ್ಲೇಷಕರಾಗುವುದು, ಡೇಟಾ ವಿಜ್ಞಾನವನ್ನು ಅಧ್ಯಯನ ಮಾಡುವುದು ಹೇಗೆ ಎಂದು ಕಂಡುಹಿಡಿಯಲು ನೀವು ದೀರ್ಘಕಾಲ ಬಯಸಿದ್ದೀರಾ, ಆದರೆ ಎಲ್ಲಿಂದ ಪ್ರಾರಂಭಿಸಬೇಕು ಎಂದು ತಿಳಿದಿಲ್ಲವೇ? ಹಾಗಾದರೆ ಈ ಲೇಖನ ನಿಮಗಾಗಿ.

ನಮ್ಮಲ್ಲಿ ಯಾರು "ದೊಡ್ಡ ಡೇಟಾ" ಬಗ್ಗೆ ಕೇಳಿಲ್ಲ? ಕನಿಷ್ಠ ಒಂದು ಇರುತ್ತದೆ ಎಂಬುದು ಅಸಂಭವವಾಗಿದೆ. IN ಹಿಂದಿನ ವರ್ಷಗಳುಡೇಟಾದೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವ ಆಸಕ್ತಿಯು ಗಮನಾರ್ಹವಾಗಿ ಬೆಳೆದಿದೆ, ಏಕೆಂದರೆ ದೊಡ್ಡ ಐಟಿ ಕಂಪನಿಗಳು ಡೇಟಾವನ್ನು ವಿಶ್ಲೇಷಿಸಲು, ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಲು ಮತ್ತು ತರುವಾಯ ಬಳಸುವುದಕ್ಕಾಗಿ ಹೆಚ್ಚು ಹೆಚ್ಚು ಹೊಸ ಪರಿಹಾರಗಳೊಂದಿಗೆ ಬರಬೇಕಾಗುತ್ತದೆ. ಕೆಲವು ಲಾಂಚ್ ಕೂಡ ಕಲಿಕೆಯ ಕಾರ್ಯಕ್ರಮಗಳುವಿಶ್ವವಿದ್ಯಾಲಯಗಳ ಜೊತೆಗೆ. ಆದಾಗ್ಯೂ, ಹೆಚ್ಚಿನ ಜನರಿಗೆ ಡೇಟಾ ವಿಶ್ಲೇಷಕರು ಯಾವ ರೀತಿಯ ಜನರು ಎಂಬುದರ ಬಗ್ಗೆ ತಿಳುವಳಿಕೆಯನ್ನು ಹೊಂದಿಲ್ಲ. ನೀವು ಅಂತಹ ಜನರಲ್ಲಿ ಒಬ್ಬರಾಗಿದ್ದರೆ ಮತ್ತು ಡೇಟಾ ವಿಶ್ಲೇಷಕರಾಗುವ ಬಯಕೆಯನ್ನು ಹೊಂದಿದ್ದರೆ, ಈ ಲೇಖನ ನಿಮಗಾಗಿ ಆಗಿದೆ. ನಿಮ್ಮ ಸ್ಥಳವನ್ನು ಲೆಕ್ಕಿಸದೆ ನೀವು ಬಳಸಬಹುದಾದ ಉಚಿತ ತರಬೇತಿ ಪರಿಕರಗಳನ್ನು ಮಾತ್ರ ನಾವು ಆಯ್ಕೆ ಮಾಡಿದ್ದೇವೆ.

ಡೇಟಾ ವಿಶ್ಲೇಷಕರು ಏನು ಮಾಡುತ್ತಾರೆ?

ಡೇಟಾ ವಿಶ್ಲೇಷಕರು ಎಂದು ಕರೆಯಲ್ಪಡುವವರು ದೃಷ್ಟಿಗೋಚರ, ಮಾನವ-ಗ್ರಹಿಕೆಯ ಫಲಿತಾಂಶಗಳನ್ನು ಪಡೆಯಲು ಅದರ ಮಾಹಿತಿ ಮತ್ತು ವಿಶ್ಲೇಷಣೆಯಲ್ಲಿ ತೊಡಗಿದ್ದಾರೆ. ಅಂತಹ ಜನರು ಸಾಮಾನ್ಯವಾಗಿ ದೊಡ್ಡ ಡೇಟಾ, ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ, ಯಂತ್ರ ಕಲಿಕೆ, ಸಿಸ್ಟಮ್ ವಿಶ್ಲೇಷಣೆ ಮತ್ತು ವ್ಯಾಪಾರ ವಿಶ್ಲೇಷಕರಲ್ಲಿ ಪರಿಣಿತರನ್ನು ಒಳಗೊಳ್ಳುತ್ತಾರೆ.

ಏನು ವೀಕ್ಷಿಸಲು

Yandex ನಿಂದ "ಸ್ಕೂಲ್ ಆಫ್ ಡೇಟಾ ಅನಾಲಿಸಿಸ್" ಉಪನ್ಯಾಸಗಳು

SHAD - ಯಾಂಡೆಕ್ಸ್ ಉದ್ಯೋಗಿಗಳಿಂದ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆಯ ಕೋರ್ಸ್‌ಗಳು. ಅರ್ಜಿದಾರರಿಗೆ ಅಗತ್ಯವಿರುವ ಕನಿಷ್ಠವು ಹೆಚ್ಚಿನ ಬೀಜಗಣಿತದ ಮೂಲ ವಿಭಾಗಗಳಾಗಿವೆ,ಗಣಿತದ ವಿಶ್ಲೇಷಣೆ, ಸಂಯೋಜನೆ, ಸಂಭವನೀಯತೆ ಸಿದ್ಧಾಂತ, ಹಾಗೆಯೇ ಪ್ರೋಗ್ರಾಮಿಂಗ್‌ನ ಮೂಲಭೂತ ಅಂಶಗಳು. ಅದೃಷ್ಟವಶಾತ್, ಕೋರ್ಸ್‌ಗಳನ್ನು ರೆಕಾರ್ಡ್ ಮಾಡಲಾಗಿದೆ ಇದರಿಂದ ಪ್ರತಿಯೊಬ್ಬರೂ ವೀಡಿಯೊ ಉಪನ್ಯಾಸಗಳಿಂದ ಕಲಿಯಬಹುದು.

ಯಂತ್ರ ಕಲಿಕೆಯ ಕೋರ್ಸ್

ಸಂಭವನೀಯತೆ ಸಿದ್ಧಾಂತ ಮತ್ತು ಅಂಕಿಅಂಶಗಳನ್ನು ಹೇಗೆ ಅನ್ವಯಿಸಬೇಕು ಎಂಬುದನ್ನು ಕೋರ್ಸ್ ಕಲಿಸುತ್ತದೆ, ಯಂತ್ರ ಕಲಿಕೆಯ ಮೂಲಭೂತ ವಿಷಯಗಳ ಬಗ್ಗೆ ಮಾತನಾಡುತ್ತದೆ ಮತ್ತು ಅಲ್ಗಾರಿದಮ್‌ಗಳನ್ನು ಹೇಗೆ ನಿರ್ಮಿಸುವುದು ಎಂದು ಕಲಿಸುತ್ತದೆ

ಕೋರ್ಸ್ "ಸರ್ಚ್ ಡೇಟಾ ಅಲ್ಗಾರಿದಮ್ಸ್ ಮತ್ತು ಸ್ಟ್ರಕ್ಚರ್ಸ್"

ಉಪನ್ಯಾಸಗಳು ದೊಡ್ಡ ಪ್ರಮಾಣದ ಡೇಟಾ, ಅಲ್ಗಾರಿದಮ್‌ಗಳು ಮತ್ತು ಸ್ಟ್ರಿಂಗ್ ಮ್ಯಾನಿಪ್ಯುಲೇಷನ್, ಗ್ರಾಫ್-ಸೈದ್ಧಾಂತಿಕ ಕ್ರಮಾವಳಿಗಳು, ದತ್ತಾಂಶ ರಚನೆಗಳ ನಿರ್ಮಾಣ ಮತ್ತು ವಿಶ್ಲೇಷಣೆಯನ್ನು ಹುಡುಕಲು ಮತ್ತು ವಿಂಗಡಿಸಲು ಅಲ್ಗಾರಿದಮ್‌ಗಳನ್ನು ಒಳಗೊಂಡಿದೆ.

ಕೋರ್ಸ್ "ಸಮಾನಾಂತರ ಮತ್ತು ವಿತರಣೆ ಕಂಪ್ಯೂಟಿಂಗ್"

ಬಹು-ಥ್ರೆಡ್ ಮತ್ತು ಸಮಾನಾಂತರ ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಜೊತೆಗೆ ಮ್ಯಾಪ್‌ರೆಡ್ಯೂಸ್‌ನೊಂದಿಗೆ ಪರಿಚಯ ಮಾಡಿಕೊಳ್ಳಲು ದೀರ್ಘಕಾಲ ಬಯಸಿದವರಿಗೆ.

ಕೋರ್ಸ್ "ಡಿಸ್ಕ್ರೀಟ್ ಅನಾಲಿಸಿಸ್ ಮತ್ತು ಪ್ರಾಬಬಿಲಿಟಿ ಥಿಯರಿ"

ಕೋರ್ಸ್ ಮೂಲ ಪರಿಕಲ್ಪನೆಗಳು ಮತ್ತು ಸಂಯೋಜಿತ, ಪ್ರತ್ಯೇಕ ಮತ್ತು ಲಕ್ಷಣರಹಿತ ವಿಶ್ಲೇಷಣೆ, ಸಂಭವನೀಯತೆ ಸಿದ್ಧಾಂತ, ಅಂಕಿಅಂಶಗಳ ವಿಧಾನಗಳನ್ನು ಪರಿಶೀಲಿಸುತ್ತದೆ ಮತ್ತು ಅವುಗಳ ಅನ್ವಯವನ್ನು ಪ್ರದರ್ಶಿಸುತ್ತದೆ.

ಕೋರ್ಸ್ "ಕಂಪ್ಯೂಟೇಶನಲ್ ಸಂಕೀರ್ಣತೆ"

ಕೋರ್ಸ್ ಅನ್ನು ವೀಕ್ಷಿಸಿದ ನಂತರ, ಸಂಭವನೀಯ ಸಂಕೀರ್ಣತೆಯ ತರಗತಿಗಳು ಮತ್ತು ಡೇಟಾವನ್ನು ವಿಶ್ಲೇಷಿಸಲು ಮತ್ತು ನಿರ್ಮಿಸಲು ಮೂಲಭೂತ ತಂತ್ರಗಳ ಬಗ್ಗೆ ನೀವು ಕಲಿಯುವಿರಿ.

ಉಪನ್ಯಾಸಗಳು Technostream Mail.ru ಗುಂಪು

ಕೋರ್ಸ್ ಕಾರ್ಯಕ್ರಮಗಳು ಹಲವಾರು ಮಾಸ್ಕೋ ವಿಶ್ವವಿದ್ಯಾಲಯಗಳ ವಿದ್ಯಾರ್ಥಿಗಳಿಗೆ ಉದ್ದೇಶಿಸಲಾಗಿದೆ, ಆದರೆ ಯಾರಿಗಾದರೂ ಲಭ್ಯವಿದೆ. ಭವಿಷ್ಯದ ವಿಶ್ಲೇಷಕರಿಗೆ ಈ ಕೆಳಗಿನ ಉಪನ್ಯಾಸಗಳ ಸಂಗ್ರಹಗಳನ್ನು ನಾವು ಶಿಫಾರಸು ಮಾಡುತ್ತೇವೆ:

ಉಪನ್ಯಾಸಗಳು ಬಿಗ್ ಡೇಟಾ ವಿಶ್ವವಿದ್ಯಾಲಯ

ಬಿಗ್ ಡೇಟಾ ವಿಶ್ವವಿದ್ಯಾಲಯ - ಆನ್ಲೈನ್ ​​ಕೋರ್ಸ್, ಆರಂಭಿಕರಿಗಾಗಿ ಮತ್ತು ಗಣಿತದ ಹಿನ್ನೆಲೆಯಿಲ್ಲದ ಜನರಿಗೆ IBM ನೊಂದಿಗೆ ಜಂಟಿಯಾಗಿ ರಚಿಸಲಾಗಿದೆ. ಡೇಟಾದೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವ ಮೂಲಭೂತ ಅಂಶಗಳನ್ನು ತಿಳಿದುಕೊಳ್ಳಲು ನಿಮಗೆ ಸಹಾಯ ಮಾಡುವ ಉಪನ್ಯಾಸಗಳನ್ನು ಸ್ಪಷ್ಟ ಇಂಗ್ಲಿಷ್‌ನಲ್ಲಿ ದಾಖಲಿಸಲಾಗಿದೆ.

ವೆಲ್ಚ್ ಲ್ಯಾಬ್ಸ್

ಈ ಚಾನಲ್ ಗಣಿತ, ಕಂಪ್ಯೂಟರ್ ವಿಜ್ಞಾನ, ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಮತ್ತು ಯಂತ್ರ ಕಲಿಕೆಯ ಕುರಿತು ಉಪನ್ಯಾಸಗಳನ್ನು ಒಳಗೊಂಡಿದೆ. ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ, ಅಧ್ಯಯನ ಮಾಡಲಾದ ವಿಷಯಗಳ ಅನ್ವಯದ ಉದಾಹರಣೆಗಳನ್ನು ನೀಡಲಾಗುತ್ತದೆ ನಿಜ ಜೀವನ. ಉಪನ್ಯಾಸಗಳು ಇಂಗ್ಲಿಷ್ನಲ್ಲಿವೆ, ಆದರೆ ಅತ್ಯುತ್ತಮ ರಷ್ಯನ್ ಉಪಶೀರ್ಷಿಕೆಗಳಿವೆ.

ಸರಿ" ರಚನಾತ್ಮಕ ಡೇಟಾದಿಂದ ಕಲಿಕೆ: ಸಂಭವನೀಯ ಗ್ರಾಫಿಕಲ್ ಮಾದರಿಗಳಿಗೆ ಒಂದು ಪರಿಚಯ"ಫ್ಯಾಕಲ್ಟಿ ಆಫ್ ಕಂಪ್ಯೂಟರ್ ಸೈನ್ಸ್, ನ್ಯಾಷನಲ್ ರಿಸರ್ಚ್ ಯೂನಿವರ್ಸಿಟಿ ಹೈಯರ್ ಸ್ಕೂಲ್ ಆಫ್ ಎಕನಾಮಿಕ್ಸ್

ಅಂತಹ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸುವ ಅತ್ಯಂತ ಜನಪ್ರಿಯ ವಿಧಾನಗಳ ಸಿದ್ಧಾಂತ ಮತ್ತು ಅನ್ವಯಗಳ ಆಳವಾದ ಪರಿಚಯದ ಮೇಲೆ ಕೋರ್ಸ್ ಕೇಂದ್ರೀಕೃತವಾಗಿದೆ - ಡಿಸ್ಕ್ರೀಟ್ ಪ್ರಾಬಬಿಲಿಸ್ಟಿಕ್ ಗ್ರಾಫಿಕ್ ಮಾದರಿಗಳು. ಕೋರ್ಸ್‌ನ ಭಾಷೆ ಇಂಗ್ಲಿಷ್ ಆಗಿದೆ.

ಚಾನಲ್ ಸೆಂಡೆಕ್ಸ್

ಚಾನಲ್ ಡೇಟಾದೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಲು ಸಂಪೂರ್ಣವಾಗಿ ಸಮರ್ಪಿಸಲಾಗಿದೆ. ಇದಲ್ಲದೆ, ಗಣಿತದಲ್ಲಿ ಆಸಕ್ತಿ ಹೊಂದಿರುವವರು ಮಾತ್ರವಲ್ಲದೆ ತಮಗಾಗಿ ಉಪಯುಕ್ತವಾದ ವಿಷಯಗಳನ್ನು ಕಂಡುಕೊಳ್ಳುತ್ತಾರೆ. ರಾಸ್ಪರ್ರಿ ಪೈ ಅನ್ನು ಬಳಸಿಕೊಂಡು ಹಣಕಾಸು ವಿಶ್ಲೇಷಕರು ಮತ್ತು ರೊಬೊಟಿಕ್ಸ್ಗಾಗಿ ವಿಶ್ಲೇಷಣೆ ಮತ್ತು ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಕುರಿತು ವೀಡಿಯೊಗಳಿವೆ.

ಸಿರಾಜ್ ರಾವಲ್ ಚಾನೆಲ್

ವ್ಯಕ್ತಿ ಮಾತನಾಡುತ್ತಾನೆ ಆಧುನಿಕ ತಂತ್ರಜ್ಞಾನಗಳುಮತ್ತು ಅವರೊಂದಿಗೆ ಹೇಗೆ ಕೆಲಸ ಮಾಡುವುದು. ಆಳವಾದ ಕಲಿಕೆ, ಡೇಟಾ ವಿಜ್ಞಾನ ಮತ್ತು ಯಂತ್ರ ಕಲಿಕೆಯ ಕೋರ್ಸ್‌ಗಳು ಡೇಟಾದೊಂದಿಗೆ ಹೇಗೆ ಕೆಲಸ ಮಾಡಬೇಕೆಂದು ತಿಳಿಯಲು ನಿಮಗೆ ಸಹಾಯ ಮಾಡುತ್ತದೆ.

ಡೇಟಾ ಸ್ಕೂಲ್ ಚಾನಲ್

ನೀವು ಯಂತ್ರ ಕಲಿಕೆಯ ಬಗ್ಗೆ ಏನನ್ನಾದರೂ ಕೇಳಿದ್ದರೆ, ಆದರೆ ಈಗಾಗಲೇ ಆಸಕ್ತಿ ಹೊಂದಿದ್ದರೆ, ಈ ಚಾನಲ್ ನಿಮಗಾಗಿ ಆಗಿದೆ. ಲೇಖಕರು ಅರ್ಥವಾಗುವ ಮಟ್ಟದಲ್ಲಿ ವಿವರಿಸುತ್ತಾರೆ, ಉದಾಹರಣೆಗಳೊಂದಿಗೆ, ಅದು ಏನು, ಅದು ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ ಮತ್ತು ಅದನ್ನು ಎಲ್ಲಿ ಬಳಸಲಾಗುತ್ತದೆ.

ಎಲ್ಲಿ ಅಭ್ಯಾಸ ಮಾಡಬೇಕು

ಉಪನ್ಯಾಸಗಳನ್ನು ನೋಡುವ ಮೂಲಕ ಅವರು ಸಂಪೂರ್ಣವಾಗಿ ಸ್ವತಂತ್ರವಾಗಿ ಅಧ್ಯಯನ ಮಾಡಲು ಸಿದ್ಧರಾಗಿದ್ದಾರೆ ಎಂದು ಖಚಿತವಾಗಿರದವರಿಗೆ, ಪರಿಶೀಲನೆಯೊಂದಿಗೆ ಕಾರ್ಯಗಳೊಂದಿಗೆ ಆನ್‌ಲೈನ್ ಕೋರ್ಸ್‌ಗಳಿವೆ.

Coursera ನಲ್ಲಿ ಡೇಟಾ ಸೈನ್ಸ್ ಕೋರ್ಸ್‌ಗಳು

ಇದು ಯಾವ ರೀತಿಯ ವೇದಿಕೆ ಎಂದು ವಿವರಿಸುವ ಅಗತ್ಯವಿಲ್ಲ. ನೀವು ಕೋರ್ಸ್ ಅನ್ನು ಆಯ್ಕೆ ಮಾಡಿಕೊಳ್ಳಬೇಕು ಮತ್ತು ಅಧ್ಯಯನವನ್ನು ಪ್ರಾರಂಭಿಸಬೇಕು.

Stepik.org

R ನಲ್ಲಿ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ

ಮೊದಲ ಭಾಗವು R ನಲ್ಲಿ ಅಂಕಿಅಂಶಗಳ ವಿಶ್ಲೇಷಣೆಯ ಎಲ್ಲಾ ಮುಖ್ಯ ಹಂತಗಳನ್ನು ಒಳಗೊಂಡಿದೆ, ಡೇಟಾವನ್ನು ಓದುವುದು, ಡೇಟಾವನ್ನು ಪೂರ್ವಭಾವಿಯಾಗಿ ಸಂಸ್ಕರಿಸುವುದು, ಮೂಲ ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯ ವಿಧಾನಗಳನ್ನು ಅನ್ವಯಿಸುವುದು ಮತ್ತು ಫಲಿತಾಂಶಗಳನ್ನು ದೃಶ್ಯೀಕರಿಸುವುದು. ಆರ್ ಭಾಷೆಯಲ್ಲಿ ಪ್ರೋಗ್ರಾಮಿಂಗ್‌ನ ಮೂಲಭೂತ ಅಂಶಗಳನ್ನು ವಿದ್ಯಾರ್ಥಿಗಳು ಕಲಿಯುತ್ತಾರೆ, ಇದು ಡೇಟಾವನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವಾಗ ಉಂಟಾಗುವ ವ್ಯಾಪಕ ಶ್ರೇಣಿಯ ಸಮಸ್ಯೆಗಳನ್ನು ತ್ವರಿತವಾಗಿ ಮತ್ತು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಪರಿಹರಿಸಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ.

ಎರಡನೆಯ ಭಾಗವು ಮೊದಲನೆಯದರಲ್ಲಿ ಒಳಗೊಂಡಿರದ ಹಲವಾರು ಸುಧಾರಿತ ವಿಷಯಗಳನ್ನು ಒಳಗೊಂಡಿದೆ: data.table ಮತ್ತು dplyr ಪ್ಯಾಕೇಜ್‌ಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಡೇಟಾ ಪ್ರಿಪ್ರೊಸೆಸಿಂಗ್, ಸುಧಾರಿತ ದೃಶ್ಯೀಕರಣ ತಂತ್ರಗಳು, R ಮಾರ್ಕ್‌ಡೌನ್‌ನಲ್ಲಿ ಕೆಲಸ ಮಾಡುವುದು.

ಡೇಟಾಬೇಸ್‌ಗಳ ಪರಿಚಯ

DBMS ಗೆ ಧುಮುಕುವುದು

ಸಂಬಂಧಿತ DBMS ನೊಂದಿಗೆ ಸ್ವಲ್ಪ ಅನುಭವವನ್ನು ಹೊಂದಿರುವವರಿಗೆ ಮತ್ತು ಅವರು ಹೇಗೆ ಕೆಲಸ ಮಾಡುತ್ತಾರೆ ಎಂಬುದರ ಕುರಿತು ಇನ್ನಷ್ಟು ತಿಳಿದುಕೊಳ್ಳಲು ಬಯಸುವವರಿಗೆ ಕೋರ್ಸ್ ಆಗಿದೆ. ಕೋರ್ಸ್ ಒಳಗೊಂಡಿದೆ:

  • ಡೇಟಾಬೇಸ್ ಸ್ಕೀಮಾ ವಿನ್ಯಾಸ;
  • ವಹಿವಾಟು ನಿರ್ವಹಣೆ;
  • ಪ್ರಶ್ನೆ ಆಪ್ಟಿಮೈಸೇಶನ್;
  • ಸಂಬಂಧಿತ DBMS ನ ಹೊಸ ವೈಶಿಷ್ಟ್ಯಗಳು

ಹಡೂಪ್. ದೊಡ್ಡ ಪ್ರಮಾಣದ ಡೇಟಾವನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವ ವ್ಯವಸ್ಥೆ

ಹಡೂಪ್ ವ್ಯವಸ್ಥೆಯನ್ನು ಬಳಸಿಕೊಂಡು ಹೆಚ್ಚಿನ ಪ್ರಮಾಣದ ಡೇಟಾವನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವ ವಿಧಾನಗಳಿಗೆ ಕೋರ್ಸ್ ಮೀಸಲಾಗಿದೆ. ಕೋರ್ಸ್ ಅನ್ನು ಪೂರ್ಣಗೊಳಿಸಿದ ನಂತರ, ನೀವು ದೊಡ್ಡ ಪ್ರಮಾಣದ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸುವ ಮತ್ತು ಸಂಸ್ಕರಿಸುವ ಮೂಲ ವಿಧಾನಗಳ ಜ್ಞಾನವನ್ನು ಪಡೆಯುತ್ತೀರಿ, ಹಡೂಪ್ ಚೌಕಟ್ಟಿನ ಸಂದರ್ಭದಲ್ಲಿ ವಿತರಿಸಿದ ವ್ಯವಸ್ಥೆಗಳ ತತ್ವಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಿ ಮತ್ತು MapReduce ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಮಾದರಿಯನ್ನು ಬಳಸಿಕೊಂಡು ಪ್ರಾಯೋಗಿಕ ಅಪ್ಲಿಕೇಶನ್ ಅಭಿವೃದ್ಧಿ ಕೌಶಲ್ಯಗಳನ್ನು ಕರಗತ ಮಾಡಿಕೊಳ್ಳುತ್ತೀರಿ.

ಇಂದು ಅನೇಕ ಉದ್ಯೋಗದಾತರು ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳನ್ನು ಸಕ್ರಿಯವಾಗಿ ಹುಡುಕುತ್ತಿದ್ದಾರೆ. ಅದೇ ಸಮಯದಲ್ಲಿ, ಸೂಕ್ತವಾದ ಶಿಕ್ಷಣವನ್ನು ಹೊಂದಿರುವ "ವಿಜ್ಞಾನಿಗಳನ್ನು" ಆಕರ್ಷಿಸಲು ಅವರು ಆಸಕ್ತಿ ಹೊಂದಿದ್ದಾರೆ. ಅದೇ ಸಮಯದಲ್ಲಿ, ಮಾರುಕಟ್ಟೆಯು ತುಂಬಿರುವ ಎಲ್ಲಾ ತಪ್ಪು ಮಾಹಿತಿಯನ್ನು ನೀವು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳಬೇಕಾಗುತ್ತದೆ. ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್‌ಗಳು ಮತ್ತು ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್‌ಗಳ ಬಗ್ಗೆ ದೊಡ್ಡ ತಪ್ಪು ಕಲ್ಪನೆಗಳು, ಅವರು ಹೊಂದಿರಬೇಕಾದ ಕೌಶಲ್ಯಗಳು ಮತ್ತು ಈ ಅಪರೂಪದ ತಳಿ ಯಾರು ಎಂಬುದರ ಕುರಿತು ನಾವು ನಿಮಗೆ ಹೇಳುತ್ತೇವೆ.

ಡೇಟಾ ಸೈನ್ಸ್(ಡೇಟಾ ಸೈನ್ಸ್) ಕಂಪ್ಯೂಟರ್ ವಿಜ್ಞಾನದ ಒಂದು ಶಾಖೆಯಾಗಿದ್ದು ಅದು ಡಿಜಿಟಲ್ ರೂಪದಲ್ಲಿ ಡೇಟಾವನ್ನು ವಿಶ್ಲೇಷಿಸುವ, ಸಂಸ್ಕರಿಸುವ ಮತ್ತು ಪ್ರಸ್ತುತಪಡಿಸುವ ಸಮಸ್ಯೆಗಳನ್ನು ಅಧ್ಯಯನ ಮಾಡುತ್ತದೆ. ದತ್ತಾಂಶ ವಿಜ್ಞಾನವು ದೊಡ್ಡ ಪ್ರಮಾಣದಲ್ಲಿ ಡೇಟಾವನ್ನು ಸಂಸ್ಕರಿಸುವ ವಿಧಾನಗಳು ಮತ್ತು ಹೆಚ್ಚಿನ ಮಟ್ಟದ ಸಮಾನಾಂತರತೆ, ಅಂಕಿಅಂಶಗಳ ವಿಧಾನಗಳು, ಡೇಟಾ ಗಣಿಗಾರಿಕೆ ವಿಧಾನಗಳು ಮತ್ತು ಡೇಟಾದೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಲು ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ ಅಪ್ಲಿಕೇಶನ್‌ಗಳು, ಹಾಗೆಯೇ ಡೇಟಾಬೇಸ್‌ಗಳನ್ನು ವಿನ್ಯಾಸಗೊಳಿಸುವ ಮತ್ತು ಅಭಿವೃದ್ಧಿಪಡಿಸುವ ವಿಧಾನಗಳನ್ನು ಸಂಯೋಜಿಸುತ್ತದೆ. ಶೈಕ್ಷಣಿಕ ಶಿಸ್ತು ಎಂದು ಪರಿಗಣಿಸಲಾಗಿದೆ. 2010 ರ ದಶಕದ ಆರಂಭದಿಂದಲೂ, ಇದು ಚಟುವಟಿಕೆಯ ಪ್ರಾಯೋಗಿಕ ಇಂಟರ್ಸೆಕ್ಟೋರಲ್ ಕ್ಷೇತ್ರವಾಗಿ ಸ್ಥಾನ ಪಡೆದಿದೆ. 2010 ರ ದಶಕದ ಆರಂಭದಿಂದಲೂ, "ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್" ವಿಶೇಷತೆಯನ್ನು ಅತಿ ಹೆಚ್ಚು ಸಂಭಾವನೆ ಪಡೆಯುವ, ಆಕರ್ಷಕ ಮತ್ತು ಭರವಸೆಯ ವೃತ್ತಿಗಳಲ್ಲಿ ಒಂದೆಂದು ಪರಿಗಣಿಸಲಾಗಿದೆ.

ಡೇಟಾ ಸೈನ್ಸ್ ತಪ್ಪುಗ್ರಹಿಕೆಗಳು

1. ದೊಡ್ಡ ಡೇಟಾವು ಅಂಕಿಅಂಶಗಳು ಮತ್ತು ಹೆಚ್ಚಿನ ಪ್ರಮಾಣದ ಡೇಟಾದೊಂದಿಗೆ ವ್ಯಾಪಾರ ವಿಶ್ಲೇಷಣೆಯಾಗಿದೆ. ಇಲ್ಲಿ ಹೊಸದೇನೂ ಇಲ್ಲ

ಈ ಅಭಿಪ್ರಾಯವನ್ನು ಮುಖ್ಯವಾಗಿ ಸಾಫ್ಟ್‌ವೇರ್ ಅಭಿವೃದ್ಧಿಯಲ್ಲಿ ಸೀಮಿತ ಅನುಭವ ಹೊಂದಿರುವ ಅಥವಾ ಯಾವುದೇ ಅನುಭವದ ಹೊರೆ ಹೊಂದಿರದ ಜನರು ಹೊಂದಿದ್ದಾರೆ. ಸಾದೃಶ್ಯ ಬೇಕೇ? ದಯವಿಟ್ಟು. ಐಸ್ ಅನ್ನು ಉದಾಹರಣೆಯಾಗಿ ತೆಗೆದುಕೊಳ್ಳೋಣ. ಇದನ್ನು ತುಂಬಾ ತಣ್ಣನೆಯ ನೀರು ಎಂದು ಕರೆಯಬಹುದು. ಇಲ್ಲಿ ಹೊಸದೇನಿದೆ? ಆದಾಗ್ಯೂ, ತಂಪಾಗಿಸುವ ನೀರು ಅದರ ತಾಪಮಾನವನ್ನು ಮಾತ್ರ ಬದಲಾಯಿಸುವುದಿಲ್ಲ, ಆದರೆ ಅದರ ಗುಣಮಟ್ಟದ ಗುಣಲಕ್ಷಣಗಳನ್ನು ನಿರ್ಣಾಯಕವಾಗಿ ಬದಲಾಯಿಸುತ್ತದೆ, ದ್ರವವನ್ನು ಘನವಾಗಿ ಪರಿವರ್ತಿಸುತ್ತದೆ. ದೊಡ್ಡ ಪ್ರಮಾಣದ ಡೇಟಾಗೆ ಅದೇ ಹೇಳಬಹುದು. ದೊಡ್ಡ ಪ್ರಮಾಣದ ಡೇಟಾವು ಅಂತಿಮವಾಗಿ ಲೆಕ್ಕಾಚಾರಗಳು, ಲೆಕ್ಕಾಚಾರಗಳು ಮತ್ತು ಲೆಕ್ಕಾಚಾರಗಳ ಹಳೆಯ ಮಾದರಿಗಳನ್ನು ಮುರಿಯುತ್ತದೆ. ಬಳಸಿ ಸಾಂಪ್ರದಾಯಿಕ ವಿಧಾನಗಳುವ್ಯಾಪಾರ ವಿಶ್ಲೇಷಕರಿಗೆ, ಕೆಲವು ಲೆಕ್ಕಾಚಾರಗಳನ್ನು ಕೈಗೊಳ್ಳಲು ವರ್ಷಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳಬಹುದು. ಸಮಾನಾಂತರೀಕರಣ ಮತ್ತು ವಿತರಿಸಿದ ಕಂಪ್ಯೂಟಿಂಗ್ ಸ್ಕೇಲಿಂಗ್ ಪ್ರಶ್ನೆಗೆ ಸ್ಪಷ್ಟ ಉತ್ತರಗಳಾಗಿವೆ. ಆದರೆ ಲಾಜಿಸ್ಟಿಕ್ ರಿಗ್ರೆಷನ್ ವಿಶ್ಲೇಷಣೆಯಷ್ಟು ಸರಳವಾದ ಅಂಕಿಅಂಶಗಳ ಸಾಧನದೊಂದಿಗೆ ಇದು ಯಾವಾಗಲೂ ಅಷ್ಟು ಸುಲಭವಲ್ಲ. ವಿತರಣಾ ಅಂಕಿಅಂಶಗಳ ಕಂಪ್ಯೂಟಿಂಗ್ ಸಾಂಪ್ರದಾಯಿಕ ವ್ಯವಹಾರ ವಿಶ್ಲೇಷಣೆಯಿಂದ ಐಸ್ ನೀರಿನಿಂದ ಭಿನ್ನವಾಗಿದೆ.

2. ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ಮರುಬ್ರಾಂಡ್ ಮಾಡಿದ ನಂತರ ಅದೇ ಸಾಫ್ಟ್‌ವೇರ್ ಎಂಜಿನಿಯರ್‌ಗಳು

ಕೆಲವೊಮ್ಮೆ ಸಾಫ್ಟ್‌ವೇರ್ ಅಭಿವೃದ್ಧಿಯಲ್ಲಿ ವ್ಯಾಪಕ ಅನುಭವ ಹೊಂದಿರುವ ಎಂಜಿನಿಯರ್‌ಗಳು ಮರುತರಬೇತಿಗೆ ಒಳಗಾಗುತ್ತಾರೆ ಮತ್ತು ಸುಧಾರಿಸುವ ಸಲುವಾಗಿ ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳಾಗುತ್ತಾರೆ ವೇತನ. ಆದಾಗ್ಯೂ, ಈ ಅಭ್ಯಾಸವು ಸಾಮಾನ್ಯವಾಗಿ ಅತೃಪ್ತಿಕರ ಫಲಿತಾಂಶಗಳಿಗೆ ಕಾರಣವಾಗುತ್ತದೆ. ವಾಸ್ತವವಾಗಿ, ದೊಡ್ಡ ಡೇಟಾ ಕ್ಷೇತ್ರದಲ್ಲಿ, ಸಂಖ್ಯಾಶಾಸ್ತ್ರದ ದೋಷಗಳನ್ನು ಸರಳ ಮಟ್ಟದಲ್ಲಿ ಡೀಬಗ್ ಮಾಡುವುದು ಕಷ್ಟದ ಕೆಲಸವೆಂದು ತೋರುತ್ತದೆ. ಸಾಫ್ಟ್‌ವೇರ್ ದೋಷಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಲು ಮತ್ತು ಸರಿಪಡಿಸಲು ಎಂಜಿನಿಯರ್‌ಗಳಿಗೆ ತರಬೇತಿ ನೀಡಲಾಗುತ್ತದೆ. ಆದರೆ ಸಂಭವನೀಯತೆ ಸಿದ್ಧಾಂತ ಮತ್ತು ಅಂಕಿಅಂಶಗಳ ಘನ ಜ್ಞಾನವಿಲ್ಲದೆ, ತಂಪಾದ ಪ್ರೋಗ್ರಾಮರ್ ಕೂಡ ಸರಳವಾದ ಅಂಕಿಅಂಶಗಳ ದೋಷವನ್ನು ಯಶಸ್ವಿಯಾಗಿ ತೊಡೆದುಹಾಕಲು ಸಾಧ್ಯವಾಗುವುದಿಲ್ಲ.


ಉನ್ನತ ಮಟ್ಟದ ಎಂಜಿನಿಯರ್‌ಗಳು ಸರಳ, ಪ್ರತ್ಯೇಕ, ನಿಯಮ-ಆಧಾರಿತ ಮಾದರಿಗಳನ್ನು ನಿರ್ಮಿಸಲು ಸಮರ್ಥರಾಗಿದ್ದಾರೆ. ಆದರೆ ಅಂತಹ ಮಾದರಿಗಳು ಡೇಟಾದಿಂದ ಹೆಚ್ಚು ಸೂಕ್ಷ್ಮವಾದ ಒಳನೋಟಗಳನ್ನು ಪಡೆಯಲು ಸೂಕ್ತವಲ್ಲ. ಇದರಿಂದ ಆರ್ಥಿಕ ಲಾಭ ಕಳೆದುಕೊಂಡಿದ್ದಾರೆ. ಆದ್ದರಿಂದ, "ದೊಡ್ಡ ಡೇಟಾ ಪ್ರಶ್ನೆಗಳಿಗೆ" ಉತ್ತರಗಳನ್ನು ಪಡೆಯಲು, ಹೆಚ್ಚು ಅರ್ಹವಾದ ಮತ್ತು ಹೆಚ್ಚು ವಿಶೇಷವಾದ ಸಿಬ್ಬಂದಿ ಅಗತ್ಯವಿದೆ, ಇದು ಮುಂದಿನ ಪೀಳಿಗೆಯ ಭವಿಷ್ಯ ಮಾದರಿಯ ಅಡಿಪಾಯವಾಗಿದೆ.

3. ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ವ್ಯವಹಾರವನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವ ಅಗತ್ಯವಿಲ್ಲ - ಡೇಟಾ ಅವರಿಗೆ ಎಲ್ಲವನ್ನೂ ತಿಳಿಸುತ್ತದೆ

ಪ್ರೋಗ್ರಾಮರ್ ಆಗಿ ಶಿಕ್ಷಣ ಮತ್ತು ಅನುಭವ ಹೊಂದಿರುವ ಜನರು ಸಾಮಾನ್ಯವಾಗಿ ಈ ಪ್ರಲೋಭನೆಗೆ ಒಳಗಾಗುತ್ತಾರೆ. ಮತ್ತು, ನಿಜವಾಗಿಯೂ, ಅವರು ಅಂತಹ ಶಕ್ತಿಯುತ ನೆಲೆಯನ್ನು ಹೊಂದಿದ್ದರೆ ಅವರು ವ್ಯಾಪಾರವನ್ನು ಏಕೆ ಅರ್ಥಮಾಡಿಕೊಳ್ಳಬೇಕು? ಶಕ್ತಿಯುತ, ಆದರೆ ಸರ್ವಶಕ್ತ ಅಲ್ಲ. ಎಲ್ಲಾ ಸಂಭಾವ್ಯ ಪರಸ್ಪರ ಸಂಬಂಧಗಳನ್ನು ಕಂಡುಹಿಡಿಯುವುದು ನಂಬಲಾಗದಷ್ಟು ಶ್ರಮ-ತೀವ್ರ ಮತ್ತು ಸಮಯ ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ, ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯವಾಗಿ ಸಮಸ್ಯಾತ್ಮಕತೆಯನ್ನು ನಮೂದಿಸಬಾರದು. ದತ್ತಾಂಶ ವಿಜ್ಞಾನಿಗಳು ಸುಳ್ಳು ಮತ್ತು ನೈಜ ಸಂಬಂಧಗಳ ನಡುವೆ ಯಶಸ್ವಿಯಾಗಿ ವ್ಯತ್ಯಾಸವನ್ನು ಗುರುತಿಸಲು ತಮ್ಮ ವ್ಯವಹಾರ ಅಂತಃಪ್ರಜ್ಞೆಯನ್ನು ಬಳಸಬೇಕು. ನಿರ್ದಿಷ್ಟ ಪ್ರದೇಶದಲ್ಲಿ ತಜ್ಞರ ಜ್ಞಾನದ ಕೊರತೆಯು ಆಧಾರರಹಿತ ತೀರ್ಮಾನಗಳಿಗೆ ಕಾರಣವಾಗಬಹುದು. ನೀವು ಇದನ್ನು ಹೇಗೆ ಇಷ್ಟಪಡುತ್ತೀರಿ? ಪೊಲೀಸ್ ಅಧಿಕಾರಿಗಳ ಸಂಖ್ಯೆಯಲ್ಲಿನ ಹೆಚ್ಚಳವು ಅಪರಾಧದ ಹೆಚ್ಚಳಕ್ಕೆ ಕಾರಣವಾಗುತ್ತದೆ, ಇದರರ್ಥ ಪ್ರತಿಕೂಲವಾದ ಅಪರಾಧ ಪರಿಸ್ಥಿತಿ ಹೊಂದಿರುವ ಪ್ರದೇಶಗಳಲ್ಲಿ ಕಾನೂನು ಜಾರಿ ಅಧಿಕಾರಿಗಳ ಸಂಖ್ಯೆಯನ್ನು ಕಡಿಮೆ ಮಾಡುವುದು ಅವಶ್ಯಕ. ಅಂತಿಮವಾಗಿ, ಪ್ರಮುಖ ಮಧ್ಯಸ್ಥಗಾರರ ಮನವೊಲಿಸಲು ವ್ಯವಹಾರದ ಅಂತಃಪ್ರಜ್ಞೆಯನ್ನು ಹೊಂದಿರುವುದು ಸಹ ಮುಖ್ಯವಾಗಿದೆ: ವ್ಯಾಪಾರದ ಜನರು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವ ಭಾಷೆಯಲ್ಲಿ ಪರಸ್ಪರ ಸಂಬಂಧಗಳ ಬಗ್ಗೆ ಮಾತನಾಡುವ ಮೂಲಕ, ವ್ಯವಹಾರದ ಕುಶಾಗ್ರಮತಿಯನ್ನು ಹೊಂದಿರದ ಸಹೋದ್ಯೋಗಿಗಿಂತ ಡೇಟಾ ವಿಜ್ಞಾನಿ ಹೆಚ್ಚು ಯಶಸ್ವಿಯಾಗುತ್ತಾರೆ.


ದೊಡ್ಡ ಡೇಟಾ ಮತ್ತು ಡೇಟಾ ವಿಜ್ಞಾನವು ಸರಿಯಾದ ಎಂಜಿನಿಯರಿಂಗ್, ಸಂಖ್ಯಾಶಾಸ್ತ್ರ ಮತ್ತು ವ್ಯವಹಾರ ಕೌಶಲ್ಯಗಳನ್ನು ಸಂಯೋಜಿಸುವ ಅತ್ಯುತ್ತಮ ಮಾದರಿಯನ್ನು ಹೇಗೆ ನಿರ್ಮಿಸುವುದು ಎಂಬುದರ ಜ್ಞಾನವಾಗಿದೆ. ಇದು ಇಲ್ಲದೆ, ದತ್ತಾಂಶ ವಿಜ್ಞಾನಿ ಅವರು ಮಾಡಲು ಹೊರಟಿರುವ ಎಲ್ಲವನ್ನೂ ಸಾಧಿಸಲು ಸಾಧ್ಯವಾಗುವುದಿಲ್ಲ.

ಹಾಗಾದರೆ ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ಯಾರು?

ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ವ್ಯಾಪಾರ ಮತ್ತು ಡೇಟಾ ವಿಶ್ಲೇಷಕರ ವಿಕಾಸದ ಉತ್ಪನ್ನವಾಗಿದೆ. ಅಂತಹ ತಜ್ಞರಿಗೆ ಔಪಚಾರಿಕ ತರಬೇತಿಯು ಕಂಪ್ಯೂಟರ್ ವಿಜ್ಞಾನ, ಅಂಕಿಅಂಶಗಳು, ವಿಶ್ಲೇಷಣೆ ಮತ್ತು ಗಣಿತವನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ. ಉನ್ನತ ದರ್ಜೆಯ ದತ್ತಾಂಶ ವಿಜ್ಞಾನಿಯನ್ನು ಯಾವುದು ಮಾಡುತ್ತದೆ? ಕಂಪನಿಯ ಬೆಳವಣಿಗೆಯ ಮೇಲೆ ಪ್ರಭಾವ ಬೀರಲು ಸಹಾಯ ಮಾಡುವ ರೀತಿಯಲ್ಲಿ ವ್ಯಾಪಾರ ಮತ್ತು ಐಟಿ ನಾಯಕರೊಂದಿಗೆ ಸಂವಹನ ನಡೆಸುವ ಸಾಮರ್ಥ್ಯದೊಂದಿಗೆ ಬಲವಾದ ವ್ಯಾಪಾರ ಕುಶಾಗ್ರಮತಿ ಸಂಯೋಜಿಸಲ್ಪಟ್ಟಿದೆ. ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು "ಭಾಗ ವಿಶ್ಲೇಷಕರು ಮತ್ತು ಭಾಗ ಕಲಾವಿದರು" ಎಂದು IBM ನಲ್ಲಿ ದೊಡ್ಡ ಡೇಟಾದ ಉಪಾಧ್ಯಕ್ಷ ಅಂಜುಲ್ ಬಂಬ್ರಾ ಹೇಳುತ್ತಾರೆ. ಇವರು ಡೇಟಾ ಮತ್ತು ಸ್ಪಾಟ್ ಟ್ರೆಂಡ್‌ಗಳನ್ನು ನೋಡುವ ಕುತೂಹಲಕಾರಿ ಜನರು. ಅವರನ್ನು ನವೋದಯದ ಕಲಾವಿದರಿಗೆ ಹೋಲಿಸಬಹುದು, ಅವರು ಕಲಿಯಲು ಮಾತ್ರವಲ್ಲ, ಅವರ ಸುತ್ತಲಿನ ಪ್ರಪಂಚವನ್ನು ಬದಲಾಯಿಸಲು ಬಯಸಿದ್ದರು.

ಸಾಂಪ್ರದಾಯಿಕ ವಿಶ್ಲೇಷಕರು ಒಂದೇ ಮೂಲದಿಂದ ಡೇಟಾವನ್ನು ವಿಶ್ಲೇಷಿಸುತ್ತಾರೆ (ಉದಾ. CRM ವ್ಯವಸ್ಥೆಗಳು), ದತ್ತಾಂಶ ವಿಜ್ಞಾನಿಗಳು ಅಗತ್ಯವಾಗಿ ಹಲವಾರು ವಿಭಿನ್ನ ಮೂಲಗಳಿಂದ ಡೇಟಾವನ್ನು ಅಧ್ಯಯನ ಮಾಡುತ್ತಾರೆ. ಒದಗಿಸಬಹುದಾದ ಹಿಂದೆ ಮರೆಮಾಡಿದ ಒಳನೋಟಗಳನ್ನು ಕಂಡುಹಿಡಿಯಲು ಇದು ಎಲ್ಲಾ ಒಳಬರುವ ಡೇಟಾವನ್ನು ಆಕ್ರಮಣಕಾರಿಯಾಗಿ ಶೋಧಿಸುತ್ತದೆ ಸ್ಪರ್ಧಾತ್ಮಕ ಅನುಕೂಲತೆ. ಡೇಟಾ ವಿಜ್ಞಾನಿ ಕೇವಲ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸುವುದಿಲ್ಲ ಮತ್ತು ವಿಶ್ಲೇಷಿಸುವುದಿಲ್ಲ, ಆದರೆ ಅದನ್ನು ವಿವಿಧ ಕೋನಗಳಿಂದ ನೋಡುತ್ತಾರೆ ಮತ್ತು ವಿಭಿನ್ನ ಸಂದರ್ಭಗಳಲ್ಲಿ ಅದನ್ನು ವಿಶ್ಲೇಷಿಸುತ್ತಾರೆ, ಬ್ರ್ಯಾಂಡ್‌ಗೆ ಈ ಅಥವಾ ಆ ಡೇಟಾ ಅರ್ಥವೇನು ಎಂಬುದನ್ನು ನಿರ್ಧರಿಸುತ್ತದೆ ಮತ್ತು ನಂತರ ಲಭ್ಯವಿರುವ ಮಾಹಿತಿಯನ್ನು ಹೇಗೆ ಬಳಸುವುದು ಎಂಬುದರ ಕುರಿತು ಶಿಫಾರಸುಗಳನ್ನು ಮಾಡುತ್ತದೆ.


ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ನಿರಂತರವಾಗಿ ಸಂಶೋಧನೆ ಮಾಡುವ, ಲಕ್ಷಾಂತರ ಪ್ರಶ್ನೆಗಳನ್ನು ಕೇಳುವ, "ಏನಾದರೆ..." ವಿಶ್ಲೇಷಣೆ ಮಾಡುವ, ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಊಹೆಗಳು ಮತ್ತು ಪ್ರಕ್ರಿಯೆಗಳನ್ನು ಪ್ರಶ್ನಿಸುವ, ಶ್ರೀಮಂತ ಡೇಟಾ ಮೂಲಗಳನ್ನು ಗುರುತಿಸುವ ಮತ್ತು ಕಳಪೆ ಡೇಟಾ ಸೆಟ್‌ಗಳಿಗೆ ಸಂಪರ್ಕಿಸುವ... ಸ್ಪರ್ಧಾತ್ಮಕ ವಾತಾವರಣದಲ್ಲಿ ಕಾರ್ಯಗಳು ನಿರಂತರವಾಗಿ ನಡೆಯುವ ಜನರು. ಬದಲಾವಣೆ, ಮತ್ತು ಡೇಟಾದ ತ್ವರಿತ ಹರಿವು ಎಂದಿಗೂ ಕೊನೆಗೊಳ್ಳುವುದಿಲ್ಲ, ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ನಿರ್ವಹಣೆಗೆ ಸಹಾಯ ಮಾಡುತ್ತಾರೆ ನಿರ್ಧಾರಗಳು. ಮತ್ತು ಇದು ಅವರ ಅತ್ಯಮೂಲ್ಯ ಗುಣವಾಗಿದೆ.

"ವಿಜ್ಞಾನಿಗಳು" ಏಕೆ?

ಡೇಟಾ ವಿಜ್ಞಾನಿಯನ್ನು "ಡೇಟಾ ವಿಜ್ಞಾನಿ" ಎಂದು ಕರೆಯುವುದು ತುಂಬಾ ಆಡಂಬರ ಎಂದು ಹಲವರು ವಾದಿಸುತ್ತಾರೆ. ಆದಾಗ್ಯೂ, ನೀವು ಮೂಲವನ್ನು ನೋಡಲು ಪ್ರಯತ್ನಿಸಿದರೆ, ಈ ಸೂತ್ರೀಕರಣವು ಅರ್ಥಪೂರ್ಣವಾಗಿದೆ. ಉದಾಹರಣೆಗೆ, ಪ್ರಾಯೋಗಿಕ ಭೌತವಿಜ್ಞಾನಿಗಳು ತಮ್ಮದೇ ಆದ ಉಪಕರಣಗಳನ್ನು ವಿನ್ಯಾಸಗೊಳಿಸಬೇಕು ಮತ್ತು ನಿರ್ಮಿಸಬೇಕು, ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಬೇಕು, ಪ್ರಯೋಗಗಳನ್ನು ನಡೆಸಬೇಕು ಮತ್ತು ವರದಿಗಳಲ್ಲಿ ಎಲ್ಲಾ ಸಂಶೋಧನೆಗಳನ್ನು ಸಾರಾಂಶ ಮಾಡಬೇಕು. ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ಅದೇ ರೀತಿ ಮಾಡುತ್ತಾರೆ. ಆದ್ದರಿಂದ, ಹೆಚ್ಚು ಅರ್ಹವಾದ ದತ್ತಾಂಶ ವಿಜ್ಞಾನಿಗಳನ್ನು ಭೌತಶಾಸ್ತ್ರ ಅಥವಾ ಸಾಮಾಜಿಕ ವಿಜ್ಞಾನಗಳಲ್ಲಿ ಉನ್ನತ ಪದವಿ ಹೊಂದಿರುವ ಜನರು ಎಂದು ಪರಿಗಣಿಸಲಾಗುತ್ತದೆ.


ಗ್ರಹದ ಮೇಲಿನ ಅತ್ಯುತ್ತಮ ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ಪರಿಸರ ವಿಜ್ಞಾನ ಮತ್ತು ಸಿಸ್ಟಮ್ಸ್ ಬಯಾಲಜಿಯಂತಹ ನಿಗೂಢ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ ಪಿಎಚ್‌ಡಿ ಹೊಂದಿರುವ ವಿಜ್ಞಾನಿಗಳು. ಒಂದು ಗಮನಾರ್ಹ ಉದಾಹರಣೆ- ಜಾರ್ಜ್ ರೂಮೆಲಿಯೊಟಿಸ್, ಸಿಲಿಕಾನ್ ವ್ಯಾಲಿಯಲ್ಲಿ ಇಂಟ್ಯೂಟ್‌ನಲ್ಲಿ ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳ ತಂಡವನ್ನು ಮುನ್ನಡೆಸುತ್ತಾರೆ. ಅವರು ಖಗೋಳ ಭೌತಶಾಸ್ತ್ರದಲ್ಲಿ ತಮ್ಮ ಪಿಎಚ್‌ಡಿ ಪಡೆದರು. ಅನೇಕ ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ಮಾಲೀಕರು ಶೈಕ್ಷಣಿಕ ಪದವಿಗಳುಕಂಪ್ಯೂಟರ್ ವಿಜ್ಞಾನ, ಗಣಿತ ಮತ್ತು ಅರ್ಥಶಾಸ್ತ್ರದಲ್ಲಿ. ಆದರೆ, ಅದು ಇರಲಿ, ಉತ್ತಮ ತಜ್ಞ, ಡೇಟಾ ವಿಶ್ಲೇಷಣೆಯಲ್ಲಿ ಪರಿಣತಿ ಹೊಂದಿದ್ದು, ಯಾವುದೇ ಕ್ಷೇತ್ರದಿಂದ ಬರಬಹುದು.


ಡೇಟಾ ವಿಜ್ಞಾನಿ ಇಲ್ಲದೆ ಮಾಡಲಾಗದ ಮೂಲ ಕೌಶಲ್ಯಗಳು

ಮೂಲ ಉಪಕರಣಗಳು. ಕಂಪನಿಯ ಧ್ಯೇಯವನ್ನು ಲೆಕ್ಕಿಸದೆಯೇ, ಡೇಟಾ ವಿಜ್ಞಾನಿ ಮೂಲಭೂತ ಪರಿಕರಗಳನ್ನು ಹೇಗೆ ಬಳಸಬೇಕೆಂದು ತಿಳಿದಿರಬೇಕು: ಅಂಕಿಅಂಶಗಳ ಡೇಟಾ ಸಂಸ್ಕರಣೆ ಮತ್ತು ಗ್ರಾಫಿಕ್ಸ್‌ಗಾಗಿ R ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಭಾಷೆ, ಡೆವಲಪರ್ ಉತ್ಪಾದಕತೆ ಮತ್ತು ಕೋಡ್ ಓದುವಿಕೆಯನ್ನು ಸುಧಾರಿಸುವ ಗುರಿಯನ್ನು ಹೊಂದಿರುವ ಉನ್ನತ ಮಟ್ಟದ ಪೈಥಾನ್ ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಭಾಷೆ, ರಚನಾತ್ಮಕ ಪ್ರಶ್ನೆ ಭಾಷೆ SQL, ಅನಿಯಂತ್ರಿತ ಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್‌ನಲ್ಲಿ ಡೇಟಾವನ್ನು ರಚಿಸಲು, ಮಾರ್ಪಡಿಸಲು ಮತ್ತು ಕುಶಲತೆಯಿಂದ ಬಳಸಲಾಗುತ್ತದೆ.

ಮೂಲ ಅಂಕಿಅಂಶಗಳು. ದತ್ತಾಂಶ ವಿಜ್ಞಾನಿಗಳಿಗೆ ಅಂಕಿಅಂಶಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು ಅತ್ಯಗತ್ಯ. ಪರೀಕ್ಷೆಯಲ್ಲಿ ಬಳಸುವ ಮೌಲ್ಯ - P- ಮೌಲ್ಯವನ್ನು ಸಹ ನಿರ್ಧರಿಸಲು ಅನೇಕ ತಜ್ಞರು ಸಾಧ್ಯವಾಗುವುದಿಲ್ಲ ಎಂಬುದು ರಹಸ್ಯವಲ್ಲ ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯ ಕಲ್ಪನೆಗಳು. ದತ್ತಾಂಶ ವಿಜ್ಞಾನಿಯು ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯ ಪರೀಕ್ಷೆಗಳು, ವಿತರಣೆಗಳು, ಗರಿಷ್ಠ ಸಂಭವನೀಯತೆಯ ಅಂದಾಜು ಇತ್ಯಾದಿಗಳೊಂದಿಗೆ ಪರಿಚಿತರಾಗಿರಬೇಕು. ಅಂಕಿಅಂಶಗಳು ಮುಖ್ಯವಾಗಿವೆ ವಿವಿಧ ಪ್ರದೇಶಗಳುವ್ಯಾಪಾರ, ವಿಶೇಷವಾಗಿ ಡೇಟಾ-ಚಾಲಿತ ಕಂಪನಿಗಳಿಗೆ


ಯಂತ್ರ ಕಲಿಕೆ. ದತ್ತಾಂಶ ವಿಜ್ಞಾನಿಗಳು ದೊಡ್ಡ ಪ್ರಮಾಣದ ಡೇಟಾದೊಂದಿಗೆ ದೊಡ್ಡ ಕಂಪನಿಯಲ್ಲಿ ಕೆಲಸ ಮಾಡುತ್ತಿದ್ದರೆ, ಅವರು ಯಂತ್ರ ಕಲಿಕೆಯ ವಿಧಾನಗಳೊಂದಿಗೆ ಪರಿಚಿತರಾಗಿರಬೇಕು. ಸಹಜವಾಗಿ, ಈ ಹಲವು ವಿಧಾನಗಳನ್ನು R ಅಥವಾ ಪೈಥಾನ್ ಲೈಬ್ರರಿಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಕಾರ್ಯಗತಗೊಳಿಸಬಹುದು, ಆದ್ದರಿಂದ ಅಲ್ಗಾರಿದಮ್‌ಗಳು ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ ಎಂಬುದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ನೀವು ವಿಶ್ವದ ಪ್ರಮುಖ ತಜ್ಞರಾಗಬೇಕಾಗಿಲ್ಲ. ಕೆಲವು ವಿಧಾನಗಳ ಬಳಕೆಯು ಯಾವಾಗ ಹೆಚ್ಚು ಸೂಕ್ತವಾಗಿದೆ ಎಂಬುದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು ಹೆಚ್ಚು ಮುಖ್ಯವಾಗಿದೆ.

ಮಲ್ಟಿವೇರಿಯೇಟ್ ಲೆಕ್ಕಾಚಾರಗಳು ಮತ್ತು ರೇಖೀಯ ಬೀಜಗಣಿತ. ಈ ವಿಭಾಗಗಳು ಅನೇಕ ಯಂತ್ರ ಕಲಿಕೆಯ ವಿಧಾನಗಳ ಆಧಾರವಾಗಿದೆ.

ವಿಶ್ಲೇಷಣೆಗಾಗಿ ಡೇಟಾವನ್ನು ಸಿದ್ಧಪಡಿಸುವುದು. ಸಾಮಾನ್ಯವಾಗಿ ವಿಶ್ಲೇಷಿಸಿದ ಡೇಟಾವು ಸಾಕಷ್ಟು "ಕೊಳಕು" ಆಗಿರುತ್ತದೆ, ಅದರೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವುದು ಹೆಚ್ಚು ಕಷ್ಟಕರವಾಗಿರುತ್ತದೆ. ಆದ್ದರಿಂದ, ಡೇಟಾದ ಎಲ್ಲಾ ನ್ಯೂನತೆಗಳನ್ನು ಹೇಗೆ ಎದುರಿಸಬೇಕೆಂದು ತಿಳಿಯುವುದು ಬಹಳ ಮುಖ್ಯ. ಅಪೂರ್ಣ ಡೇಟಾದ ಉದಾಹರಣೆಯೆಂದರೆ "ನ್ಯೂಯಾರ್ಕ್" - "ನ್ಯೂಯಾರ್ಕ್" - "ny", ಅಥವಾ ದಿನಾಂಕಗಳು "2014-01-01" - "01/01/2014" ನಂತಹ ಸ್ಟ್ರಿಂಗ್‌ಗಳ ಅಸಮಂಜಸ ಫಾರ್ಮ್ಯಾಟಿಂಗ್, ಅಥವಾ ಇದರ ಬಳಕೆ UNIX ಸಿಸ್ಟಮ್ ಸಮಯ ಮತ್ತು ಅನುಕ್ರಮ ಟೈಮ್‌ಸ್ಟ್ಯಾಂಪ್.

ಡೇಟಾ ದೃಶ್ಯೀಕರಣ ಮತ್ತು ಸಂವಹನ. ಇದು ನಂಬಲಸಾಧ್ಯ ಪ್ರಮುಖ ಅಂಶಗಳು, ವಿಶೇಷವಾಗಿ ನಾವು ಯುವ ಡೇಟಾ-ಚಾಲಿತ ಕಂಪನಿಗಳ ಬಗ್ಗೆ ಮಾತನಾಡುತ್ತಿರುವಾಗ ಅಥವಾ ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ಡೇಟಾ-ಚಾಲಿತ ನಿರ್ಧಾರಗಳನ್ನು ಮಾಡಲು ಸಹಾಯ ಮಾಡುವ ಜನರು ಎಂದು ಗ್ರಹಿಸುವ ಕಂಪನಿಗಳು. ggplot (R ಭಾಷೆಯ ವಿಸ್ತರಣೆ) ಮತ್ತು D3.js ಡೇಟಾವನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಲು ಮತ್ತು ದೃಶ್ಯೀಕರಿಸಲು JavaScript ಲೈಬ್ರರಿಯ ಜ್ಞಾನವು ತುಂಬಾ ಉಪಯುಕ್ತವಾಗಿದೆ.

ಪ್ರೋಗ್ರಾಮಿಂಗ್. ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ಸಾಮಾನ್ಯವಾಗಿ ದೊಡ್ಡ ಪ್ರಮಾಣದ ನೋಂದಣಿ ಡೇಟಾ ಮತ್ತು ಡೇಟಾ-ಚಾಲಿತ ಉತ್ಪನ್ನಗಳನ್ನು ನಿರ್ವಹಿಸಲು ಜವಾಬ್ದಾರರಾಗಿರುತ್ತಾರೆ.

ಡೇಟಾ ವಿಜ್ಞಾನಿಯಂತೆ ಯೋಚಿಸಿ. ಉದ್ಯೋಗದಾತ ಯಾವಾಗಲೂ ದತ್ತಾಂಶ ವಿಜ್ಞಾನಿಯನ್ನು ಸಮಸ್ಯೆ ಪರಿಹಾರಕನಾಗಿ ನೋಡಲು ಬಯಸುತ್ತಾನೆ. "ವಿಜ್ಞಾನಿ" ಯಾವಾಗಲೂ ಈ ಹಂತದಲ್ಲಿ ಯಾವುದು ಮುಖ್ಯ ಮತ್ತು ನಿರ್ದಿಷ್ಟ ಮೌಲ್ಯವಲ್ಲ ಎಂಬುದನ್ನು ತಿಳಿದಿರಬೇಕು. ಉತ್ಪನ್ನ ಅಭಿವೃದ್ಧಿಗೆ ಜವಾಬ್ದಾರರಾಗಿರುವ ವಿನ್ಯಾಸಕರು ಮತ್ತು ವ್ಯವಸ್ಥಾಪಕರೊಂದಿಗೆ ಅವರು ಸಂವಹನ ನಡೆಸಬೇಕಾಗುತ್ತದೆ.


ಹಾರ್ವರ್ಡ್ ಬ್ಯುಸಿನೆಸ್ ರಿವ್ಯೂ ದತ್ತಾಂಶ ವಿಜ್ಞಾನಿ 21ನೇ ಶತಮಾನದ ಅತ್ಯಂತ ಸೆಕ್ಸಿಯೆಸ್ಟ್ ವೃತ್ತಿ ಎಂದು ಹೇಳಿಕೊಂಡಿದೆ. ಮತ್ತು ಇದನ್ನು ಒಪ್ಪದಿರುವುದು ಕಷ್ಟ. ಡೇಟಾ ವಿಜ್ಞಾನವು ಅಭಿವೃದ್ಧಿ ಹೊಂದುತ್ತಿದೆ ಮತ್ತು ಎಲ್ಲಾ ಆಧುನಿಕ ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳನ್ನು ಸುರಕ್ಷಿತವಾಗಿ ಪ್ರವರ್ತಕರು ಎಂದು ಕರೆಯಬಹುದು. ಮತ್ತು ನೀವು ಸಂಖ್ಯಾಶಾಸ್ತ್ರಜ್ಞರಲ್ಲಿ ಅತ್ಯುತ್ತಮ ಐಟಿ ತಜ್ಞರು ಮತ್ತು ಐಟಿ ತಜ್ಞರಲ್ಲಿ ಅತ್ಯುತ್ತಮ ಸಂಖ್ಯಾಶಾಸ್ತ್ರಜ್ಞರು ಎಂದು ನೀವು ಹೇಳಬಹುದಾದರೆ, ನೀವು ನಿಜವಾದ ಡೇಟಾ ವಿಜ್ಞಾನಿ.

ಈ ಲೇಖನವನ್ನು ತಯಾರಿಸಲು ಬಳಸುವ ವಸ್ತುಗಳು

ಡೇಟಾ ವಿಜ್ಞಾನಿ- "ಬಿಗ್ ಡೇಟಾ" ಎಂದು ಕರೆಯಲ್ಪಡುವ ದೊಡ್ಡ ಪ್ರಮಾಣದ ಡೇಟಾದ ಸಂಸ್ಕರಣೆ, ವಿಶ್ಲೇಷಣೆ ಮತ್ತು ಸಂಗ್ರಹಣೆಯಲ್ಲಿ ಪರಿಣಿತರು. ಭೌತಶಾಸ್ತ್ರ, ಗಣಿತ ಮತ್ತು ಕಂಪ್ಯೂಟರ್ ವಿಜ್ಞಾನದಲ್ಲಿ ಆಸಕ್ತಿ ಹೊಂದಿರುವವರಿಗೆ ಈ ವೃತ್ತಿಯು ಸೂಕ್ತವಾಗಿದೆ (ಶಾಲಾ ವಿಷಯಗಳಲ್ಲಿ ಆಸಕ್ತಿಯ ಆಧಾರದ ಮೇಲೆ ವೃತ್ತಿಯನ್ನು ಆರಿಸುವುದನ್ನು ನೋಡಿ).

ಡೇಟಾ ಸೈನ್ಸ್ - ವಿವಿಧ ವಿಭಾಗಗಳ ಛೇದಕದಲ್ಲಿ ಡೇಟಾ ವಿಜ್ಞಾನ: ಗಣಿತ ಮತ್ತು ಅಂಕಿಅಂಶಗಳು; ಇನ್ಫರ್ಮ್ಯಾಟಿಕ್ಸ್ ಮತ್ತು ಕಂಪ್ಯೂಟರ್ ಸೈನ್ಸ್; ವ್ಯಾಪಾರ ಮತ್ತು ಅರ್ಥಶಾಸ್ತ್ರ.

(ಎಸ್. ಮಾಲ್ಟ್ಸೆವಾ, ವಿ. ಕಾರ್ನಿಲೋವ್ ರಾಷ್ಟ್ರೀಯ ಸಂಶೋಧನಾ ವಿಶ್ವವಿದ್ಯಾಲಯ "ಹಯರ್ ಸ್ಕೂಲ್ ಆಫ್ ಎಕನಾಮಿಕ್ಸ್")

ವೃತ್ತಿಯು ಹೊಸದು, ಪ್ರಸ್ತುತವಾಗಿದೆ ಮತ್ತು... "ಬಿಗ್ ಡೇಟಾ" ಎಂಬ ಪದವು 2008 ರಲ್ಲಿ ಕಾಣಿಸಿಕೊಂಡಿತು. ಮತ್ತು ಡಾಟಾ ಸೈಂಟಿಸ್ಟ್ ವೃತ್ತಿ - "ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್" ಅಧಿಕೃತವಾಗಿ 2010 ರ ಆರಂಭದಲ್ಲಿ ಶೈಕ್ಷಣಿಕ ಮತ್ತು ಅಂತರಶಿಸ್ತೀಯ ವಿಭಾಗವಾಗಿ ನೋಂದಾಯಿಸಲ್ಪಟ್ಟಿತು. "ಡೇಟಾ ಸೈನ್ಸ್" ಎಂಬ ಪದದ ಮೊದಲ ಉಲ್ಲೇಖವನ್ನು 1974 ರಲ್ಲಿ ಪೀಟರ್ ನೌರ್ ಅವರ ಪುಸ್ತಕದಲ್ಲಿ ಗುರುತಿಸಲಾಗಿದೆ, ಆದರೆ ವಿಭಿನ್ನವಾಗಿ ಸಂದರ್ಭ.

ಅಂತಹ ವೃತ್ತಿಯ ಹೊರಹೊಮ್ಮುವಿಕೆಯ ಅಗತ್ಯವು ಅಲ್ಟ್ರಾ ಬಿಗ್ ಡೇಟಾಗೆ ಬಂದಾಗ, ಗಣಿತದ ಅಂಕಿಅಂಶಗಳ ಪ್ರಮಾಣಿತ ವಿಧಾನಗಳಿಂದ ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಲು ಡೇಟಾ ಅರೇಗಳು ತುಂಬಾ ದೊಡ್ಡದಾಗಿವೆ ಎಂಬ ಅಂಶದಿಂದ ನಿರ್ದೇಶಿಸಲಾಗಿದೆ. ಪ್ರತಿದಿನ, ಸಾವಿರಾರು ಪೆಟಾಬೈಟ್‌ಗಳು (10 15 ಬೈಟ್‌ಗಳು = 1024 ಟೆರಾಬೈಟ್‌ಗಳು) ಮಾಹಿತಿಯು ಪ್ರಪಂಚದಾದ್ಯಂತದ ಕಂಪನಿಗಳ ಸರ್ವರ್‌ಗಳ ಮೂಲಕ ಹಾದುಹೋಗುತ್ತದೆ. ಡೇಟಾದ ಅಂತಹ ಸಂಪುಟಗಳ ಜೊತೆಗೆ, ಸಮಸ್ಯೆಯು ಅವರ ವೈವಿಧ್ಯತೆಯಿಂದ ಜಟಿಲವಾಗಿದೆ ಮತ್ತು ಅತಿ ವೇಗನವೀಕರಣಗಳು.

ಡೇಟಾ ಅರೇಗಳನ್ನು 3 ವಿಧಗಳಾಗಿ ವಿಂಗಡಿಸಲಾಗಿದೆ:

ರಚನಾತ್ಮಕ (ಉದಾಹರಣೆಗೆ, ವ್ಯಾಪಾರದಲ್ಲಿ ನಗದು ರೆಜಿಸ್ಟರ್‌ಗಳಿಂದ ಡೇಟಾ);

ಅರೆ-ರಚನಾತ್ಮಕ (ಇ-ಮೇಲ್ ಸಂದೇಶಗಳು);

ರಚನೆಯಿಲ್ಲದ (ವೀಡಿಯೊ ಫೈಲ್‌ಗಳು, ಚಿತ್ರಗಳು, ಛಾಯಾಚಿತ್ರಗಳು).

ಹೆಚ್ಚಿನ ಬಿಗ್ ಡೇಟಾ ರಚನೆಯಿಲ್ಲ, ಇದು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವಿಕೆಯನ್ನು ಹೆಚ್ಚು ಕಷ್ಟಕರವಾಗಿಸುತ್ತದೆ.

ವೈಯಕ್ತಿಕವಾಗಿ, ಸಂಖ್ಯಾಶಾಸ್ತ್ರಜ್ಞರು, ಸಿಸ್ಟಮ್ಸ್ ವಿಶ್ಲೇಷಕರು ಅಥವಾ ವ್ಯವಹಾರ ವಿಶ್ಲೇಷಕರು ಅಂತಹ ಪ್ರಮಾಣದ ಡೇಟಾದೊಂದಿಗೆ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸಲು ಸಾಧ್ಯವಿಲ್ಲ. ಗಣಿತ ಮತ್ತು ಅಂಕಿಅಂಶಗಳು, ಅರ್ಥಶಾಸ್ತ್ರ ಮತ್ತು ವ್ಯವಹಾರ, ಕಂಪ್ಯೂಟರ್ ವಿಜ್ಞಾನ ಮತ್ತು ಕಂಪ್ಯೂಟರ್ ತಂತ್ರಜ್ಞಾನದಲ್ಲಿ ಸಮರ್ಥವಾಗಿರುವ ಅಂತರಶಿಕ್ಷಣ ಶಿಕ್ಷಣ ಹೊಂದಿರುವ ವ್ಯಕ್ತಿಯ ಅಗತ್ಯವಿದೆ.

ದತ್ತಾಂಶ ವಿಜ್ಞಾನಿಗಳ ಮುಖ್ಯ ಕಾರ್ಯವೆಂದರೆ ನೈಜ ಸಮಯದಲ್ಲಿ ಮಾಹಿತಿಯ ಹರಿವನ್ನು ಬಳಸಿಕೊಂಡು ವಿವಿಧ ಮೂಲಗಳಿಂದ ಅಗತ್ಯ ಮಾಹಿತಿಯನ್ನು ಹೊರತೆಗೆಯುವ ಸಾಮರ್ಥ್ಯ; ಡೇಟಾ ಸೆಟ್‌ಗಳಲ್ಲಿನ ಗುಪ್ತ ಮಾದರಿಗಳನ್ನು ಗುರುತಿಸಿ ಮತ್ತು ಸ್ಮಾರ್ಟ್ ವ್ಯವಹಾರ ನಿರ್ಧಾರಗಳನ್ನು ಮಾಡಲು ಅವುಗಳನ್ನು ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯವಾಗಿ ವಿಶ್ಲೇಷಿಸಿ. ಅಂತಹ ತಜ್ಞರ ಕೆಲಸದ ಸ್ಥಳವು 1 ಕಂಪ್ಯೂಟರ್ ಅಥವಾ 1 ಸರ್ವರ್ ಅಲ್ಲ, ಆದರೆ ಸರ್ವರ್‌ಗಳ ಕ್ಲಸ್ಟರ್ ಆಗಿದೆ.

ವೃತ್ತಿಯ ವೈಶಿಷ್ಟ್ಯಗಳು

ಡೇಟಾದೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವಾಗ, ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ವಿವಿಧ ವಿಧಾನಗಳನ್ನು ಬಳಸುತ್ತಾರೆ:

  • ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯ ವಿಧಾನಗಳು;
  • ಡೇಟಾಬೇಸ್ ಮಾಡೆಲಿಂಗ್;
  • ಗಣಿಗಾರಿಕೆ ವಿಧಾನಗಳು;
  • ಡೇಟಾದೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಲು ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ ಅಪ್ಲಿಕೇಶನ್‌ಗಳು;
  • ಡೇಟಾಬೇಸ್ ವಿನ್ಯಾಸ ಮತ್ತು ಅಭಿವೃದ್ಧಿ ವಿಧಾನಗಳು.

ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳ ಕೆಲಸದ ಜವಾಬ್ದಾರಿಗಳು ಅವನ ಚಟುವಟಿಕೆಯ ಕ್ಷೇತ್ರವನ್ನು ಅವಲಂಬಿಸಿರುತ್ತದೆ, ಆದರೆ ಸಾಮಾನ್ಯ ಪಟ್ಟಿಕಾರ್ಯಗಳು ಈ ರೀತಿ ಕಾಣುತ್ತದೆ:

  • ನಂತರದ ಕಾರ್ಯಾಚರಣೆಯ ಪ್ರಕ್ರಿಯೆಗಾಗಿ ವಿವಿಧ ಮೂಲಗಳಿಂದ ಡೇಟಾ ಸಂಗ್ರಹಣೆ;
  • ಗ್ರಾಹಕರ ನಡವಳಿಕೆಯ ವಿಶ್ಲೇಷಣೆ;
  • ಗ್ರಾಹಕ ಬೇಸ್ ಮಾಡೆಲಿಂಗ್ ಮತ್ತು ಉತ್ಪನ್ನ ವೈಯಕ್ತೀಕರಣ;
  • ದಕ್ಷತೆಯ ವಿಶ್ಲೇಷಣೆ ಆಂತರಿಕ ಪ್ರಕ್ರಿಯೆಗಳುನೆಲೆಗಳು;
  • ವಿವಿಧ ಅಪಾಯಗಳ ವಿಶ್ಲೇಷಣೆ;
  • ಪ್ರಶ್ನಾರ್ಹ ವಹಿವಾಟುಗಳನ್ನು ಅಧ್ಯಯನ ಮಾಡುವ ಮೂಲಕ ಸಂಭವನೀಯ ವಂಚನೆಯನ್ನು ಗುರುತಿಸುವುದು;
  • ಮುನ್ಸೂಚನೆಗಳು ಮತ್ತು ಡೇಟಾ ಪ್ರಸ್ತುತಿಯೊಂದಿಗೆ ಆವರ್ತಕ ವರದಿಗಳನ್ನು ರಚಿಸುವುದು.

ಒಬ್ಬ ದತ್ತಾಂಶ ವಿಜ್ಞಾನಿ, ನಿಜವಾದ ವಿಜ್ಞಾನಿಯಂತೆ, ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸುವುದು ಮತ್ತು ವಿಶ್ಲೇಷಿಸುವುದು ಮಾತ್ರವಲ್ಲದೆ, ಅದನ್ನು ವಿವಿಧ ಸಂದರ್ಭಗಳಲ್ಲಿ ಮತ್ತು ವಿವಿಧ ಕೋನಗಳಿಂದ ಅಧ್ಯಯನ ಮಾಡುತ್ತಾರೆ, ಯಾವುದೇ ಊಹೆಗಳನ್ನು ಪ್ರಶ್ನಿಸುತ್ತಾರೆ. ಪ್ರಮುಖ ಗುಣಮಟ್ಟದತ್ತಾಂಶ ವಿಜ್ಞಾನಿ ಎನ್ನುವುದು ಸಂಗ್ರಹಿಸಿದ ಮಾಹಿತಿಯ ವ್ಯವಸ್ಥೆಯಲ್ಲಿ ತಾರ್ಕಿಕ ಸಂಪರ್ಕಗಳನ್ನು ನೋಡುವ ಸಾಮರ್ಥ್ಯ ಮತ್ತು ಅದರ ಆಧಾರದ ಮೇಲೆ ಪರಿಮಾಣಾತ್ಮಕ ವಿಶ್ಲೇಷಣೆಪರಿಣಾಮಕಾರಿ ವ್ಯಾಪಾರ ಪರಿಹಾರಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಿ. ಇಂದಿನ ಸ್ಪರ್ಧಾತ್ಮಕ ಮತ್ತು ವೇಗವಾಗಿ ಬದಲಾಗುತ್ತಿರುವ ಜಗತ್ತಿನಲ್ಲಿ, ಮಾಹಿತಿಯ ನಿರಂತರವಾಗಿ ಬೆಳೆಯುತ್ತಿರುವ ಹರಿವಿನಲ್ಲಿ, ಸರಿಯಾದ ವ್ಯವಹಾರ ನಿರ್ಧಾರಗಳನ್ನು ಮಾಡುವ ವಿಷಯದಲ್ಲಿ ನಿರ್ವಹಣೆಗೆ ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ಅನಿವಾರ್ಯ.

ವೃತ್ತಿಯ ಒಳಿತು ಮತ್ತು ಕೆಡುಕುಗಳು

ಪರ

  • ವೃತ್ತಿಯು ಬೇಡಿಕೆಯಲ್ಲಿ ಮಾತ್ರವಲ್ಲ, ಈ ಮಟ್ಟದ ತಜ್ಞರ ತೀವ್ರ ಕೊರತೆಯಿದೆ. ಮೆಕಿನ್ಸೆ ಗ್ಲೋಬಲ್ ಇನ್ಸ್ಟಿಟ್ಯೂಟ್ ಪ್ರಕಾರ, 2018 ರ ವೇಳೆಗೆ, ಯುನೈಟೆಡ್ ಸ್ಟೇಟ್ಸ್ನಲ್ಲಿ 190 ಸಾವಿರಕ್ಕೂ ಹೆಚ್ಚು ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳ ಅಗತ್ಯವಿದೆ. ಅದಕ್ಕಾಗಿಯೇ ದತ್ತಾಂಶ ವಿಜ್ಞಾನಿಗಳಿಗೆ ತರಬೇತಿ ನೀಡಲು ಅತ್ಯಂತ ಪ್ರತಿಷ್ಠಿತ ವಿಶ್ವವಿದ್ಯಾನಿಲಯಗಳಲ್ಲಿನ ಅಧ್ಯಾಪಕರು ತುಂಬಾ ವೇಗವಾಗಿ ಮತ್ತು ವ್ಯಾಪಕವಾಗಿ ಧನಸಹಾಯ ಮತ್ತು ಅಭಿವೃದ್ಧಿ ಹೊಂದಿದ್ದಾರೆ. ರಷ್ಯಾದಲ್ಲಿ ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳ ಬೇಡಿಕೆಯೂ ಬೆಳೆಯುತ್ತಿದೆ.
  • ಹೆಚ್ಚು ಸಂಭಾವನೆ ಪಡೆಯುವ ವೃತ್ತಿ.
  • ನಿರಂತರವಾಗಿ ಅಭಿವೃದ್ಧಿಪಡಿಸುವ ಅಗತ್ಯತೆ, ಐಟಿ ತಂತ್ರಜ್ಞಾನಗಳ ಅಭಿವೃದ್ಧಿಯನ್ನು ಮುಂದುವರಿಸುವುದು ಮತ್ತು ಡೇಟಾವನ್ನು ನೀವೇ ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಲು, ವಿಶ್ಲೇಷಿಸಲು ಮತ್ತು ಸಂಗ್ರಹಿಸಲು ಹೊಸ ವಿಧಾನಗಳನ್ನು ರಚಿಸುವುದು.

ಮೈನಸಸ್

  • ಪ್ರತಿಯೊಬ್ಬ ವ್ಯಕ್ತಿಯು ಈ ವೃತ್ತಿಯನ್ನು ಕರಗತ ಮಾಡಿಕೊಳ್ಳಲು ಸಾಧ್ಯವಿಲ್ಲ; ಇದಕ್ಕೆ ವಿಶೇಷ ಮನಸ್ಥಿತಿ ಬೇಕು.
  • ಕೆಲಸದ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ, ಪ್ರಸಿದ್ಧ ವಿಧಾನಗಳು ಮತ್ತು 60% ಕ್ಕಿಂತ ಹೆಚ್ಚು ವಿಚಾರಗಳು ಕಾರ್ಯನಿರ್ವಹಿಸದಿರಬಹುದು. ಅನೇಕ ಪರಿಹಾರಗಳು ವಿಫಲಗೊಳ್ಳುತ್ತವೆ ಮತ್ತು ತೃಪ್ತಿದಾಯಕ ಫಲಿತಾಂಶಗಳನ್ನು ಪಡೆಯಲು ನೀವು ಸಾಕಷ್ಟು ತಾಳ್ಮೆಯನ್ನು ಹೊಂದಿರಬೇಕು. ವಿಜ್ಞಾನಿಗೆ ಹೇಳಲು ಯಾವುದೇ ಹಕ್ಕಿಲ್ಲ: "ಇಲ್ಲ!" ಸಮಸ್ಯೆ. ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಲು ಸಹಾಯ ಮಾಡುವ ಮಾರ್ಗವನ್ನು ಅವನು ಕಂಡುಕೊಳ್ಳಬೇಕು.

ಕೆಲಸದ ಸ್ಥಳಕ್ಕೆ

ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ಪ್ರಮುಖ ಸ್ಥಾನಗಳನ್ನು ಆಕ್ರಮಿಸುತ್ತಾರೆ:

  • ತಾಂತ್ರಿಕ ಕೈಗಾರಿಕೆಗಳು (ಕಾರ್ ನ್ಯಾವಿಗೇಷನ್ ಸಿಸ್ಟಮ್ಸ್, ಡ್ರಗ್ ಉತ್ಪಾದನೆ, ಇತ್ಯಾದಿ);
  • IT ಗೋಳ (ಸರ್ಚ್ ಇಂಜಿನ್ ಆಪ್ಟಿಮೈಸೇಶನ್, ಸ್ಪ್ಯಾಮ್ ಫಿಲ್ಟರ್, ಸುದ್ದಿ ವ್ಯವಸ್ಥಿತಗೊಳಿಸುವಿಕೆ, ಸ್ವಯಂಚಾಲಿತ ಪಠ್ಯ ಅನುವಾದಗಳು ಮತ್ತು ಇನ್ನಷ್ಟು);
  • ಔಷಧ (ರೋಗಗಳ ಸ್ವಯಂಚಾಲಿತ ರೋಗನಿರ್ಣಯ);
  • ಹಣಕಾಸಿನ ರಚನೆಗಳು (ಸಾಲಗಳನ್ನು ನೀಡುವ ನಿರ್ಧಾರಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುವುದು), ಇತ್ಯಾದಿ.
  • ದೂರದರ್ಶನ ಕಂಪನಿಗಳು;
  • ದೊಡ್ಡ ಚಿಲ್ಲರೆ ಸರಪಳಿಗಳು;
  • ಚುನಾವಣಾ ಪ್ರಚಾರಗಳು.

ಪ್ರಮುಖ ಗುಣಗಳು

  • ವಿಶ್ಲೇಷಣಾತ್ಮಕ ಮನಸ್ಸು;
  • ಕಠಿಣ ಕೆಲಸ ಕಷ್ಟಕರ ಕೆಲಸ;
  • ನಿರಂತರತೆ;
  • ಸೂಕ್ಷ್ಮತೆ, ನಿಖರತೆ, ಗಮನ;
  • ವಿಫಲವಾದ ಮಧ್ಯಂತರ ಫಲಿತಾಂಶಗಳ ಹೊರತಾಗಿಯೂ ಸಂಶೋಧನೆಯನ್ನು ಪೂರ್ಣಗೊಳಿಸುವ ಸಾಮರ್ಥ್ಯ;
  • ವಾಕ್ ಸಾಮರ್ಥ್ಯ;
  • ಸಂಕೀರ್ಣ ವಿಷಯಗಳನ್ನು ಸರಳ ಪದಗಳಲ್ಲಿ ವಿವರಿಸುವ ಸಾಮರ್ಥ್ಯ;
  • ವ್ಯಾಪಾರ ಅಂತಃಪ್ರಜ್ಞೆ.

ವೃತ್ತಿಪರ ಜ್ಞಾನ ಮತ್ತು ಕೌಶಲ್ಯಗಳು:

  • ಗಣಿತಶಾಸ್ತ್ರದ ಜ್ಞಾನ, ಗಣಿತದ ವಿಶ್ಲೇಷಣೆ, ಗಣಿತದ ಅಂಕಿಅಂಶಗಳು, ಸಂಭವನೀಯತೆ ಸಿದ್ಧಾಂತ;
  • ಇಂಗ್ಲಿಷ್ ಜ್ಞಾನ;
  • ದೊಡ್ಡ ಡೇಟಾ ಸೆಟ್‌ಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಲು ಘಟಕಗಳನ್ನು ಹೊಂದಿರುವ ಮುಖ್ಯ ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಭಾಷೆಗಳ ಜ್ಞಾನ: ಜಾವಾ (ಹಡೂಪ್), ಸಿ ++ (ಬಿಗ್‌ಎಆರ್‌ಟಿಎಮ್, ವೊವ್ಪೆಲ್ ವಾಬಿಟ್, ಎಕ್ಸ್‌ಜಿಬೂಸ್ಟ್), ಪೈಥಾನ್ (ಮ್ಯಾಟ್‌ಪ್ಲಾಟ್ಲಿಬ್, ನಂಬಿ, ಸ್ಕಿಕಿಟ್, ಸ್ಕಿಪಿ);
  • ಅಂಕಿಅಂಶಗಳ ಪರಿಕರಗಳ ಜ್ಞಾನ - SPSS, R, MATLAB, SAS ಡೇಟಾ ಮೈನರ್, ಕೋಷ್ಟಕ;
  • ಡೇಟಾ ವಿಜ್ಞಾನಿ ಕೆಲಸ ಮಾಡುವ ಉದ್ಯಮದ ಸಂಪೂರ್ಣ ಜ್ಞಾನ; ಇದು ಔಷಧೀಯ ಉದ್ಯಮವಾಗಿದ್ದರೆ, ಮೂಲ ಉತ್ಪಾದನಾ ಪ್ರಕ್ರಿಯೆಗಳು ಮತ್ತು ಔಷಧ ಘಟಕಗಳ ಜ್ಞಾನವು ಅವಶ್ಯಕವಾಗಿದೆ;
  • ದತ್ತಾಂಶ ವಿಜ್ಞಾನಿಯ ಮುಖ್ಯ ಮೂಲ ಕೌಶಲ್ಯವೆಂದರೆ ದೊಡ್ಡ ಪ್ರಮಾಣದ ಡೇಟಾಕ್ಕಾಗಿ ಕ್ಲಸ್ಟರ್ ಶೇಖರಣಾ ವ್ಯವಸ್ಥೆಗಳ ಸಂಘಟನೆ ಮತ್ತು ಆಡಳಿತ;
  • ವ್ಯಾಪಾರ ಅಭಿವೃದ್ಧಿ ಕಾನೂನುಗಳ ಜ್ಞಾನ;
  • ಆರ್ಥಿಕ ಜ್ಞಾನ.

ವಿಶ್ವವಿದ್ಯಾನಿಲಯಗಳು

  • ಮಾಸ್ಕೋ ಸ್ಟೇಟ್ ಯೂನಿವರ್ಸಿಟಿ ಹೆಸರಿಸಲಾಗಿದೆ ಲೋಮೊನೊಸೊವ್, ಕಂಪ್ಯೂಟೇಶನಲ್ ಮ್ಯಾಥಮ್ಯಾಟಿಕ್ಸ್ ಮತ್ತು ಸೈಬರ್ನೆಟಿಕ್ಸ್ ಫ್ಯಾಕಲ್ಟಿ, ವಿಶೇಷ ಶೈಕ್ಷಣಿಕ ಕಾರ್ಯಕ್ರಮ Mail.Ru ಗ್ರೂಪ್ "ಟೆಕ್ನೋಸ್ಪಿಯರ್", ದೊಡ್ಡ ಪ್ರಮಾಣದ ಡೇಟಾದ ಬುದ್ಧಿವಂತ ವಿಶ್ಲೇಷಣೆಯ ವಿಧಾನಗಳಲ್ಲಿ ತರಬೇತಿ, C ++ ನಲ್ಲಿ ಪ್ರೋಗ್ರಾಮಿಂಗ್, ಮಲ್ಟಿ-ಥ್ರೆಡ್ ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಮತ್ತು ಮಾಹಿತಿ ಮರುಪಡೆಯುವಿಕೆ ವ್ಯವಸ್ಥೆಗಳನ್ನು ನಿರ್ಮಿಸುವ ತಂತ್ರಜ್ಞಾನ.
  • MIPT, ಡೇಟಾ ಅನಾಲಿಸಿಸ್ ವಿಭಾಗ.
  • ನ್ಯಾಷನಲ್ ರಿಸರ್ಚ್ ಯೂನಿವರ್ಸಿಟಿ ಹೈಯರ್ ಸ್ಕೂಲ್ ಆಫ್ ಎಕನಾಮಿಕ್ಸ್‌ನಲ್ಲಿನ ಫ್ಯಾಕಲ್ಟಿ ಆಫ್ ಬಿಸಿನೆಸ್ ಇನ್ಫರ್ಮ್ಯಾಟಿಕ್ಸ್ ಸಿಸ್ಟಮ್ ವಿಶ್ಲೇಷಕರು, ವಿನ್ಯಾಸಕರು ಮತ್ತು ಸಂಕೀರ್ಣ ಮಾಹಿತಿ ವ್ಯವಸ್ಥೆಗಳ ಅನುಷ್ಠಾನಕಾರರು ಮತ್ತು ಕಾರ್ಪೊರೇಟ್ ಮಾಹಿತಿ ವ್ಯವಸ್ಥೆಗಳ ನಿರ್ವಹಣೆಯ ಸಂಘಟಕರಿಗೆ ತರಬೇತಿ ನೀಡುತ್ತದೆ.
  • ಯಾಂಡೆಕ್ಸ್ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ ಶಾಲೆ.
  • ಇನ್ನೊಪೊಲಿಸ್ ವಿಶ್ವವಿದ್ಯಾಲಯ, ಡುಂಡೀ ವಿಶ್ವವಿದ್ಯಾಲಯ, ದಕ್ಷಿಣ ಕ್ಯಾಲಿಫೋರ್ನಿಯಾ ವಿಶ್ವವಿದ್ಯಾಲಯ, ಆಕ್ಲೆಂಡ್ ವಿಶ್ವವಿದ್ಯಾಲಯ, ವಾಷಿಂಗ್ಟನ್ ವಿಶ್ವವಿದ್ಯಾಲಯ: ಬಿಗ್ ಡೇಟಾದಲ್ಲಿ ಸ್ನಾತಕೋತ್ತರ ಕಾರ್ಯಕ್ರಮಗಳು.
  • ಇಂಪೀರಿಯಲ್ ಕಾಲೇಜ್ ಲಂಡನ್ ಬಿಸಿನೆಸ್ ಸ್ಕೂಲ್, MSc ಡೇಟಾ ಸೈನ್ಸ್ ಮತ್ತು ಮ್ಯಾನೇಜ್ಮೆಂಟ್.

ಯಾವುದೇ ವೃತ್ತಿಯಲ್ಲಿರುವಂತೆ, ಸ್ವ-ಶಿಕ್ಷಣವು ಇಲ್ಲಿ ಮುಖ್ಯವಾಗಿದೆ, ಇದು ನಿಸ್ಸಂದೇಹವಾಗಿ ಅಂತಹ ಸಂಪನ್ಮೂಲಗಳಿಂದ ಪ್ರಯೋಜನ ಪಡೆಯುತ್ತದೆ:

  • ವಿಶ್ವದ ಪ್ರಮುಖ ವಿಶ್ವವಿದ್ಯಾಲಯಗಳಿಂದ ಆನ್‌ಲೈನ್ ಕೋರ್ಸ್‌ಗಳು COURSERA;
  • ಯಂತ್ರ ಕಲಿಕೆ ಚಾನಲ್ MASHIN ಕಲಿಕೆ;
  • edX ಕೋರ್ಸ್‌ಗಳ ಆಯ್ಕೆ;
  • ಉಡಾಸಿಟಿ ಕೋರ್ಸ್‌ಗಳು;
  • ಡಾಟಾಕ್ವೆಸ್ಟ್ ಕೋರ್ಸ್‌ಗಳು, ಅಲ್ಲಿ ನೀವು ಡೇಟಾ ಸೈನ್ಸ್‌ನಲ್ಲಿ ನಿಜವಾದ ಪ್ರೊ ಆಗಬಹುದು;
  • 6-ಹಂತದ ಡೇಟಾಕ್ಯಾಂಪ್ ಕೋರ್ಸ್‌ಗಳು;
  • ಓ'ರೈಲಿ ತರಬೇತಿ ವೀಡಿಯೊಗಳು;
  • ಆರಂಭಿಕರಿಗಾಗಿ ಸ್ಕ್ರೀನ್‌ಕಾಸ್ಟ್‌ಗಳು ಮತ್ತು ಸುಧಾರಿತ ಡೇಟಾ ಒರಿಗಮಿ;
  • ತಜ್ಞರ ತ್ರೈಮಾಸಿಕ ಸಮ್ಮೇಳನ ಮಾಸ್ಕೋ ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳ ಸಭೆ;
  • ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ ಸ್ಪರ್ಧೆಗಳು Kaggle.сom

ಸಂಬಳ

07/04/2019 ರಂತೆ ಸಂಬಳ

ರಷ್ಯಾ 50000—200000 ₽

ಮಾಸ್ಕೋ 60000—300000 ₽

ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್ ವೃತ್ತಿಯು ಅತ್ಯಧಿಕ ಸಂಭಾವನೆ ಪಡೆಯುತ್ತದೆ. ವೆಬ್‌ಸೈಟ್ hh.ru ನಿಂದ ಮಾಹಿತಿ - ಮಾಸಿಕ ವೇತನವು USA ನಲ್ಲಿ $ 8.5 ಸಾವಿರದಿಂದ $ 9 ಸಾವಿರದವರೆಗೆ ಇರುತ್ತದೆ, ಅಂತಹ ತಜ್ಞರ ವೇತನವು ವರ್ಷಕ್ಕೆ $ 140 ಸಾವಿರ.

ಸೂಪರ್‌ಜಾಬ್ ಸಂಶೋಧನಾ ಕೇಂದ್ರದ ಸಮೀಕ್ಷೆಯ ಪ್ರಕಾರ, ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್ ತಜ್ಞರ ಸಂಬಳವು ಕೆಲಸದ ಅನುಭವ, ಜವಾಬ್ದಾರಿಗಳ ವ್ಯಾಪ್ತಿ ಮತ್ತು ಪ್ರದೇಶವನ್ನು ಅವಲಂಬಿಸಿರುತ್ತದೆ. ಅನನುಭವಿ ತಜ್ಞರು 70 ಸಾವಿರ ರೂಬಲ್ಸ್ಗಳನ್ನು ಎಣಿಸಬಹುದು. ಮಾಸ್ಕೋದಲ್ಲಿ ಮತ್ತು 57 ಸಾವಿರ ರೂಬಲ್ಸ್ಗಳನ್ನು. ಸೇಂಟ್ ಪೀಟರ್ಸ್ಬರ್ಗ್ನಲ್ಲಿ. 3 ವರ್ಷಗಳ ಕೆಲಸದ ಅನುಭವದೊಂದಿಗೆ, ಸಂಬಳವು 110 ಸಾವಿರ ರೂಬಲ್ಸ್ಗೆ ಹೆಚ್ಚಾಗುತ್ತದೆ. ಮಾಸ್ಕೋದಲ್ಲಿ ಮತ್ತು 90 ಸಾವಿರ ರೂಬಲ್ಸ್ಗಳನ್ನು. ಸೇಂಟ್ ಪೀಟರ್ಸ್ಬರ್ಗ್ನಲ್ಲಿ. ವೈಜ್ಞಾನಿಕ ಪ್ರಕಟಣೆಗಳೊಂದಿಗೆ ಅನುಭವಿ ತಜ್ಞರಿಗೆ, ಸಂಬಳವು 220 ಸಾವಿರ ರೂಬಲ್ಸ್ಗಳನ್ನು ತಲುಪಬಹುದು. ಮಾಸ್ಕೋದಲ್ಲಿ ಮತ್ತು 180 ಸಾವಿರ ರೂಬಲ್ಸ್ಗಳನ್ನು. ಪೀಟರ್ಸ್ಬರ್ಗ್ನಲ್ಲಿ.

ವೃತ್ತಿಜೀವನದ ಹಂತಗಳು ಮತ್ತು ಭವಿಷ್ಯ

ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್ ವೃತ್ತಿಯು ಸ್ವತಃ ಹೆಚ್ಚಿನ ಸಾಧನೆಯಾಗಿದೆ, ಇದು ಹಲವಾರು ವೃತ್ತಿಗಳ ಗಂಭೀರ ಸೈದ್ಧಾಂತಿಕ ಜ್ಞಾನ ಮತ್ತು ಪ್ರಾಯೋಗಿಕ ಅನುಭವದ ಅಗತ್ಯವಿರುತ್ತದೆ. ಯಾವುದೇ ಸಂಸ್ಥೆಯಲ್ಲಿ ಅಂತಹ ತಜ್ಞರು ಪ್ರಮುಖ ವ್ಯಕ್ತಿ. ಈ ಎತ್ತರವನ್ನು ತಲುಪಲು, ನೀವು ಕಠಿಣ ಮತ್ತು ಉದ್ದೇಶಪೂರ್ವಕವಾಗಿ ಕೆಲಸ ಮಾಡಬೇಕಾಗುತ್ತದೆ ಮತ್ತು ವೃತ್ತಿಯ ಆಧಾರವಾಗಿರುವ ಎಲ್ಲಾ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ ನಿರಂತರವಾಗಿ ಸುಧಾರಿಸಬೇಕು.

ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್ ಬಗ್ಗೆ ಒಂದು ಜೋಕ್ ಇದೆ: ಅವರು ಯಾವುದೇ ಸಂಖ್ಯಾಶಾಸ್ತ್ರಜ್ಞರಿಗಿಂತ ಉತ್ತಮವಾಗಿ ಪ್ರೋಗ್ರಾಂ ಮಾಡುವ ಸಾಮಾನ್ಯವಾದಿ ಮತ್ತು ಯಾವುದೇ ಪ್ರೋಗ್ರಾಮರ್‌ಗಿಂತ ಅಂಕಿಅಂಶಗಳನ್ನು ಚೆನ್ನಾಗಿ ತಿಳಿದಿರುತ್ತಾರೆ. ಮತ್ತು ಅವರು ಕಂಪನಿಯ ಮುಖ್ಯಸ್ಥರಿಗಿಂತ ಉತ್ತಮವಾಗಿ ವ್ಯವಹಾರ ಪ್ರಕ್ರಿಯೆಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುತ್ತಾರೆ.

ಏನಾಯಿತು "ಬಿಗ್ ಡೇಟಾ"ನೈಜ ಸಂಖ್ಯೆಯಲ್ಲಿ?

  1. ಪ್ರತಿ 2 ದಿನಗಳಿಗೊಮ್ಮೆ, ಕ್ರಿಸ್ತನ ಜನನದಿಂದ 2003 ರವರೆಗೆ ಮಾನವಕುಲವು ರಚಿಸಿದ ಮಾಹಿತಿಯ ಪ್ರಮಾಣದಿಂದ ಡೇಟಾದ ಪ್ರಮಾಣವು ಹೆಚ್ಚಾಗುತ್ತದೆ.
  2. ಇಂದು ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಎಲ್ಲಾ ಡೇಟಾದ 90% ಕಳೆದ 2 ವರ್ಷಗಳಲ್ಲಿ ಕಾಣಿಸಿಕೊಂಡಿದೆ.
  3. 2020 ರ ಹೊತ್ತಿಗೆ, ಮಾಹಿತಿಯ ಪ್ರಮಾಣವು 3.2 ರಿಂದ 40 ಝೆಟಾಬೈಟ್‌ಗಳಿಗೆ ಹೆಚ್ಚಾಗುತ್ತದೆ. 1 ಝೆಟಾಬೈಟ್ = 10 21 ಬೈಟ್‌ಗಳು.
  4. 1 ನಿಮಿಷದಲ್ಲಿ, ಫೇಸ್‌ಬುಕ್‌ನಲ್ಲಿ 200 ಸಾವಿರ ಫೋಟೋಗಳನ್ನು ಅಪ್‌ಲೋಡ್ ಮಾಡಲಾಗುತ್ತದೆ, 205 ಮಿಲಿಯನ್ ಪತ್ರಗಳನ್ನು ಕಳುಹಿಸಲಾಗಿದೆ ಮತ್ತು 1.8 ಮಿಲಿಯನ್ ಲೈಕ್‌ಗಳನ್ನು ಪೋಸ್ಟ್ ಮಾಡಲಾಗಿದೆ.
  5. 1 ಸೆಕೆಂಡಿನಲ್ಲಿ, Google 40 ಸಾವಿರ ಹುಡುಕಾಟ ಪ್ರಶ್ನೆಗಳನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುತ್ತದೆ.
  6. ಪ್ರತಿ 1.2 ವರ್ಷಗಳಿಗೊಮ್ಮೆ, ಪ್ರತಿ ಉದ್ಯಮದಲ್ಲಿನ ಡೇಟಾದ ಒಟ್ಟು ಮೊತ್ತವು ದ್ವಿಗುಣಗೊಳ್ಳುತ್ತದೆ.
  7. 2020 ರ ವೇಳೆಗೆ, ಹಡೂಪ್ ಸೇವೆಗಳ ಮಾರುಕಟ್ಟೆಯು $ 50 ಶತಕೋಟಿಗೆ ಬೆಳೆಯುತ್ತದೆ.
  8. 2015 ರಲ್ಲಿ ಯುನೈಟೆಡ್ ಸ್ಟೇಟ್ಸ್ನಲ್ಲಿ, ಬಿಗ್ ಡೇಟಾ ಯೋಜನೆಗಳಲ್ಲಿ ಕೆಲಸ ಮಾಡುವ ತಜ್ಞರಿಗೆ 1.9 ಮಿಲಿಯನ್ ಉದ್ಯೋಗಗಳನ್ನು ರಚಿಸಲಾಗಿದೆ.
  9. ಬಿಗ್ ಡೇಟಾ ತಂತ್ರಜ್ಞಾನಗಳು ಚಿಲ್ಲರೆ ಸರಪಳಿಗಳ ಲಾಭವನ್ನು ವರ್ಷಕ್ಕೆ 60% ಹೆಚ್ಚಿಸುತ್ತವೆ.
  10. ಮುನ್ಸೂಚನೆಗಳ ಪ್ರಕಾರ, ಬಿಗ್ ಡೇಟಾ ಮಾರುಕಟ್ಟೆ ಗಾತ್ರವು 2014 ರಲ್ಲಿ $ 28.5 ಶತಕೋಟಿಗೆ ಹೋಲಿಸಿದರೆ 2020 ರಲ್ಲಿ $ 68.7 ಶತಕೋಟಿಗೆ ಹೆಚ್ಚಾಗುತ್ತದೆ.

ಅಂತಹ ಸಕಾರಾತ್ಮಕ ಬೆಳವಣಿಗೆಯ ಸೂಚಕಗಳ ಹೊರತಾಗಿಯೂ, ಮುನ್ಸೂಚನೆಗಳಲ್ಲಿ ದೋಷಗಳೂ ಇವೆ. ಉದಾಹರಣೆಗೆ, 2016 ರ ಅತ್ಯಂತ ಕುಖ್ಯಾತ ತಪ್ಪುಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ: ಯುಎಸ್ ಅಧ್ಯಕ್ಷೀಯ ಚುನಾವಣೆಗೆ ಸಂಬಂಧಿಸಿದ ಮುನ್ಸೂಚನೆಗಳು ನಿಜವಾಗಲಿಲ್ಲ. ಹಿಲರಿ ಕ್ಲಿಂಟನ್ ಪರವಾಗಿ ಪ್ರಸಿದ್ಧ US ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳಾದ ನೇಟ್ ಸಿಲ್ವರ್, ಕಿರ್ಕ್ ಬೌರ್ನ್ ಮತ್ತು ಬಿಲ್ ಸ್ಮಾರ್ಜೊ ಅವರು ಮುನ್ಸೂಚನೆಗಳನ್ನು ಪ್ರಸ್ತುತಪಡಿಸಿದರು. ಹಿಂದಿನ ಚುನಾವಣಾ ಪ್ರಚಾರಗಳಲ್ಲಿ, ಅವರು ನಿಖರವಾದ ಮುನ್ಸೂಚನೆಗಳನ್ನು ನೀಡಿದರು ಮತ್ತು ಎಂದಿಗೂ ತಪ್ಪಾಗಲಿಲ್ಲ.

ಈ ವರ್ಷ, ನೇಟ್ ಸಿಲ್ವರ್, ಉದಾಹರಣೆಗೆ, ನೀಡಿದರು ನಿಖರವಾದ ಮುನ್ಸೂಚನೆ 41 ರಾಜ್ಯಗಳಿಗೆ, ಆದರೆ 9 ರಾಜ್ಯಗಳಿಗೆ ಅವರು ತಪ್ಪಾಗಿದ್ದರು, ಇದು ಟ್ರಂಪ್ ಅವರ ವಿಜಯಕ್ಕೆ ಕಾರಣವಾಯಿತು. 2016 ರ ದೋಷಗಳ ಕಾರಣಗಳನ್ನು ವಿಶ್ಲೇಷಿಸಿದ ನಂತರ, ಅವರು ತೀರ್ಮಾನಕ್ಕೆ ಬಂದರು:

  1. ಗಣಿತದ ಮಾದರಿಗಳು ಅವುಗಳ ರಚನೆಯ ಸಮಯದಲ್ಲಿ ವಸ್ತುನಿಷ್ಠವಾಗಿ ಚಿತ್ರವನ್ನು ಪ್ರತಿಬಿಂಬಿಸುತ್ತವೆ. ಆದರೆ ಅವರು ಅರ್ಧ-ಜೀವಿತಾವಧಿಯನ್ನು ಹೊಂದಿದ್ದಾರೆ, ಅದರ ಅಂತ್ಯದ ವೇಳೆಗೆ ಪರಿಸ್ಥಿತಿಯು ನಾಟಕೀಯವಾಗಿ ಬದಲಾಗಬಹುದು. ಮಾದರಿಯ ಮುನ್ಸೂಚಕ ಗುಣಗಳು ಕಾಲಾನಂತರದಲ್ಲಿ ಹದಗೆಡುತ್ತವೆ. IN ಈ ವಿಷಯದಲ್ಲಿ, ಉದಾಹರಣೆಗೆ, ದುಷ್ಕೃತ್ಯ, ಆದಾಯದ ಅಸಮಾನತೆ ಮತ್ತು ಇತರ ಸಾಮಾಜಿಕ ಕ್ರಾಂತಿಗಳು ಒಂದು ಪಾತ್ರವನ್ನು ವಹಿಸಿವೆ. ಆದ್ದರಿಂದ, ಹೊಸ ಡೇಟಾವನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳಲು ಮಾದರಿಯನ್ನು ನಿಯಮಿತವಾಗಿ ಸರಿಹೊಂದಿಸಬೇಕು. ಇದನ್ನು ಮಾಡಲಾಗಿಲ್ಲ.
  2. ಮುನ್ಸೂಚನೆಗಳ ಮೇಲೆ ಗಮನಾರ್ಹ ಪರಿಣಾಮ ಬೀರುವ ಹೆಚ್ಚುವರಿ ಡೇಟಾವನ್ನು ಹುಡುಕುವುದು ಮತ್ತು ಪರಿಗಣಿಸುವುದು ಅವಶ್ಯಕ. ಹೀಗಾಗಿ, ಕ್ಲಿಂಟನ್ ಮತ್ತು ಟ್ರಂಪ್ ಚುನಾವಣಾ ಪ್ರಚಾರಗಳಲ್ಲಿ ರ್ಯಾಲಿಗಳ ವೀಡಿಯೊಗಳನ್ನು ವೀಕ್ಷಿಸಿದಾಗ, ರ್ಯಾಲಿಗಳಲ್ಲಿ ಭಾಗವಹಿಸುವವರ ಒಟ್ಟು ಸಂಖ್ಯೆಯನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳಲಿಲ್ಲ. ಇದು ಸುಮಾರು ನೂರಾರು ಜನರು. ಟ್ರಂಪ್ ಪರವಾಗಿ ಪ್ರತಿ ರ್ಯಾಲಿಯಲ್ಲಿ 400-600 ಜನರು ಭಾಗವಹಿಸಿದ್ದರು ಮತ್ತು ಕ್ಲಿಂಟನ್ ಪರವಾಗಿ ಕೇವಲ 150-200 ಜನರು ಭಾಗವಹಿಸಿದ್ದರು, ಇದು ಫಲಿತಾಂಶಗಳ ಮೇಲೆ ಪರಿಣಾಮ ಬೀರಿತು.
  3. ಚುನಾವಣಾ ಪ್ರಚಾರಗಳಲ್ಲಿನ ಗಣಿತದ ಮಾದರಿಗಳು ಜನಸಂಖ್ಯಾ ಡೇಟಾವನ್ನು ಆಧರಿಸಿವೆ: ವಯಸ್ಸು, ಜನಾಂಗ, ಲಿಂಗ, ಆದಾಯ, ಸಮಾಜದಲ್ಲಿ ಸ್ಥಿತಿ, ಇತ್ಯಾದಿ. ಪ್ರತಿ ಗುಂಪಿನ ತೂಕವನ್ನು ಅವರು ಕಳೆದ ಚುನಾವಣೆಯಲ್ಲಿ ಹೇಗೆ ಮತ ಚಲಾಯಿಸಿದರು ಎಂಬುದರ ಮೇಲೆ ನಿರ್ಧರಿಸಲಾಗುತ್ತದೆ. ಈ ಮುನ್ಸೂಚನೆಯು 3-4% ನಷ್ಟು ದೋಷವನ್ನು ಹೊಂದಿದೆ ಮತ್ತು ಅಭ್ಯರ್ಥಿಗಳ ನಡುವೆ ದೊಡ್ಡ ಅಂತರವಿರುವಾಗ ವಿಶ್ವಾಸಾರ್ಹವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ. ಆದರೆ ಈ ಸಂದರ್ಭದಲ್ಲಿ, ಕ್ಲಿಂಟನ್ ಮತ್ತು ಟ್ರಂಪ್ ನಡುವಿನ ಅಂತರವು ಚಿಕ್ಕದಾಗಿತ್ತು ಮತ್ತು ಈ ದೋಷವು ಚುನಾವಣಾ ಫಲಿತಾಂಶಗಳ ಮೇಲೆ ಗಮನಾರ್ಹ ಪರಿಣಾಮ ಬೀರಿತು.
  4. ಜನರ ಅಭಾಗಲಬ್ಧ ವರ್ತನೆಯನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳಲಾಗಿಲ್ಲ. ಜನಾಭಿಪ್ರಾಯ ಸಂಗ್ರಹಣೆಗಳು ಸಮೀಕ್ಷೆಯಲ್ಲಿ ಜನರು ಉತ್ತರಿಸಿದ ರೀತಿಯಲ್ಲಿಯೇ ಮತ ಚಲಾಯಿಸುತ್ತಾರೆ ಎಂಬ ಭ್ರಮೆಯನ್ನು ಸೃಷ್ಟಿಸುತ್ತವೆ. ಆದರೆ ಕೆಲವೊಮ್ಮೆ ಅವರು ವಿರುದ್ಧವಾಗಿ ಮಾಡುತ್ತಾರೆ. ಈ ಸಂದರ್ಭದಲ್ಲಿ, ಮತದಾನದ ಕಡೆಗೆ ಅಪ್ರಾಮಾಣಿಕ ವರ್ತನೆಗಳನ್ನು ಗುರುತಿಸಲು ಮುಖ ಮತ್ತು ಮಾತಿನ ವಿಶ್ಲೇಷಣೆಯನ್ನು ಹೆಚ್ಚುವರಿಯಾಗಿ ನಡೆಸುವುದು ಅಗತ್ಯವಾಗಿರುತ್ತದೆ.

ಒಟ್ಟಿನಲ್ಲಿ, ಅಭ್ಯರ್ಥಿಗಳ ನಡುವಿನ ಸಣ್ಣ ಅಂತರದಿಂದ ಭವಿಷ್ಯವು ತಪ್ಪಾಗಿದೆ. ದೊಡ್ಡ ಅಂತರದ ಸಂದರ್ಭದಲ್ಲಿ, ಈ ದೋಷಗಳು ಅಷ್ಟು ನಿರ್ಣಾಯಕವಾಗಿರುವುದಿಲ್ಲ.

ವೀಡಿಯೊ: ಹೊಸ ವಿಶೇಷತೆ "ಬಿಗ್ ಡೇಟಾ" - ಮಿಖಾಯಿಲ್ ಲೆವಿನ್

ಇನ್ಫೋಗ್ರಾಫಿಕ್ಸ್‌ನಲ್ಲಿ ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್. ವೃತ್ತಿಯು ತಾಜಾ, ಹೆಚ್ಚು ಸಂಭಾವನೆ ಮತ್ತು ಪ್ರಸಿದ್ಧವಾಗಿದೆ. ಆದರೆ ಅಂತಹ ತಜ್ಞರು ಯಾವ ಕೌಶಲ್ಯಗಳನ್ನು ಹೊಂದಿರಬೇಕು? ಪರಿಗಣಿಸೋಣ.

ಕೌಶಲ್ಯಗಳ ಬಗ್ಗೆ ಮಾತನಾಡೋಣ

ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್ ಎನ್ನುವುದು ವಿಶ್ಲೇಷಣೆಗಳು ಮತ್ತು ಮಾಹಿತಿ ಸಂಸ್ಕರಣೆಯನ್ನು ಒಳಗೊಂಡ ಸಾಮಾನ್ಯವಾದಿ. ಡೇಟಾ ವಿಜ್ಞಾನಿ ಅಂಕಿಅಂಶಗಳು ಮತ್ತು ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಅನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುತ್ತಾರೆ. ಉಪಯುಕ್ತ, ಅಲ್ಲವೇ? ಪ್ರತಿಯೊಬ್ಬ ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್‌ನ ಸಾಮರ್ಥ್ಯಗಳ ವ್ಯಾಪ್ತಿಯು ಒಂದು ಹಂತವಾಗಿದೆ ಮತ್ತು ಕೋಡಿಂಗ್ ಅಥವಾ ಶುದ್ಧ ಅಂಕಿಅಂಶಗಳ ಕಡೆಗೆ ಚಲಿಸಬಹುದು.

  • ಸ್ಯಾನ್ ಫ್ರಾನ್ಸಿಸ್ಕೋ ಮೂಲದ ಡೇಟಾ ವಿಶ್ಲೇಷಕ. ಕೆಲವು ಕಂಪನಿಗಳು ವಾಸ್ತವವಾಗಿ ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳನ್ನು ವಿಶ್ಲೇಷಕರಿಗೆ ಹೋಲಿಸುತ್ತವೆ. ಅಂತಹ ತಜ್ಞರ ಕೆಲಸವು ಡೇಟಾಬೇಸ್‌ನಿಂದ ಮಾಹಿತಿಯನ್ನು ಹೊರತೆಗೆಯಲು, ಎಕ್ಸೆಲ್‌ನೊಂದಿಗೆ ಸಂವಹನ ಮತ್ತು ಮೂಲ ದೃಶ್ಯೀಕರಣಕ್ಕೆ ಬರುತ್ತದೆ.
  • ಬೃಹತ್ ದಟ್ಟಣೆ ಮತ್ತು ಹೆಚ್ಚಿನ ಪ್ರಮಾಣದ ಡೇಟಾವು ಕೆಲವು ಸಂಸ್ಥೆಗಳನ್ನು ತುರ್ತಾಗಿ ಹುಡುಕುವಂತೆ ಒತ್ತಾಯಿಸುತ್ತಿದೆ ಸರಿಯಾದ ತಜ್ಞ. ಅವರು ಸಾಮಾನ್ಯವಾಗಿ ಇಂಜಿನಿಯರ್‌ಗಳು, ವಿಶ್ಲೇಷಕರು, ಪ್ರೋಗ್ರಾಮರ್‌ಗಳು ಅಥವಾ ವಿಜ್ಞಾನಿಗಳನ್ನು ಹುಡುಕುವ ಜಾಹೀರಾತುಗಳನ್ನು ಪೋಸ್ಟ್ ಮಾಡುತ್ತಾರೆ, ಎಲ್ಲರೂ ಒಂದೇ ಉದ್ಯೋಗ ಶೀರ್ಷಿಕೆಯನ್ನು ಮನಸ್ಸಿನಲ್ಲಿಟ್ಟುಕೊಳ್ಳುತ್ತಾರೆ.
  • ಡೇಟಾ ಉತ್ಪನ್ನವಾಗಿರುವ ಕಂಪನಿಗಳಿವೆ. ಈ ಸಂದರ್ಭದಲ್ಲಿ, ತೀವ್ರವಾದ ವಿಶ್ಲೇಷಣೆ ಮತ್ತು ಯಂತ್ರ ಕಲಿಕೆಯ ಅಗತ್ಯವಿರುತ್ತದೆ.
  • ಇತರ ಕಂಪನಿಗಳಿಗೆ, ಡೇಟಾವು ಉತ್ಪನ್ನವಲ್ಲ, ಆದರೆ ನಿರ್ವಹಣೆ ಅಥವಾ ಕೆಲಸದ ಹರಿವನ್ನು ಅದರ ಮೇಲೆ ನಿರ್ಮಿಸಲಾಗಿದೆ. ಕಂಪನಿಯ ಡೇಟಾವನ್ನು ರಚಿಸುವ ಸಲುವಾಗಿ ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳನ್ನು ಸಹ ಹುಡುಕಲಾಗುತ್ತದೆ.

ಮುಖ್ಯಾಂಶಗಳು "21 ನೇ ಶತಮಾನದ ಅತ್ಯಂತ ಸೆಕ್ಸಿಯೆಸ್ಟ್ ವೃತ್ತಿ" ಶೈಲಿಯಲ್ಲಿ ಶೀರ್ಷಿಕೆಗಳಿಂದ ತುಂಬಿವೆ. ಇದು ನಿಜವೇ ಎಂದು ನಮಗೆ ತಿಳಿದಿಲ್ಲ, ಆದರೆ ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಬೇಕು ಎಂದು ನಮಗೆ ತಿಳಿದಿದೆ:

  1. ಗಣಿತ ಮತ್ತು ಅಂಕಿಅಂಶಗಳು.
  2. ವಿಷಯ ಪ್ರದೇಶ ಮತ್ತು ಸಾಫ್ಟ್‌ವೇರ್.
  3. ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಮತ್ತು ಡೇಟಾಬೇಸ್.
  4. ಡೇಟಾ ವಿನಿಮಯ ಮತ್ತು ದೃಶ್ಯೀಕರಣ.

ಪ್ರತಿಯೊಂದು ಹಂತವನ್ನು ಹೆಚ್ಚು ವಿವರವಾಗಿ ನೋಡೋಣ.

ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್ ಮತ್ತು ಗಣಿತದ ಅಂಕಿಅಂಶಗಳು

ಅಭಿವೃದ್ಧಿ ಗಣಿತ ವಿಧಾನಗಳುಅಂಕಿಅಂಶಗಳ ಡೇಟಾವನ್ನು ಬಳಸುವುದು ಕೆಲಸದ ಮೂಲಭೂತ ಭಾಗವಾಗಿದೆ. ಗಣಿತದ ಅಂಕಿಅಂಶಗಳು ಸಂಭವನೀಯತೆಯ ಸಿದ್ಧಾಂತವನ್ನು ಆಧರಿಸಿದೆ, ಇದು ನಿಖರವಾದ ತೀರ್ಮಾನಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳಲು ಮತ್ತು ಅವುಗಳ ವಿಶ್ವಾಸಾರ್ಹತೆಯನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಸಾಧ್ಯವಾಗಿಸುತ್ತದೆ.

1. ಯಂತ್ರ ಕಲಿಕೆ, AI ನ ಉಪವಿಭಾಗವಾಗಿ. ತರಬೇತಿ ಕಾರ್ಯಕ್ರಮ ಮತ್ತು ಮಾದರಿಗಳೊಂದಿಗೆ ಡೇಟಾದ ಉದಾಹರಣೆಗಳಿವೆ. ನಾವು ಮಾದರಿ ಮಾದರಿಯನ್ನು ರೂಪಿಸುತ್ತೇವೆ, ಅದನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸುತ್ತೇವೆ ಮತ್ತು ಪ್ರೋಗ್ರಾಂ ಅನ್ನು ಬಳಸಿಕೊಂಡು ಹೊಸ ಡೇಟಾದಲ್ಲಿ ಮಾದರಿಗಳನ್ನು ಹುಡುಕುವ ಅವಕಾಶವನ್ನು ಪಡೆಯುತ್ತೇವೆ.

2. ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ತಿಳಿದಿರಬೇಕು ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯ ಮಾಡೆಲಿಂಗ್ನಿರ್ದಿಷ್ಟ ಸಂಭವನೀಯತೆ ಸಾಂದ್ರತೆಯೊಂದಿಗೆ ಯಾದೃಚ್ಛಿಕ ಸಂಕೇತಗಳೊಂದಿಗೆ ಮಾದರಿಯನ್ನು ಪರೀಕ್ಷಿಸಲು. ಪಡೆದ ಫಲಿತಾಂಶಗಳನ್ನು ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯವಾಗಿ ನಿರ್ಧರಿಸುವುದು ಗುರಿಯಾಗಿದೆ.

3. ಪ್ರಾಯೋಗಿಕ ವಿನ್ಯಾಸ. ಪ್ರಯೋಗಗಳ ಸಮಯದಲ್ಲಿ, ವ್ಯತ್ಯಾಸವನ್ನು ನೋಡಲು ಒಂದು ಅಥವಾ ಹೆಚ್ಚಿನ ಅಸ್ಥಿರಗಳನ್ನು ಬದಲಾಯಿಸಲಾಗುತ್ತದೆ. ಈ ಸಂದರ್ಭದಲ್ಲಿ, ಒಂದು ಹಸ್ತಕ್ಷೇಪ ಗುಂಪು ಮತ್ತು ನಿಯಂತ್ರಣ ಗುಂಪು ಇದೆ, ಅದರ ಕಾರಣದಿಂದಾಗಿ ಪರೀಕ್ಷೆಯನ್ನು ನಡೆಸಲಾಗುತ್ತದೆ.

4. ಬೇಯೆಸಿಯನ್ ನಿರ್ಣಯವು ಊಹೆಯ ಸಂಭವನೀಯತೆಯನ್ನು ಸರಿಹೊಂದಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.

5. ಮೇಲ್ವಿಚಾರಣೆಯ ತರಬೇತಿ:

  • ನಿರ್ಧಾರ ಮರಗಳು;
  • ಯಾದೃಚ್ಛಿಕ ಕಾಡುಗಳು;
  • ಲಾಜಿಸ್ಟಿಕ್ ರಿಗ್ರೆಷನ್.

6. ಮೇಲ್ವಿಚಾರಣೆಯಿಲ್ಲದ ಕಲಿಕೆ:

  • ಕ್ಲಸ್ಟರಿಂಗ್;
  • ಆಯಾಮ ಕಡಿತ.

7. ಆಪ್ಟಿಮೈಸೇಶನ್: ಗ್ರೇಡಿಯಂಟ್ ಅವರೋಹಣಮತ್ತು ಆಯ್ಕೆಗಳು.

ಡೊಮೇನ್ ಮತ್ತು ಸಾಫ್ಟ್‌ವೇರ್ ಕೌಶಲ್ಯಗಳು

ಅಧ್ಯಯನ ಮತ್ತು ಅಭ್ಯಾಸ! ಇದು ಈ ವಿಶೇಷತೆಯ ಅಡಿಪಾಯವಾಗಿದೆ. ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ವಿಜ್ಞಾನದ ಮೇಲೆ ಪರಿಣಾಮ ಬೀರುವ ವಿಷಯದ ಪ್ರದೇಶದ ಬಗ್ಗೆ ಉತ್ತಮ ತಿಳುವಳಿಕೆಯನ್ನು ಹೊಂದಿರಬೇಕು ಮತ್ತು ಸಾಫ್ಟ್‌ವೇರ್‌ನೊಂದಿಗೆ ಪರಿಚಿತರಾಗಿರಬೇಕು.

ಅಗತ್ಯವಿರುವ ಕೌಶಲ್ಯಗಳ ಪಟ್ಟಿ ವಿಚಿತ್ರವಾಗಿದೆ, ಆದರೆ ಕಡಿಮೆ ಉಪಯುಕ್ತವಲ್ಲ:

ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಮತ್ತು ಡೇಟಾಬೇಸ್‌ಗಳು

ಪೈಥಾನ್, XaaS, ಸಂಬಂಧಿತ ಬೀಜಗಣಿತ ಮತ್ತು SQL ನ ಮೂಲಭೂತ ಜ್ಞಾನದವರೆಗೆ. ಸಾಮಾನ್ಯವಾಗಿ, ಡೇಟಾವನ್ನು ಗುಣಾತ್ಮಕವಾಗಿ ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಲು ಪ್ರಯತ್ನಿಸದೆ ಎಲ್ಲವೂ ನಿಷ್ಪ್ರಯೋಜಕವಾಗಿದೆ.

1. ಕಂಪ್ಯೂಟರ್ ವಿಜ್ಞಾನದ ಮೂಲಭೂತ ಅಂಶಗಳು, ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಮತ್ತು ಪ್ರಕ್ರಿಯೆ ಯಾಂತ್ರೀಕೃತಗೊಂಡ ಜೀವನವನ್ನು ಸಂಪರ್ಕಿಸುವ ಯಾರಿಗಾದರೂ ಆರಂಭಿಕ ಹಂತವಾಗಿ.

ಡೇಟಾ ಸೈನ್ಸ್, ಮೆಷಿನ್ ಲರ್ನಿಂಗ್ - ನೀವು ಬಹುಶಃ ಈ ದೊಡ್ಡ ಪದಗಳನ್ನು ಕೇಳಿರಬಹುದು, ಆದರೆ ಅವುಗಳ ಅರ್ಥ ನಿಮಗೆ ಎಷ್ಟು ಸ್ಪಷ್ಟವಾಗಿತ್ತು? ಕೆಲವರಿಗೆ ಅವು ಸುಂದರ ಬೆಟ್. ಡೇಟಾ ಸೈನ್ಸ್ ಮ್ಯಾಜಿಕ್ ಎಂದು ಕೆಲವರು ಭಾವಿಸುತ್ತಾರೆ, ಅದು ಯಂತ್ರವನ್ನು ಉಚಿತವಾಗಿ ಆದೇಶಿಸುತ್ತದೆ. ಇತರರು ಇದು ಎಂದು ನಂಬುತ್ತಾರೆ ಸುಲಭ ದಾರಿದೊಡ್ಡ ಹಣವನ್ನು ಗಳಿಸಿ. IRELA ನಲ್ಲಿ R&D ಮುಖ್ಯಸ್ಥರಾದ ನಿಕಿತಾ ನಿಕಿಟಿನ್ಸ್ಕಿ ಮತ್ತು ಡೇಟಾ ಸೈಂಟಿಸ್ಟ್ ಪೋಲಿನಾ ಕಜಕೋವಾ ಅವರು ಸರಳ ಮತ್ತು ಅರ್ಥವಾಗುವ ಭಾಷೆಯಲ್ಲಿ ವಿವರಿಸುತ್ತಾರೆ.

ನಾನು ಸ್ವಯಂಚಾಲಿತ ನೈಸರ್ಗಿಕ ಭಾಷಾ ಸಂಸ್ಕರಣೆಯಲ್ಲಿ ಕೆಲಸ ಮಾಡುತ್ತೇನೆ, ಡೇಟಾ ವಿಜ್ಞಾನದ ಅಪ್ಲಿಕೇಶನ್, ಮತ್ತು ಆಗಾಗ್ಗೆ ಜನರು ಈ ಪದಗಳನ್ನು ತಪ್ಪಾಗಿ ಬಳಸುವುದನ್ನು ನೋಡುತ್ತಾರೆ, ಆದ್ದರಿಂದ ನಾನು ಸ್ವಲ್ಪ ಸ್ಪಷ್ಟಪಡಿಸಲು ಬಯಸುತ್ತೇನೆ. ಈ ಲೇಖನವು ದತ್ತಾಂಶ ವಿಜ್ಞಾನ ಎಂದರೇನು ಮತ್ತು ಪರಿಕಲ್ಪನೆಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಬಯಸುವವರಿಗೆ ಸ್ವಲ್ಪ ಕಲ್ಪನೆಯನ್ನು ಹೊಂದಿದೆ.

ಪರಿಭಾಷೆಯನ್ನು ವ್ಯಾಖ್ಯಾನಿಸೋಣ

ದತ್ತಾಂಶ ವಿಜ್ಞಾನವು ನಿಖರವಾಗಿ ಏನೆಂದು ಯಾರಿಗೂ ತಿಳಿದಿಲ್ಲ, ಮತ್ತು ಯಾವುದೇ ಕಟ್ಟುನಿಟ್ಟಾದ ವ್ಯಾಖ್ಯಾನವಿಲ್ಲ - ಇದು ಬಹಳ ವಿಶಾಲವಾದ ಮತ್ತು ಅಂತರಶಿಸ್ತಿನ ಪರಿಕಲ್ಪನೆಯಾಗಿದೆ. ಆದ್ದರಿಂದ, ಇಲ್ಲಿ ನಾನು ನನ್ನ ದೃಷ್ಟಿಯನ್ನು ಹಂಚಿಕೊಳ್ಳುತ್ತೇನೆ, ಅದು ಇತರರ ಅಭಿಪ್ರಾಯಗಳೊಂದಿಗೆ ಹೊಂದಿಕೆಯಾಗುವುದಿಲ್ಲ.

ಡೇಟಾ ಸೈನ್ಸ್ ಪದವನ್ನು ರಷ್ಯನ್ ಭಾಷೆಗೆ "ಡೇಟಾ ಸೈನ್ಸ್" ಎಂದು ಅನುವಾದಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ವೃತ್ತಿಪರ ಪರಿಸರದಲ್ಲಿ ಇದನ್ನು ಸಾಮಾನ್ಯವಾಗಿ "ಡೇಟಾ ಸೈನ್ಸ್" ಎಂದು ಲಿಪ್ಯಂತರ ಮಾಡಲಾಗುತ್ತದೆ. ಔಪಚಾರಿಕವಾಗಿ, ಇದು ಕಂಪ್ಯೂಟರ್ ವಿಜ್ಞಾನ ಮತ್ತು ಗಣಿತ ಕ್ಷೇತ್ರದಿಂದ ಕೆಲವು ಪರಸ್ಪರ ಸಂಬಂಧ ಹೊಂದಿರುವ ವಿಭಾಗಗಳು ಮತ್ತು ವಿಧಾನಗಳ ಒಂದು ಗುಂಪಾಗಿದೆ. ತುಂಬಾ ಅಮೂರ್ತವಾಗಿ ಧ್ವನಿಸುತ್ತದೆ, ಸರಿ? ಅದನ್ನು ಲೆಕ್ಕಾಚಾರ ಮಾಡೋಣ.

ಮೊದಲ ಭಾಗ: ಡೇಟಾ

ದತ್ತಾಂಶ ವಿಜ್ಞಾನದ ಮೊದಲ ಅಂಶವೆಂದರೆ, ಅದು ಇಲ್ಲದೆ ಸಂಪೂರ್ಣ ಮುಂದಿನ ಪ್ರಕ್ರಿಯೆಯು ಅಸಾಧ್ಯವಾಗಿದೆ, ವಾಸ್ತವವಾಗಿ, ಡೇಟಾ ಸ್ವತಃ: ಅದನ್ನು ಹೇಗೆ ಸಂಗ್ರಹಿಸುವುದು, ಸಂಗ್ರಹಿಸುವುದು ಮತ್ತು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವುದು, ಹಾಗೆಯೇ ಅದನ್ನು ಸಾಮಾನ್ಯ ಡೇಟಾ ಶ್ರೇಣಿಯಿಂದ ಹೇಗೆ ಪ್ರತ್ಯೇಕಿಸುವುದು ಉಪಯುಕ್ತ ಮಾಹಿತಿ. ತಜ್ಞರು ತಮ್ಮ ಕೆಲಸದ ಸಮಯದ 80% ವರೆಗೆ ಡೇಟಾವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸಲು ಮತ್ತು ಬಯಸಿದ ರೂಪಕ್ಕೆ ತರಲು ವಿನಿಯೋಗಿಸುತ್ತಾರೆ.

ಈ ಅಂಶದ ಪ್ರಮುಖ ಭಾಗವೆಂದರೆ ಅವುಗಳ ಬೃಹತ್ ಪ್ರಮಾಣ ಮತ್ತು/ಅಥವಾ ವೈವಿಧ್ಯತೆಯ ಕಾರಣದಿಂದಾಗಿ ಪ್ರಮಾಣಿತ ಸಂಗ್ರಹಣೆ ಮತ್ತು ಸಂಸ್ಕರಣಾ ವಿಧಾನಗಳು ಸೂಕ್ತವಲ್ಲ - ದೊಡ್ಡ ಡೇಟಾ ಎಂದು ಕರೆಯಲ್ಪಡುವ ಡೇಟಾವನ್ನು ಹೇಗೆ ನಿರ್ವಹಿಸುವುದು. ಮೂಲಕ, ನೀವೇ ಗೊಂದಲಕ್ಕೀಡಾಗಲು ಬಿಡಬೇಡಿ: ದೊಡ್ಡ ಡೇಟಾ ಮತ್ತು ಡೇಟಾ ಸೈನ್ಸ್ ಸಮಾನಾರ್ಥಕವಲ್ಲ: ಬದಲಿಗೆ, ಮೊದಲನೆಯದು ಎರಡನೆಯ ಉಪವಿಭಾಗವಾಗಿದೆ. ಅದೇ ಸಮಯದಲ್ಲಿ, ಪ್ರಾಯೋಗಿಕವಾಗಿ ಡೇಟಾ ವಿಶ್ಲೇಷಕರು ಯಾವಾಗಲೂ ದೊಡ್ಡ ಡೇಟಾದೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಬೇಕಾಗಿಲ್ಲ - ಚಿಕ್ಕವುಗಳು ಸಹ ಉಪಯುಕ್ತವಾಗಬಹುದು.

ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸೋಣ

ನಿಮ್ಮ ಕೆಲಸದ ಸಹೋದ್ಯೋಗಿಗಳು ಹಗಲಿನಲ್ಲಿ ಎಷ್ಟು ಕಾಫಿ ಕುಡಿಯುತ್ತಾರೆ ಮತ್ತು ಹಿಂದಿನ ರಾತ್ರಿ ಅವರು ಎಷ್ಟು ನಿದ್ರೆ ಮಾಡಿದರು ಎಂಬುದರ ನಡುವೆ ಯಾವುದೇ ಸಂಬಂಧವಿದೆಯೇ ಎಂದು ನಾವು ಆಸಕ್ತಿ ಹೊಂದಿದ್ದೇವೆ ಎಂದು ಊಹಿಸಿ. ನಮಗೆ ಲಭ್ಯವಿರುವ ಮಾಹಿತಿಯನ್ನು ಬರೆಯೋಣ: ನಿಮ್ಮ ಸಹೋದ್ಯೋಗಿ ಗ್ರೆಗೊರಿ ಇಂದು 4 ಗಂಟೆಗಳ ಕಾಲ ಮಲಗಿದ್ದಾರೆ ಎಂದು ಹೇಳೋಣ, ಆದ್ದರಿಂದ ಅವರು 3 ಕಪ್ ಕಾಫಿ ಕುಡಿಯಬೇಕಾಯಿತು; ಎಲ್ಲಿನಾ 9 ಗಂಟೆಗಳ ಕಾಲ ಮಲಗಿದ್ದಳು ಮತ್ತು ಕಾಫಿ ಕುಡಿಯಲಿಲ್ಲ; ಮತ್ತು ಪೋಲಿನಾ ಎಲ್ಲಾ 10 ಗಂಟೆಗಳ ಕಾಲ ಮಲಗಿದ್ದರು, ಆದರೆ 2.5 ಕಪ್ ಕಾಫಿ ಸೇವಿಸಿದರು - ಹೀಗೆ.

ಪಡೆದ ಡೇಟಾವನ್ನು ಗ್ರಾಫ್‌ನಲ್ಲಿ ಪ್ರದರ್ಶಿಸೋಣ (ದೃಶ್ಯೀಕರಣವು ಯಾವುದೇ ಡೇಟಾ ವಿಜ್ಞಾನ ಯೋಜನೆಯ ಪ್ರಮುಖ ಅಂಶವಾಗಿದೆ). X ಅಕ್ಷದ ಮೇಲೆ ಗಂಟೆಗಳಲ್ಲಿ ಸಮಯವನ್ನು ಮತ್ತು Y ಅಕ್ಷದಲ್ಲಿ ಮಿಲಿಲೀಟರ್‌ಗಳಲ್ಲಿ ಕಾಫಿಯನ್ನು ಯೋಜಿಸೋಣ. ನಾವು ಈ ರೀತಿಯದನ್ನು ಪಡೆಯುತ್ತೇವೆ:

ಎರಡನೇ ಭಾಗ: ವಿಜ್ಞಾನ

ನಮ್ಮ ಬಳಿ ಡೇಟಾ ಇದೆ, ಈಗ ನಾವು ಅದನ್ನು ಏನು ಮಾಡಬಹುದು? ಅದು ಸರಿ, ವಿಶ್ಲೇಷಿಸಿ, ಉಪಯುಕ್ತ ಮಾದರಿಗಳನ್ನು ಹೊರತೆಗೆಯಿರಿ ಮತ್ತು ಹೇಗಾದರೂ ಅವುಗಳನ್ನು ಬಳಸಿ. ಇಲ್ಲಿ ಅಂಕಿಅಂಶಗಳು, ಯಂತ್ರ ಕಲಿಕೆ ಮತ್ತು ಆಪ್ಟಿಮೈಸೇಶನ್‌ನಂತಹ ವಿಭಾಗಗಳು ನಮಗೆ ಸಹಾಯ ಮಾಡುತ್ತವೆ.

ಅವರು ಡೇಟಾ ವಿಜ್ಞಾನದ ಮುಂದಿನ ಮತ್ತು ಪ್ರಾಯಶಃ ಪ್ರಮುಖ ಅಂಶವನ್ನು ರೂಪಿಸುತ್ತಾರೆ - ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ. ಯಂತ್ರ ಕಲಿಕೆಯು ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಡೇಟಾದಲ್ಲಿ ಮಾದರಿಗಳನ್ನು ಹುಡುಕಲು ನಿಮಗೆ ಅನುಮತಿಸುತ್ತದೆ ಆದ್ದರಿಂದ ನೀವು ಹೊಸ ವಸ್ತುಗಳಿಗೆ ಸಂಬಂಧಿತ ಮಾಹಿತಿಯನ್ನು ಊಹಿಸಬಹುದು.

ಡೇಟಾವನ್ನು ವಿಶ್ಲೇಷಿಸೋಣ

ನಮ್ಮ ಉದಾಹರಣೆಗೆ ಹಿಂತಿರುಗಿ ನೋಡೋಣ. ಕಣ್ಣಿಗೆ, ಎರಡು ನಿಯತಾಂಕಗಳು ಹೇಗಾದರೂ ಪರಸ್ಪರ ಸಂಬಂಧ ಹೊಂದಿವೆ ಎಂದು ತೋರುತ್ತದೆ: ಒಬ್ಬ ವ್ಯಕ್ತಿಯು ಕಡಿಮೆ ಮಲಗಿದ್ದಾನೆ, ಮರುದಿನ ಅವನು ಹೆಚ್ಚು ಕಾಫಿ ಕುಡಿಯುತ್ತಾನೆ. ಅದೇ ಸಮಯದಲ್ಲಿ, ಈ ಪ್ರವೃತ್ತಿಯಿಂದ ಹೊರಗುಳಿಯುವ ಉದಾಹರಣೆಯೂ ನಮ್ಮಲ್ಲಿದೆ - ಪೋಲಿನಾ, ನಿದ್ರೆ ಮತ್ತು ಕಾಫಿ ಕುಡಿಯಲು ಇಷ್ಟಪಡುತ್ತಾರೆ. ಅದೇನೇ ಇದ್ದರೂ, ಫಲಿತಾಂಶದ ಮಾದರಿಯನ್ನು ಕೆಲವು ಸಾಮಾನ್ಯ ಸರಳ ರೇಖೆಯೊಂದಿಗೆ ಅಂದಾಜು ಮಾಡಲು ನೀವು ಪ್ರಯತ್ನಿಸಬಹುದು ಇದರಿಂದ ಅದು ಎಲ್ಲಾ ಬಿಂದುಗಳನ್ನು ಸಾಧ್ಯವಾದಷ್ಟು ಹತ್ತಿರಕ್ಕೆ ತಲುಪುತ್ತದೆ:

ಹಸಿರು ರೇಖೆಯು ನಮ್ಮ ಯಂತ್ರ ಕಲಿಕೆಯ ಮಾದರಿಯಾಗಿದೆ, ಇದು ಡೇಟಾವನ್ನು ಸಾಮಾನ್ಯಗೊಳಿಸುತ್ತದೆ ಮತ್ತು ಗಣಿತದ ರೀತಿಯಲ್ಲಿ ವಿವರಿಸಬಹುದು. ಈಗ, ಅದರ ಸಹಾಯದಿಂದ, ನಾವು ಹೊಸ ವಸ್ತುಗಳಿಗೆ ಮೌಲ್ಯಗಳನ್ನು ನಿರ್ಧರಿಸಬಹುದು: ಕಚೇರಿಗೆ ಪ್ರವೇಶಿಸಿದ ನಿಕಿತಾ ಇಂದು ಎಷ್ಟು ಕಾಫಿ ಕುಡಿಯುತ್ತಾರೆ ಎಂದು ನಾವು ಊಹಿಸಲು ಬಯಸಿದಾಗ, ಅವರು ಎಷ್ಟು ಮಲಗಿದ್ದಾರೆ ಎಂದು ನಾವು ಕೇಳುತ್ತೇವೆ. 7.5 ಗಂಟೆಗಳ ಮೌಲ್ಯವನ್ನು ಉತ್ತರವಾಗಿ ಸ್ವೀಕರಿಸಿದ ನಂತರ, ನಾವು ಅದನ್ನು ಮಾದರಿಗೆ ಬದಲಿಸುತ್ತೇವೆ - ಇದು 300 ಮಿಲಿಗಿಂತ ಸ್ವಲ್ಪ ಕಡಿಮೆ ಪ್ರಮಾಣದಲ್ಲಿ ಸೇವಿಸುವ ಕಾಫಿಯ ಪ್ರಮಾಣಕ್ಕೆ ಅನುರೂಪವಾಗಿದೆ. ಕೆಂಪು ಚುಕ್ಕೆ ನಮ್ಮ ಭವಿಷ್ಯವನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತದೆ.

ಯಂತ್ರ ಕಲಿಕೆಯು ಸರಿಸುಮಾರು ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ, ಇದರ ಕಲ್ಪನೆಯು ತುಂಬಾ ಸರಳವಾಗಿದೆ: ಮಾದರಿಯನ್ನು ಹುಡುಕಿ ಮತ್ತು ಅದನ್ನು ಹೊಸ ಡೇಟಾಗೆ ವಿಸ್ತರಿಸಿ. ವಾಸ್ತವವಾಗಿ, ಯಂತ್ರ ಕಲಿಕೆಯಲ್ಲಿ ನೀವು ಕೆಲವು ಮೌಲ್ಯಗಳನ್ನು ಊಹಿಸಲು ಅಗತ್ಯವಿಲ್ಲದಿದ್ದಾಗ ಮತ್ತೊಂದು ವರ್ಗದ ಕಾರ್ಯಗಳಿವೆ, ನಮ್ಮ ಉದಾಹರಣೆಯಂತೆ, ಆದರೆ ಡೇಟಾವನ್ನು ಕೆಲವು ಗುಂಪುಗಳಾಗಿ ವಿಂಗಡಿಸಿ. ಆದರೆ ನಾವು ಈ ಬಗ್ಗೆ ಇನ್ನೊಂದು ಬಾರಿ ಹೆಚ್ಚು ವಿವರವಾಗಿ ಮಾತನಾಡುತ್ತೇವೆ.

ಫಲಿತಾಂಶವನ್ನು ಅನ್ವಯಿಸೋಣ

ಆದಾಗ್ಯೂ, ನನ್ನ ಅಭಿಪ್ರಾಯದಲ್ಲಿ, ಡೇಟಾ ವಿಜ್ಞಾನವು ಡೇಟಾದಲ್ಲಿನ ಮಾದರಿಗಳನ್ನು ಗುರುತಿಸುವುದರೊಂದಿಗೆ ಕೊನೆಗೊಳ್ಳುವುದಿಲ್ಲ. ಯಾವುದೇ ಡೇಟಾ ವಿಜ್ಞಾನ ಯೋಜನೆಯಾಗಿದೆ ಅನ್ವಯಿಕ ಸಂಶೋಧನೆ, ಒಂದು ಊಹೆಯನ್ನು ಹೊಂದಿಸುವುದು, ಪ್ರಯೋಗವನ್ನು ಯೋಜಿಸುವುದು ಮತ್ತು ಫಲಿತಾಂಶವನ್ನು ನಿರ್ಣಯಿಸುವುದು ಮತ್ತು ನಿರ್ದಿಷ್ಟ ಪ್ರಕರಣವನ್ನು ಪರಿಹರಿಸಲು ಅದರ ಸೂಕ್ತತೆಯಂತಹ ವಿಷಯಗಳ ಬಗ್ಗೆ ಮರೆಯದಿರುವುದು ಮುಖ್ಯವಾಗಿದೆ.

ನೈಜ ವ್ಯವಹಾರದ ಸಮಸ್ಯೆಗಳಲ್ಲಿ ಎರಡನೆಯದು ಬಹಳ ಮುಖ್ಯವಾಗಿದೆ, ಡೇಟಾ ವಿಜ್ಞಾನವು ಕಂಡುಕೊಂಡ ಪರಿಹಾರವು ನಿಮ್ಮ ಯೋಜನೆಗೆ ಪ್ರಯೋಜನವನ್ನು ನೀಡುತ್ತದೆಯೇ ಅಥವಾ ಇಲ್ಲವೇ ಎಂಬುದನ್ನು ನೀವು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಬೇಕು. ನಮ್ಮ ಉದಾಹರಣೆಯಲ್ಲಿ ನಿರ್ಮಿಸಿದ ಮಾದರಿಯ ಉಪಯುಕ್ತತೆ ಏನು? ಬಹುಶಃ ಅದರ ಸಹಾಯದಿಂದ ನಾವು ಕಚೇರಿಗೆ ಕಾಫಿಯ ವಿತರಣೆಯನ್ನು ಉತ್ತಮಗೊಳಿಸಬಹುದು. ಅದೇ ಸಮಯದಲ್ಲಿ, ನಾವು ಅಪಾಯಗಳನ್ನು ನಿರ್ಣಯಿಸಬೇಕಾಗಿದೆ ಮತ್ತು ನಮ್ಮ ಮಾದರಿಯು ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಪರಿಹಾರಕ್ಕಿಂತ ಉತ್ತಮವಾಗಿ ಇದನ್ನು ನಿಭಾಯಿಸುತ್ತದೆಯೇ ಎಂದು ನಿರ್ಧರಿಸಬೇಕು - ಆಫೀಸ್ ಮ್ಯಾನೇಜರ್ ಮಿಖಾಯಿಲ್, ಉತ್ಪನ್ನವನ್ನು ಖರೀದಿಸುವ ಜವಾಬ್ದಾರಿ.

ವಿನಾಯಿತಿಗಳನ್ನು ಕಂಡುಹಿಡಿಯೋಣ

ಸಹಜವಾಗಿ, ನಮ್ಮ ಉದಾಹರಣೆಯನ್ನು ಸಾಧ್ಯವಾದಷ್ಟು ಸರಳೀಕರಿಸಲಾಗಿದೆ. ವಾಸ್ತವದಲ್ಲಿ, ಕೆಲವು ಇತರ ಅಂಶಗಳನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳುವ ಹೆಚ್ಚು ಸಂಕೀರ್ಣವಾದ ಮಾದರಿಯನ್ನು ನಿರ್ಮಿಸಲು ಸಾಧ್ಯವಿದೆ, ಉದಾಹರಣೆಗೆ, ಒಬ್ಬ ವ್ಯಕ್ತಿಯು ತಾತ್ವಿಕವಾಗಿ ಕಾಫಿಯನ್ನು ಇಷ್ಟಪಡುತ್ತಾನೆಯೇ. ಅಥವಾ ಮಾದರಿಯು ಸರಳ ರೇಖೆಯಿಂದ ಪ್ರತಿನಿಧಿಸುವುದಕ್ಕಿಂತ ಹೆಚ್ಚು ಸಂಕೀರ್ಣವಾದ ಸಂಬಂಧಗಳನ್ನು ಕಂಡುಹಿಡಿಯಬಹುದು.

ನಾವು ಮೊದಲು ನಮ್ಮ ಡೇಟಾದಲ್ಲಿ ಹೊರಗಿನವರನ್ನು ಹುಡುಕಬಹುದು - ಪೋಲಿನಾದಂತಹ ವಸ್ತುಗಳು ಇತರರಿಗಿಂತ ಬಹಳ ಭಿನ್ನವಾಗಿರುತ್ತವೆ. ವಾಸ್ತವವೆಂದರೆ ನೈಜ ಕೆಲಸದಲ್ಲಿ, ಅಂತಹ ಉದಾಹರಣೆಗಳು ಮಾದರಿಯನ್ನು ನಿರ್ಮಿಸುವ ಪ್ರಕ್ರಿಯೆ ಮತ್ತು ಅದರ ಗುಣಮಟ್ಟದ ಮೇಲೆ ಕೆಟ್ಟ ಪರಿಣಾಮ ಬೀರಬಹುದು ಮತ್ತು ಅವುಗಳನ್ನು ಬೇರೆ ರೀತಿಯಲ್ಲಿ ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಲು ಅರ್ಥಪೂರ್ಣವಾಗಿದೆ. ಮತ್ತು ಕೆಲವೊಮ್ಮೆ ಅಂತಹ ವಸ್ತುಗಳು ಪ್ರಾಥಮಿಕ ಆಸಕ್ತಿಯನ್ನು ಹೊಂದಿವೆ, ಉದಾಹರಣೆಗೆ, ವಂಚನೆಯನ್ನು ತಡೆಗಟ್ಟುವ ಸಲುವಾಗಿ ಅಸಂಗತ ಬ್ಯಾಂಕಿಂಗ್ ವಹಿವಾಟುಗಳನ್ನು ಪತ್ತೆಹಚ್ಚುವ ಕಾರ್ಯದಲ್ಲಿ.

ಹೆಚ್ಚುವರಿಯಾಗಿ, ಪೋಲಿನಾ ನಮಗೆ ಮತ್ತೊಂದು ಪ್ರಮುಖ ಕಲ್ಪನೆಯನ್ನು ತೋರಿಸುತ್ತದೆ - ಯಂತ್ರ ಕಲಿಕೆಯ ಅಲ್ಗಾರಿದಮ್‌ಗಳ ಅಪೂರ್ಣತೆ. ನಮ್ಮ ಮಾದರಿಯು 10 ಗಂಟೆಗಳ ಕಾಲ ಮಲಗಿದ್ದ ವ್ಯಕ್ತಿಗೆ ಕೇವಲ 100 ಮಿಲಿ ಕಾಫಿಯನ್ನು ಮಾತ್ರ ಊಹಿಸುತ್ತದೆ, ಆದರೆ ವಾಸ್ತವವಾಗಿ ಪೋಲಿನಾ 500 ರಷ್ಟು ಕುಡಿಯುತ್ತಾರೆ. ಡೇಟಾ ಸೈನ್ಸ್ ಪರಿಹಾರಗಳ ಗ್ರಾಹಕರು ಇದನ್ನು ಎಂದಿಗೂ ನಂಬುವುದಿಲ್ಲ, ಆದರೆ ಎಲ್ಲವನ್ನೂ ನಿಖರವಾಗಿ ಊಹಿಸಲು ಯಂತ್ರವನ್ನು ಕಲಿಸಲು ಇನ್ನೂ ಅಸಾಧ್ಯವಾಗಿದೆ. ಜಗತ್ತಿನಲ್ಲಿ : ಡೇಟಾದಲ್ಲಿ ನಮೂನೆಗಳನ್ನು ಗುರುತಿಸುವಲ್ಲಿ ನಾವು ಎಷ್ಟು ಉತ್ತಮವಾಗಿದ್ದರೂ, ಯಾವಾಗಲೂ ಅನಿರೀಕ್ಷಿತ ಅಂಶಗಳಿರುತ್ತವೆ.

ಕಥೆಯನ್ನು ಮುಂದುವರಿಸೋಣ

ಆದ್ದರಿಂದ, ದತ್ತಾಂಶ ವಿಜ್ಞಾನವು ಡೇಟಾವನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಲು ಮತ್ತು ವಿಶ್ಲೇಷಿಸಲು ಮತ್ತು ಅವುಗಳನ್ನು ಪ್ರಾಯೋಗಿಕ ಸಮಸ್ಯೆಗಳಿಗೆ ಅನ್ವಯಿಸುವ ವಿಧಾನಗಳ ಒಂದು ಗುಂಪಾಗಿದೆ. ಅದೇ ಸಮಯದಲ್ಲಿ, ಪ್ರತಿಯೊಬ್ಬ ತಜ್ಞರು ಈ ಪ್ರದೇಶದ ಬಗ್ಗೆ ತಮ್ಮದೇ ಆದ ದೃಷ್ಟಿಕೋನವನ್ನು ಹೊಂದಿದ್ದಾರೆ ಮತ್ತು ಅಭಿಪ್ರಾಯಗಳು ಭಿನ್ನವಾಗಿರಬಹುದು ಎಂದು ನೀವು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಬೇಕು.

ದತ್ತಾಂಶ ವಿಜ್ಞಾನವು ಸಾಕಷ್ಟು ಸರಳವಾದ ವಿಚಾರಗಳನ್ನು ಆಧರಿಸಿದೆ, ಆದರೆ ಪ್ರಾಯೋಗಿಕವಾಗಿ ಅನೇಕ ಸ್ಪಷ್ಟವಲ್ಲದ ಸೂಕ್ಷ್ಮತೆಗಳನ್ನು ಹೆಚ್ಚಾಗಿ ಕಂಡುಹಿಡಿಯಲಾಗುತ್ತದೆ. ಡೇಟಾ ವಿಜ್ಞಾನವು ನಮ್ಮನ್ನು ಹೇಗೆ ಸುತ್ತುವರೆದಿದೆ ದೈನಂದಿನ ಜೀವನದಲ್ಲಿ, ದತ್ತಾಂಶ ವಿಶ್ಲೇಷಣೆಯ ಯಾವ ವಿಧಾನಗಳು ಅಸ್ತಿತ್ವದಲ್ಲಿವೆ, ದತ್ತಾಂಶ ವಿಜ್ಞಾನ ತಂಡವು ಯಾರನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ ಮತ್ತು ಸಂಶೋಧನಾ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ ಯಾವ ತೊಂದರೆಗಳು ಉಂಟಾಗಬಹುದು - ನಾವು ಈ ಕೆಳಗಿನ ಲೇಖನಗಳಲ್ಲಿ ಮಾತನಾಡುತ್ತೇವೆ.



ಸೈಟ್ನಲ್ಲಿ ಹೊಸದು

>

ಅತ್ಯಂತ ಜನಪ್ರಿಯ