A concise introduction to the emerging field of data science, explaining its evolution, relation to machine learning, current uses, data infrastructure issues, and ethical challenges.
The goal of data science is to improve decision making through the analysis of data. Today data science determines the ads we see online, the books and movies that are recommended to us online, which emails are filtered into our spam folders, and even how much we pay for health insurance. This volume in the MIT Press Essential Knowledge series offers a concise introduction to the emerging field of data science, explaining its evolution, current uses, data infrastructure issues, and ethical challenges.
It has never been easier for organizations to gather, store, and process data. Use of data science is driven by the rise of big data and social media, the development of high-performance computing, and the emergence of such powerful methods for data analysis and modeling as deep learning. Data science encompasses a set of principles, problem definitions, algorithms, and processes for extracting non-obvious and useful patterns from large datasets. It is closely related to the fields of data mining and machine learning, but broader in scope. This book offers a brief history of the field, introduces fundamental data concepts, and describes the stages in a data science project. It considers data infrastructure and the challenges posed by integrating data from multiple sources, introduces the basics of machine learning, and discusses how to link machine learning expertise with real-world problems. The book also reviews ethical and legal issues, developments in data regulation, and computational approaches to preserving privacy. Finally, it considers the future impact of data science and offers principles for success in data science projects.
چکیده فارسی
مقدمه ای مختصر بر حوزه نوظهور علم داده، توضیحی درباره تکامل آن، ارتباط با یادگیری ماشین، کاربردهای فعلی، مسائل زیرساخت داده، و چالش های اخلاقی.
هدف علم داده بهبود تصمیم گیری از طریق تجزیه و تحلیل داده ها است. امروزه علم داده تبلیغاتی را که آنلاین میبینیم، کتابها و فیلمهایی که به صورت آنلاین به ما توصیه میشود، ایمیلهایی که در پوشههای هرزنامه فیلتر میشوند و حتی مبلغی که برای بیمه سلامت پرداخت میکنیم را تعیین میکند. این جلد از مجموعههای MIT Press Essential Knowledge مقدمهای مختصر بر حوزه نوظهور علم داده ارائه میکند و تکامل، کاربردهای فعلی، مسائل زیرساخت داده و چالشهای اخلاقی را توضیح میدهد.
جمع آوری، ذخیره و پردازش داده ها برای سازمان ها هرگز آسان نبوده است. استفاده از علم داده با ظهور کلان داده ها و رسانه های اجتماعی، توسعه محاسبات با کارایی بالا و ظهور روش های قدرتمندی برای تحلیل و مدل سازی داده ها مانند یادگیری عمیق انجام می شود. علم داده شامل مجموعه ای از اصول، تعاریف مسئله، الگوریتم ها و فرآیندهایی برای استخراج الگوهای غیر آشکار و مفید از مجموعه داده های بزرگ است. ارتباط نزدیکی با زمینه های داده کاوی و یادگیری ماشین دارد، اما از نظر دامنه گسترده تر است. این کتاب تاریخچه مختصری از این رشته را ارائه می دهد، مفاهیم اساسی داده را معرفی می کند و مراحل یک پروژه علم داده را شرح می دهد. زیرساخت داده و چالشهای ناشی از یکپارچهسازی دادهها از منابع متعدد را در نظر میگیرد، اصول یادگیری ماشین را معرفی میکند، و نحوه پیوند دادن تخصص یادگیری ماشین را با مشکلات دنیای واقعی مورد بحث قرار میدهد. این کتاب همچنین به بررسی مسائل اخلاقی و حقوقی، تحولات در تنظیم داده ها، و رویکردهای محاسباتی برای حفظ حریم خصوصی می پردازد. در نهایت، تأثیر آینده علم داده را در نظر می گیرد و اصول موفقیت در پروژه های علم داده را ارائه می دهد.
ادامه ...
بستن ...