본문 바로가기

카테고리 전체보기

(89)
[리뷰] 스파크를 이용한 자연어 처리 현업에서 Spark를 사용해 빅데이터 분석을 하고 있지만, 자연어 처리에 대한 경험은 없어서 공부를 위해 이 책을 보게 되었습니다. Spark 설치로 이 책의 자연어 처리 실습들을 진행 할 수 있어서, 흥미를 잃지 않고 빠르게 진행할 수 있었습니다. Spark는 빅데이터 분석 플랫폼입니다. 큰 데이터도 별도 구현없이 분할해서 빠르게 분석 할 수 있습니다. 그리고 Spark의 ML 라이브러리로 간단하게 머신러닝/딥러닝을 활용할 수 있습니다. 이 책을 보면서, Spark가 머신러닝/딥러닝 분석을 시작하는 분들에게 가장 좋은 환경을 만들어 주는 플랫폼이라는 생각이 들었습니다. Chapter 2에서 자연어처리/딥러닝 기초에 대한 내용을 설명하고, 이 후에 텍스트 전처리, 언어 모델, 표현 등의 일련의 과정들을 ..
[리뷰] 처음 시작하는 파이썬 2판 처음 이 책의 목차를 봤을 때 파이썬 문법부터 파일, 라이브러리, 동시성 그리고 웹 개발까지 너무 많은 내용을 담고 있어서, '이 많은 내용들이 잘 설명되어 있을까?' 하는 의심이 먼저 들었습니다. 그 동안 봤던 프로그래밍 언어 입문서는 문법과 기능 설명에 지면의 거의 대부분을 할당 했었는데, 파이썬 활용에 대한 부분이 책의 절반 가까이 돼서 이 책의 구성이 신선하게 다가왔습니다. 이 책을 읽으면서 필요한 내용만 간결하게 잘 설명되어 있다는 느낌을 받았습니다. 책의 제목에 맞게 처음 시작하는 분들이 흥미를 잃지 않고 파이썬을 빠르게 학습할 수 있도록 잘 구성되었다고 생각이 들었습니다. 더 자세히 설명되었으면 좋겠다 생각된 부분도 있었지만, 인터넷에 찾아보시면서 읽어 나가면 충분히 보완될 수 있을 것 같습..
[리뷰] 데이터 스토리 데이터를 설득력 있게 구성해 제안서를 작성하는 것은 쉽지 않은 일입니다. 아무리 데이터 추출 작업의 난이도가 높거나 추출한 양이 많아도, 스토리텔링이 잘 되지 않았다면 데이터는 그 가치를 잃게 됩니다. 최근 데이터 표현 능력에 대한 부족함을 느껴 이 책을 선택해 읽게 되었습니다. 이 책에서 크게 두가지 부분이 크게 와 닿았는데, 데이터를 단순 나열하거나 화려하게만 표현하는 건 의미가 없어 보편적인 방식으로 간결하게 표현해야 한다는 점과 현재 상황을 데이터를 통해 객관적으로 보여주고 제안된 내용을 통해 어떻게 데이터가 달라질 수 있는지 보여줘야 한다는 점이다. 그 동안 데이터 엔지니어로써 추출에 중점을 두고 업무를 진행했는데, 이 책을 통해 관점이 바뀌었습니다. 앞으로도 곁에 두고 보면서 좋은 자료를 만들..
데이터가 뛰어노는 AI 놀이터, 캐글 리뷰 이 책은 캐글에 대한 설명 그리고 고득점을 위한 팁들을 잘 설명하고 있습니다. 어느정도 머신러닝에 대한 이해가 있다고 가정하고 쓰여진 것으로 느껴져서, 데이터 분석을 처음 시작하시는 분들은 기초 레벨의 머신러닝을 먼저 학습하시고 이 책을 보시는게 좋을 것 같다고 생각이 들었습니다. 저는 캐글에서 문제를 풀면서 어느 순간 부터 몇 가지 패턴으로만 비슷하게 접근하게 되는 것을 느끼게 되었고 정체기가 왔었습니다. 이 책에서는 순차적으로 어떤 방법들을 사용하는지 알려줘서, 다양하게 생각하고 대안을 찾을 수 있도록 도움을 주고 있습니다. 캐글에서 한단계 도약을 원하시는 분들에게 이 책을 추천합니다. "한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다."
스파크를 활용한 실시간 처리 리뷰 스파크는 빅데이터 분석 분야에서 독보적인 위치에 있습니다. 스트리밍 프로세싱에 있어 Flink라는 강력한 경쟁자가 있지만, 배치와 스트리밍을 모두 같은 플랫폼을 사용할 수 있다는 점에서 스파크는 널리 사용되고 있습니다. 스파크 공식 문서를 통해 스파크 스트리밍을 사용하다가 해당 도서가 출판된 것을 보고 매우 기뻤습니다. 이 책에는 스트리밍의 개념부터 활용 예제까지 많은 내용이 담겨있습니다. 스파크를 처음 사용하시는 분은 먼저 공식 문서나 스파크 완벽 가이드를 통해 학습하시고 이 책을 보시길 추천드립니다. (이 책을 보시는 분들은 본인의 스파크 실행 환경을 가지고 계시겠지만, 책에서도 스파크를 사용할 수 있는 노트북 환경을 제공합니다.) 소스, 처리, 싱크를 순서에 맞게 설명하고 있으며, 시간 처리와 상태..
이것이 데이터 분석이다 with 파이썬 리뷰 데이터 분석을 시작하려는 분에게 정말 좋은 입문서입니다. 데이터 분석을 하려면 우선 사용할 데이터셋이 필요하고 목적에 맞게 전처리 과정이 필요합니다. 이 과정에 시간이 많이 소요되고 귀찮기 때문에 데이터 분석을 해보고 싶은 분들이 많이 포기하게 됩니다. 하지만 이 책에서는 가격 예측이나 구매 데이터 분석을 통한 상품 추천등 많은 분들이 흥미를 느낄 수 있는 주제로 데이터 분석을 쉽게 시작할 수 있도록 많은 내용들을 제공하고 있습니다. 데이터 셋 전처리, 분석, 시각화까지 데이터 분석을 위한 일련의 과정을 모두 체험할 수 있습니다. 또한 데이터 셋을 보고 분석 방향을 생각을 해야 하는데, 이러한 과정들도 경험해 볼 수 있습니다. 재밌고 쉽게 데이터 분석을 시작해 볼 수 있다는게 이 책의 가장 큰 장점입니다..
[리뷰] 처음 배우는 쉘 스크립트 현재 우리가 사용하는 많은 서비스들은 리눅스 위에서 동작하고 있습니다. 웹서버를 올리거나 데이터 학습을 위한 모델을 만들 때 또는 서버나 애플리케이션 모니터링에도, 우리는 리눅스 서버에서 쉘 스크립트를 이용해 우리가 원하는 작업을 수행합니다. 쉘 스크립트는 특정 개발 분야에서만 사용하는 것이 아니라 거의 모든 개발자가 사용하고 있거나 사용하게 될 것입니다. 보통 목적에 맞게 반복적으로 사용하는 경우가 많아서 제대로 학습하고 사용하지 않게 되는 것 같기도 합니다. 쉘의 경우는 오래전부터 사용해 왔기 때문에 좋은 자료들과 사례들이 많이 있습니다. 하지만 보통 쉘 스크립트 문법과 리눅스 명령어를 조합해 사용하기 때문에, 막상 시작하려면 어디서부터 해야 하는지 어려울 때가 있을 것 입니다. “처음 배우는 쉘 스..
Test http://ansc01.logm.nfra.io/gatest/A.php