Thursday, 17 July 2014

We've launched the DataCrowds

Today, many companies (even non-IT companies) trying to apply data science techniques to extract valuable insight. But the Problem is that they don’t know how to do it, and data engineers/scientists are very difficult to hire. For this reason, most big data solutions focus on easy-to-use and SQL-on-Hadoop.

But we've started to think from companies standpoint. They just needs an experts, not tools. So we've launched the big data solution crowdsourcing service, called DataCrowds (http://datacrowds.com/). We expect that we can spread our Big Compute solution package faster and solve the Companies's Big Data problems through crowdsourcing the rare data scientists.

Currently it's a beta version and support Korean only.

Monday, 21 April 2014

[채용공고] 풀타임 오픈소스 개발자 및 전략기획 (서울/분당)

공개소프트웨어-중심 빅데이터 플랫폼 회사 (주) 데이터세이어에서 진취적이고 역량있는 오픈소스 개발자와 전략기획자분들을 모십니다. ※ 이미 존재하는 오픈 소스 소프트웨어나 타 제품 기반의 SI 업무 수행이나 컨설팅업무는 수행하지 않습니다. 지원 시 참고 바랍니다.

▣ 풀타임 오픈소스 개발자

1) 자격 요건
 - Hadoop 등 분산처리시스템 경력 3년 이상
 - 원활한 커뮤니케이션 역량
 - 영어 가능자 우대
 - 컴퓨터 사이언스 전공자 우대
 - 오픈소스 참여 경력자 우대
 - 그래프 이론, 실시간 처리, 기계학습 (점진 학습Incremental learning) 분야 전문가 우대

2) 업무 내용
 - 풀타임 오픈소스 설계 및 개발

▣ 전략 기획자

1) 자격 요건
 - 4년제 대졸(학사) 이상
 - 데이터 분석 또는 빅데이터 SW 연구 경력 2년 이상
 - 위키노믹스 IT, 대형 포털 회사 재직 경험 우대
 - 영어 가능자 우대

2) 업무 내용
 - 기술 및 시장 분석
 - 타 사 벤치마킹, 요구분석 후 제품 방향성 정의
 - 제품 전략 및 기술 요구사항 정의

전형 단계

 서류접수 -> 서류 합격자 개별통보 -> 기술 및 인성면접 -> 합격자 개별통보

전형 일정
 - 서류접수 : 2014년 05월 09일(금) 마감
 - 서류전형 합격자 발표 : 2014년 05월 16일(금)까지
 - 면접전형 : 2014년 05월 19일(월) 부터 ~

지원 방법

 - 이력서, 경력기술서 등을 작성하여 job@datasayer.com 으로 전송하시면 됩니다
 - PDF 포맷으로 파일명은 “지원부문_지원자성명”으로 작성

@datasayer 드림

Wednesday, 9 April 2014

[한글 버전] DataSayer의 비전: Big Compute!


위 동영상은 세계적인 물리학자 미치오 카쿠의 동영상입니다. 진화를 가속화시키는 압력evolutionary pressure 에 대한 이야기이죠. 

이와 유사하게, IT 기술도 진화압의 영향을 받으면서 진화evolving 합니다. 웹의 폭발이 대용량 스토리지와 분산처리 기술의 진화를 가속화시킨겁니다. 구글 같은 회사가 빅데이터 기술면에서 가장 앞서나가는 이유가 바로 여기 있습니다. 상대적으로 규모가 작은 회사들은 이런 기술의 진화가 더딜 수 밖에 없습니다. 왜? 필요가 없으니까! 진화압을 덜받기 때문입니다. 

오늘날, 많은 회사들은 (심지어는 비 IT 회사들도) 미처 발견못한 인사이트를 추출하기 위해 데이터 과학 기술을 적용하려는 경향이 있습니다. 이른바 "빅데이터". 아마도 그들의 첫 과제는 하둡과 맵리듀스 공부겠지요. 그러나 이러한 맵리듀스와 ETL 도구들은 (대형 웹서비스들만의 특징인) 대용량 비정형 데이터를 가공하기 위해 진화한 기술임을 기억해야합니다 (이런 데이터를 가지고 있는 회사는 사실상 검색엔진 회사나 웹메일 서비스 같은 대형 웹서비스 밖에 없고 Map/Reduce 같은 도구는 애초 그런 회사에서 특수 목적을 가지고 진화/발전하게 된 것입니다. 그래서 흔히 빅데이터를 적용하려는 기업들이 하둡을 이해하고나면 이런 얘기를 합니다 "그래서 우리회사는 맵리듀스로 뭘 할 수 있지?").

가령, 당신의 쇼핑몰 웹사이트가 하루 100만 페이지뷰이지만, 데이터베이스와 로그데이터가 수십 GB밖에 안된다고 가정해봅시다. 그리고 아마존같은 추천엔진을 만들기 위해 빅데이터 분석을 적용하려고 합니다. 이때 Map/Reduce나 SQL 같은게 정말 적합할까요? 이런 경우는 데이터 사이즈는 작지만 기계학습 추천 모델의 계산 복잡도가 큰 (Big) 것입니다.

간편한 쿼리로 대용량 데이터가공 하는게 중요한 것이 아니라, 분산처리 프로그램의 유연성과 연산 수행 성능이 빨라야하는 바로 이유가 여기에 있습니다 (최근 스파크, 스톰, 그라프랩, 지라프, 그리고 하마와 같은 차세대 플랫폼이 주목받는것도 같은 맥락이겠죠).

이처럼 목표를 우선 명확히하는것이 넘처나는 빅데이터 솔루션에서 필요한 제품을 가리는 방법입니다. 만약 빅데이터 분석의 과학적이고 진보된 방법을 찾고 있다면 우리가 돕겠습니다. 빅 컴퓨트, 그게 빅데이터분석의 미래이고 우리의 비전입니다!

Friday, 14 March 2014

Apache Hama Benchmark Test at LG CNS

In latest version 0.6.4 of Apache Hama, the memory efficiency has been greatly improved. Since PageRank is an good example of communication-intensive processing, we've benchmarked it.

This PageRank Benchmark test performed by Victor Lee and David Min of the Future Tech team at LG CNS. Thanks!

2 Node Hama Cluster Test:
  • H/W : 16 Cores and 14GB memory per node 
  • 6 tasks (opt : -Xmx2048m, -Xmx4096m)
verticesedges
per vertex
Hama 0.6.3Hama 0.6.4
-Xmx2048m-Xmx4096m-Xmx2048m-Xmx4096m
40000500 145.301 seconds121.167 seconds208.423 seconds196.296 seconds
40000600169.238 seconds160.213 seconds253.359 seconds241.447 seconds
40000700232.757 seconds190.421 seconds289.457 seconds271.362 seconds
40000800OutOfMemory220.553 seconds334.555 seconds328.391 seconds
40000900 253.797 seconds376.871 seconds385.595 seconds
400001000 280.575 seconds433.763 seconds418.516 seconds
400001100 323.785 seconds488.072 seconds466.849 seconds
400001200 368.119 seconds575.149 seconds511.822 seconds
400001300 398.843 seconds662.303 seconds554.057 seconds
400001400 469.371 secondsOutOfMemory649.482 seconds
400001500 678.136 seconds 670.641 seconds
400001600 OutOfMemory 729.434 seconds
400001700   780.629 seconds


Single Node Hama Cluster Test:
  • H/W : 16 Cores and 14GB memory per node 
  • 3 tasks (opt : -Xmx2048m, -Xmx4096m)
verticesedges
per vertex
Hama 0.6.3Hama 0.6.4
-Xmx2048m-Xmx4096m-Xmx2048m-Xmx4096m
4000010049.065 seconds49.016 seconds75.981 seconds75.967 seconds
4000020097.189 seconds91.185 seconds148.238 seconds139.115 seconds
40000300160.341 seconds133.155 seconds229.183 seconds226.278 seconds
40000400OutOfMemory193.216 seconds310.489 seconds301.418 seconds
40000500 265.385 seconds412.665 seconds382.675 seconds
40000600 322.875 seconds514.926 seconds460.638 seconds
40000700 441.495 secondsOutOfMemory568.985 seconds
40000800 OutOfMemory 665.094  seconds
40000900   764.596  seconds

Tuesday, 11 March 2014

Our vision: Big Compute!


 Above is the world-class physicist Michio Kaku's video clip, "Mankind Has Stopped Evolving". He tells about the pressure that accelerates the evolution. Similarly, the explosion of internet accelerated the evolution of Big Data technologies. And, that is why Google leads the world in the field of Big Data technologies. Others are relatively under the low pressure, so they are usually just followers.

 Today, many companies (even non IT companies) trying to apply data science techniques to extract valuable insight. Maybe their first step is to learn Hadoop and MapReduce. However, the Hadoop MapReduce and ETL processing tools, are only fit for processing unstructured large text sets, such as web documents and emails. You should remember that this sort of data is characteristic of very large-scale web services, and MapReduce and ETL processing tools were originally evolved from there.

 Suppose your online shopping mall gets over 1 million page-views per day, but the size of product database and web server logs are few ten GB level. And, you want to build a recommendation system based on user action logs. Is large-scale data processing engine only important? In this case, your data isn't big but computation complexity is big. Data is just a data.

 Like this, having a clear goal can help you choose the big data solution that is right for your company. If you are looking for scientific and advanced way to analyze big data, DataSayer is ready to help.

Big Compute! That's our VISION!