음악 추천 알고리즘 : Hierarchical Poincaré Embeddings

해커 뉴스[1]에서 Hierarchical Poincaré Embeddings를 이용하여 음악 추천을 하는 이야기를 봤는데, 뭔 소리인지는 잘 모르겠지만-_- 기록차 남겨둠. 나는 이렇게 이해했는데, 아무래도 이 포스트는 오류를 포함하고 있을 가능성이 매우 높다. ㅋㅋ

일전에 Matrix factorization 이야기[2]를 했는데, 뭐 잘 모르지만 꽤나 광범위하게 쓰이는 추천 알고리즘 같다.

기계 학습을 시킬 때 학습대상의 특징을 뽑아내서 분류하고 학습하는 방식을 많이 쓰는 모양인데, 이 때 neighbor를 판정하는 방법으로 그냥 Euclidean space를 많이 쓰는 듯 하다. Matrix factorization도 오류 판정을 root mean squared를 일반적으로 쓰는 듯 한데, 이것도 일종의 Euclidean이라 봐야 할 듯 하다.

그런데 페이스북 소속 연구원 2명이 계층적 구조를 가진 데이터를 학습할 때 Euclidean 대신 Poincaré ball을 쓰면 더 나은 결과가 될 듯 하다는 주장을 하는 듯한-_- 글[3]을 대충 봤다. 아무래도 실제 회사들의 데이터들에서는 Zipf’s law처럼 값들이 한쪽에 쏠려있는 경우도 많으니까 그런 듯?

iHeartRadio라는 인터넷 라디오 방송 플랫폼이 있다고 한다. 나는 처음 들었는데 나름 꽤 큰 회사인 듯? 이 iHeartRadio 소속 4명의 연구원들이 Poincaré ball이 낫다는 주장[3]을 보고, 음악 추천에 시험해 본 듯 하다.[4] 음악의 메타데이터가 ‘장르-아티스트-곡명’ 과 같은 계층적 데이터라서 적용가능한 듯?

예를 들어 Matrix factorization으로 추천 목록을 만들면

The Shins – September
Lilly Hiatt – Jesus Would’ve Let Me Pick
METRIK – We Got It
Matrix & Futurebound – Magnetic Eyes
Dads – Dads (feat. Berried Alive & Lucas Mann)
Ugly Casanova – Spilled Milk Factory
Cursive – Ouroboros
Reggie and the Full Effect – Your Girlfriends
Hey Mercedes – What You’re Up Against
The Blood Brothers – Laser Life

와 같은 곡들이 추천되고, Poincaré 모델로 추천하면

The Strokes – Taken for a Fool
Arctic Monkeys – Brianstorm
The Strokes – 12:51
The Fratellis – Tell Me A Lie
Kings of Leon – Crawl
The Strokes – Is This It
Franz Ferdinand – Ulysses
Cage the Elephant – Shake Me Down (Unpeeled)
Death Cab for Cutie – Stay Young, Go Dancing
Kings of Leon – Notion

와 같은 곡들이 추천된다고 한다. 딱 봐도 완전 판이한 결과가 나온다. 근데 아는 아티스트가 하나도 없네-_- 요새는 맨날 아이돌 마스터 음악만 들어서…-_-

여하간 iHeartRadio에서는 사용자를 두 그룹으로 나누어 한 쪽은 푸앵카레 모델에 기반한 음악을 추천하고(treatment 그룹), 다른 한 쪽은 기존의 행렬 인수분해 기법에 기반한 음악을 추천하였더니(control 그룹), 평균 음악을 듣는 시간이 다음과 같게 나왔다고 한다.[4;p5]

헐.. 여러모로 월등히 우월하네. 현재 iHeartRadio에서는 푸앵카레 모델에 기반하여 디폴트 플레이리스트 생성기가 작동된다고 한다.

Matrix factorization을 이용한 학습 추천 시스템이 나름 꽤 널리 쓰인다고 들었는데, 산업의 종류에 따라서는 Poincaré model로 학습해서 추천하는 걸로 빠르게 바뀌지 않을까 싶은 생각도 든다. ㅎㅎ

.


[1] Music Recommendations in Hyperbolic Space (hacker news)
[2] 내 백과사전 영화 추천 알고리즘 : Matrix factorization 2019년 8월 4일
[3] “Poincaré Embeddings for Learning Hierarchical Representations”, Maximilian Nickel, Douwe Kiela arXiv:1705.08039 [cs.AI]
[4] “Music Recommendations in Hyperbolic Space: An Application of Empirical Bayes and Hierarchical Poincaré Embeddings”, Tim Schmeier, Sam Garrett, Joseph Chisari, Brett Vintch arXiv:1907.12378 [cs.IR]

node.js로 자작 스마트 스피커 만들기

스마트 스피커로 음악을 좀 듣고 싶은데, 본인이 듣는 음악의 절대다수는 국내에서 발매되지 않는다. 시판되는 상용 스마트 스피커들은 스트리밍 판매수익 때문에, 애석하게도 개인이 가지고 있는 mp3파일을 재생하는 기능이 없다. (물론 블루투스 스피커로 쓰면 되긴 된다.) 내가 말하는 음악을 재생해주는 스피커를 만들 수 없을까 궁리를 좀 해봤다.

일전에 만든 스마트 거울[1]은 크롬에서 https 사이트가 아니면 마이크 인식이 안 되도록 보안 업데이트를 하는 바람에 annyang이 더 이상 작동하지 않아 음성인식이 되지 않았다.

일전에 메이커스 매거진 부록으로 라즈베리 파이로 만든 스마트 스피커[2]를 어떻게 써먹어 볼 수 없을까 싶었는데, 본인이 node.js를 전혀 할 줄 모르기 때문에 어떻게 손을 댈 수가 없었다. ㅋㅋ 그래도 산 게 왠지 아깝구만 젠장.

뭐 여하간 어찌 되겠지 싶어서, node.js에 대해 검색을 열라게 해 봤다. 진짜 구글링을 일억 번은 한 듯-_-

그래서 어째저째 작동하는 물건을 만들었다. stt와 tts 부분은 일단 KT 서버를 활용한다. 일단 음성을 텍스트화한 후에는 특정 키워드가 들어있으면 그에 해당하는 정보를 쏴 주고, 없으면 KT의 대화서버로 보내서 나온 결과를 쏴 주도록 코드를 작성했다. 근데 node.js에 대해 아는 게 없으니 너무 멘땅에 헤딩 식으로 코딩했다. 이것 때문에 3일이 그냥 날라갔구만-_-

재생시간 1분 21초.

와 요거 만드는데 그 수많은 고생을 하다니-_- 아직 음악 재생 부분은 구현도 못했고, 코드는 100줄 남짓인데 하도 코드 수정을 많이해서 들여쓰기도 엉망이고 주석도 거의 없다-_- 어쨌든 음성인식 결과를 웹브라우저에 쏴 줄 수도 있으니 이런저런 이미지나 다양한 효과는 가능할 듯 하다. 참고로 서버의 데이터를 클라이언트의 웹브라우저에 출력하는 방법은 SSE라는 걸 사용했는데, 이런 게 있는 줄 처음 알았네. ㅎㅎ 어느 친절한 분이 설명[3]을 잘 해 두었으니 참고 바람.

참고로 hotword인 ‘기가지니’는 네 글자인데, 너무 길어서 ‘지니야’로 하니까 자꾸 아이패드의 시리가 반응한다-_- 본인은 아이패드의 siri와 네이버 wave[4]로 mBox[5]를 음성제어하고 있기 때문에 ‘기가지니’를 선택할 수 밖에 없었다.

근데 하드웨어가 안 좋은건지 몰라도, 음성인식률이 너무 떨어져서 실사용은 어려울 것 같다. 아 이걸로 음악 좀 듣고 싶은데, 아무래도 어려울 듯.

.


[1] 내 백과사전 음성인식 스마트 거울 만들기 2016년 11월 2일
[2] 내 백과사전 메이커스 매거진 부록 AI Maker Kit​ 2018년 8월 12일
[3] [웹개발] SSE ( Server-Sent Events) 란 무엇인가 (hamait.tistory.com)
[4] 내 백과사전 네이버 wave 사용 소감 2018년 9월 8일
[5] 내 백과사전 mBox : 음성으로 적외선 리모컨 신호 제어 2018년 12월 8일

한국어 번역 방해기

숙박업자가 숙박 리뷰에 나쁜 평을 삭제하기 때문에, 외국 숙박 리뷰에서 번역기를 회피하는 한국어 사용자 전용 리뷰를 남기는 사람이 있었다.[1,2,3] 이거 제일 처음에 누가 생각한건지 하여튼 잔머리 하나는 끝내주는구만. ㅋㅋ

어떤 사람이 한국어 번역 방해기[4]를 만든 걸 봤는데, 이런 작업을 자동화 해주는 사이트다. 근데 시험삼아 ‘한구거 벉엮 방햬긔’를 구글 번역기로 돌려봤더니[5] ‘Korean translation jammer’라고 정확하게 번역 되어 나온다!!! 구글 번역기 진짜 대단하구만. ㅋㅋㅋ 이거보다 더 높은 레벨의 jammer filter를 사용해야 정상번역이 안 된다.

일전에 본 1픽셀 방해를 하거나[6]나 방안의 코끼리[7]를 두어 이미지 인식 방해를 하는 것처럼, 이것도 문장 인식 방해라는 점에서 일종의 인공지능 fooling이라 생각해도 좋을 듯 하다. 일전에 의료 영상에 악의적 에러를 포함시켜, 인공지능의 오진을 유도하는 공격법에 대한 연구[8,9]를 들은 적이 있는데, 이런 종류의 jammer를 만들고 그것을 회피하는 등의 창과 방패싸움은 끝이 없을 듯 하다.

.


2019.5.13
“한글 번역 방해기”를 소개합니다. (bomdol.tistory.com)

.


2019.7.18

단어우월효과는 한국어에만 있는 현상은 아니라고 함.

.


[1] 조선일보 ‘한국인 전용’ 여행 후기 번역기 돌려보니? 2017.05.22 21:44
[2] 외국 숙박 후기에서 보는 한글의 위대함.jpg (todayhumor.co.kr)
[3] 인사이트 ‘구글 번역기’는 해석 못하지만 우리는 알아듣는 한글의 위대함 2018.10.08 19:23
[4] 한국어 번역 방해기 (xeno.work)
[5] 한구거 벉엮 방햬긔 google 번역 결과 (translate.google.com)
[6] 내 백과사전 1픽셀로 deep neural network를 무력화 하기 2017년 10월 31일
[7] “The Elephant in the Room”, Amir Rosenfeld, Richard Zemel, John K. Tsotsos, (Submitted on 9 Aug 2018) arXiv:1808.03305 [cs.CV]
[8] https://www.facebook.com/yoonsup.choi/posts/2744397698933510
[9] Samuel G. Finlayson, et al. “Adversarial attacks on medical machine learning”, Science 22 Mar 2019: Vol. 363, Issue 6433, pp. 1287-1289, DOI: 10.1126/science.aaw4399

DeepHOL : 딥러닝을 이용한 수학 명제 자동증명 시스템

수리논리학에 대해 아는 건 하나도 없지만-_- 여하간 대충 검색해서 찾아본 내용을 기록함. ㅋㅋㅋㅋ 본인은 초 문외한이므로 그냥 개소리라고 생각하시라. ㅎㅎ

십 몇 년 전에 처음 Automated theorem proving에 대한 개념을 처음 들었을 때, 너무 놀라서 의자에서 떨어지는 줄 알았다-_- 진짜다-_- 위키피디아를 대충 보니 나름 역사가 있는 분야인 듯. ㅎㅎㅎ 증명을 찾아주는 종류의 소프트웨어가 있고, 찾은 증명이 맞는지 확인해주는 종류의 소프트웨어가 있는 듯 하다. 본인은 어느 쪽도 써 본적은 없다.

0차 논리는 변수없이 참/거짓을 판정하는 서술을 말한다. 참/거짓이 변하면 안된다. 명제 논리(propositional logic)라고도 부른다. “지금 비가 내린다” 같은 거다. 고등학교에서 배우는 ‘명제’라고 생각하면 될 듯 하다. 수리논리학의 위키피디아라 할 수 있는 nLab의 설명[1]도 참고하기 바란다.

1차 논리는 술부에 Quantifier로 한정된 변수를 쓰는 것이 허용가능한 논리를 말한다. 위키피디아의 설명에 따르면 1차 논리에서는 ‘소크라테스는 사람이다(Socrates is a man)’는 ‘x는 소크라테스이면서 x는 사람인 x가 존재한다(there exists x such that x is Socrates and x is a man)’로 표현 가능하다. 이게 무슨 개소리지…-_- 여하간 1차 논리에서 참인 모든 명제는 증명 가능하다는 괴델의 완전성 정리가 성립한다. 1차 논리는 술어 논리(predicate logic)라고도 부른다. 마찬가지로 nLab의 설명[2]을 참고바람.

2차 논리는 별 제한없는 논리 같은데, Second-order logic이랑 Higher-order logic이 뭐가 다른지는 잘 모르겠다. nLab의 설명[3,4]을 보니 2차 논리 이후로도 논리의 차수를 확장할 수 있는 듯 한데, 2차 이상의 논리들을 가리키는 듯. 여기서는 참이라도 증명이 안될 수도 있다는 괴델의 불완전성 정리가 성립한다.

위키피디아를 보니 증명이 맞는지 확인해주는 Proof assistant 소프트웨어 중에서 HOL Light라는 게 있다고 한다. 나는 이름을 들어본게 Coq 밖에 없었는데, 위키를 보니 엄청나게 종류가 많은 것 같다. 위키피디아에는 없지만 경북대학교 소속[5]의 정주희 교수가 proofmood[6]라는 소프트웨어를 만들고 있다고 한다. 근데 1차 논리밖에 안 되는 듯?

여하간 구글소속 연구자들이 이 HOL Light를 기반으로 deep leaning과 supervised Learning을 이용하여 명제의 증명까지 검색하는 DeepHOL이라는 걸 만든 모양이다.[7] 사실 수학적 명제의 증명이든 바둑[8]이든 간에 데이터를 디지털화만 잘 해 두면, 나머지는 주어진 규칙(연역, 삼단논법 등)을 만족하는 거대한 search space 내에서 올바른 경로를 탐색하는 기법이라서, 둘 다 구글이 잘 할 듯해 보인다. ㅎㅎ

Proof assistant로 증명을 확인한 가장 유명한 사례가 Kepler conjecture인데, 일전에 책[9]을 읽은 적이 있다. 이 논문[7]에서도 언급이 되어 있는데, 아무래도 증명과정의 디지털화가 잘 돼 있어서 선택한 듯 하다.

내가 보기에는 인공지능이 의사를 완전 대체할 것이라는 주장보다는, 인공지능으로 사진판독을 수월하게 하는 등등 의사의 잡무를 줄여 도움을 준다는 주장이 더 설득력이 있어 보인다. 뭐 여하간 이 결과가 수학계에 어떤 영향을 줄런지는 잘 모르겠지만-_- 마찬가지로 인공지능이 수학자를 대체한다기 보다는, 수학자의 업무량을 줄여주지 않을까 하는 망상이 든다. 그런 의미에서 Horgan 선생이 희망을 갖기[10]에는 아직 이르지 않을까 싶다. ㅎㅎㅎㅎ

.


2019.8.4
The Mizar proof system (2017) (hacker news)

.


[1] propositional logic (ncatlab.org)
[2] predicate logic (ncatlab.org)
[3] second-order logic (ncatlab.org)
[4] higher-order logic (ncatlab.org)
[5] Joohee Jeong (datamood.com)
[6] proofmood (datamood.com)
[7] “HOList: An Environment for Machine Learning of Higher-Order Theorem Proving (extended version)”, Kshitij Bansal, Sarah M. Loos, Markus N. Rabe, Christian Szegedy, Stewart Wilcox (Submitted on 5 Apr 2019) arXiv:1904.03241 [cs.LO]
[8] 내 백과사전 컴퓨터 바둑개발 현황 2017년 1월 3일
[9] 내 백과사전 [서평] 케플러의 추측 2013년 8월 19일
[10] 내 백과사전 수학적 증명의 종말과 Horgan 선생의 변명 2019년 3월 17일

인공지능과 고양이가 착시를 보는 법

GAN이 인물사진을 생성하는데는 매우 뛰어나다는 연구[1]가 있는데, 그에 반해 착시를 일으키는 이미지를 생성하는 데는 별로 적합하지 않다는 연구[2]를 본 적이 있다.

그에 반해 DNN으로 착시를 이해시키는데 성공했다는 연구[3]도 있던데, 심리학 저널에 실리는 걸 보면 나름 심리학계에서 관심이 있는 듯. PredNet[4]이라는 걸 이용했다고 한다.

이 연구[3]에서 쓰인 착시 이미지는 Rotating Snakes[5]라고 한다. 아마 대부분 한 번쯤 본 적이 있을 듯. PredNet은 비디오의 어느 프레임을 보고 그 다음 프레임이 어떨지를 예측하는 코드인 모양인데, 착시 이미지는 실제로 정지된 이미지이지만 마치 움직이는 것 처럼 보이니까, 이걸 이용해서 DNN도 착시의 움직임을 예측한 듯 하다.


클릭하면 커진다. 모니터 가까이서 이미지의 중심을 주시하면 원이 회전하는 것 처럼 보인다.

위키피디아에 따르면 이 이미지를 만든 사람은 키타오카 아키요시(北岡 明佳)라는 심리학자라고 한다. 일전에 스기하라 코이치 선생의 착시[6]도 본 적이 있는데, 일본인들이 이런 재밌는 걸 많이 하는 듯. ㅎㅎㅎ 일전에 본 색 착시[7]를 소개하는 ねとらぼ 기사[8]가 생각난다.

키타오카 선생은 아까 DNN으로 착시를 학습시키는 연구[3]의 저자 목록에 들어가 있다. 트위터도 하는 모양[9]인데, 보니까 재밌는 트윗이 많구만. ㅋ

Nottingham 대학 심리학과 소속[10]의 Steve Stewart-Williams 선생의 트윗[11]을 보니 이 Rotating Snakes가 고양이에게 통하는 듯 한 영상을 소개하고 있다.

이거 ethology 연구하는 사람은 이미 다 알고 있는 건지는 모르겠는데, 나는 꽤 신박하다. ㅎㅎ 일전에 아이추판다 선생이 색 착시가 주는 이점에 대해 쓴 글[12]이 생각나는데, Rotating Snakes에 의해 발생하는 착시가 생존에 어떤 이점이 있어서 인간과 고양이에게 진화되었는지 궁금해지는구만.

.


[1] 내 백과사전 generative adversarial network로 생성한 고해상도 인물 이미지 2017년 10월 28일
[2] “Optical Illusions Images Dataset”, Robert Max Williams, Roman V. Yampolskiy, (Submitted on 30 Sep 2018 (v1), last revised 16 Oct 2018 (this version, v2)) arXiv:1810.00415 [cs.CV]
[3] Eiji Watanabe, Akiyoshi Kitaoka, Kiwako Sakamoto, Masaki Yasugi, Kenta Tanaka. “Illusory Motion Reproduced by Deep Neural Networks Trained for Prediction”, Frontiers in Psychology, 2018; 9 DOI: 10.3389/fpsyg.2018.00345
[4] PredNet (coxlab.github.io)
[5] Rotating Snakes (illusionsindex.org)
[6] 내 백과사전 스기하라의 원기둥 착시 2016년 10월 10일
[7] 내 백과사전 재미있는 색 착시 2017년 5월 13일
[8] ねとらぼ 青と黒を移動させると白と金……? 見える色が変わるドレスの錯視が再現されたイラストにびっくり 2017年05月11日 20時28分
[9] Akiyoshi Kitaoka (twitter.com)
[10] http://www.stevestewartwilliams.com
[11] https://twitter.com/SteveStuWill/status/1121531513055485952
[12] 합리적 착시(?) (nullmodel.egloos.com)

Google DeepMind가 중학 수학시험에 떨어지다

futurism 기사[1]를 보니 구글 딥마인드의 인공지능이 영국의 중학 수학시험 문제 풀기에 도전했지만 낙제한 듯 하다. arXiv에도 올라와 있다.[2]

물론 수학 문제는 자연어로 주어지고, 문제를 바탕으로 인공지능이 추론해서 답을 도출하는 형태의 시험을 시도한 듯 하다. 인공지능 모델은 단순 LSTM과 Attentional LSTM과 Transformer model을 썼다고 한다. transformer model은 처음 듣는 용어인데, 이 동네는 자고 일어나면 새로운 용어가 생겨나니 미치겠구만-_-

내 생각으로는 자연어 처리가 잘 되면 자연스럽게 이런 문제도 풀릴 것 같은데, 여하간 일단 완전한 인간 수준의 자연어 처리가 어려워서 국지적 문제에 도전하는 듯 하다.

수학문제가 어떤가 싶어 봤는데, 논문에 16세 수준이라고 언급[1;p4]되어 있다. 근데 Appendix B와 D에 샘플 문제가 있는데, 영국 나이로 16세면 한국의 고등학생 같은데, 문제가 좀 너무 쉬운 수준 아닌가??? 일전에 영국의 중학수학 수준이 내려가고 있다는 이야기[3]를 들었는데, 진짠가 모르겠다.

뭐 자신의 논리적 추론을 스스로 설명도 못하는 애들이 숫자맞추기 게임만 열라게 해대는 한국의 변태적인 선행학습으로 인하여, 내 생각에 편향이 생긴 것일 수도 있다. ㅎㅎㅎ

.


[1] futurism Google’s Best AI Just Flunked a High School Math Test April 6th 2019
[2] David Saxton, et al. “Analysing Mathematical Reasoning Abilities of Neural Models”, (Submitted on 2 Apr 2019) arXiv:1904.01557 [cs.LG]
[3] 내 백과사전 영국의 중학교 수학은 쉬워지는가? 2012년 6월 24일

랜덤하게 연결한 Neural Network의 이미지 인식 능력

요새 인공지능 관련 사람들에게 화제가 되고 있는 논문[1]이 자주 눈에 띄길래, 이게 뭔가 싶어서-_- 대충봤다. 아마 관련 업계 사람들은 대부분 보셨을 테지만, 본인같은 문외한은 처음 듣는 이야기라 대충 포스팅해봄-_- 이건 그냥 문외한이 의식의 흐름을 따라 쓴 거라서 개소리라고 흘려들으시길 바란다. ㅋㅋㅋ

일전에 위키피디아 연결성에 대한 글[2]을 쓰면서 Watts–Strogatz model에 대한 네이쳐 논문[3]을 대충 본 적이 있는데, Xie 선생의 논문[1]에도 레퍼런스에 언급이 있다. 여하간 이건 완전 생판 랜덤은 아니고 밀그램 선생의 좁은 세상 실험에 영감을 받은 거라서 completely regular graph랑 랜덤 그래프랑 두 종류 사이에 어중간한 위치에 있는 듯하다.

여하간 이미지 인식을 위한 Neural Network 모델로 ResNets[4]이나 DenseNets[5] 같은게 유명한 모양인데, 뭔 말인지 하나도 모르겠지만 여하간 현존하는 가장 이미지 인식력이 좋은 모델 중 하나인 듯 하다.

근데 Watts–Strogatz model로 생성한 그래프로 이미지 인식을 하면 정확도가 이런 것들[4,5] 보다 쪼매 더 올라 가는 것 같다. 기존이 77%정도라면 이건 79%정도? 차이 자체는 적긴 한데, 랜덤하게 만든게 crafted된 것 보다 성능이 좋으면 좀 의미가 큰 거 아닌가?

random collection이 craft collection을 이긴다는 이야기를 들으니, 원숭이 포트폴리오(원숭이가 고른 주식 목록)가 시중에 존재하는 대부분의 가중 인덱스 펀드를 이긴다-_-는 연구[6,7]가 생각난다. ㅋㅋㅋㅋ 주식을 열심히 연구해서 골라봤자 큰 파도의 흐름에는 못당한다는 점에서 버튼 멜킬 선생의 주장[8]에 어느 정도 일리가 있다. 역으로 생각하면, 기존 인공지능 모델을 짜잘하게 개선하는 것 보다 기똥찬 모델 하나를 생각해 내는게 더 큰 성과를 얻을 수 있을 것 같기도 하다.

개인적으로 궁금한 부분은 Watts–Strogatz model로 생성한 그래프는 backpropagation처럼 노드의 연결 조정을 해서 트레이닝을 해야 하는데, 어떤 방법으로 트레이닝을 하는지 잘 모르겠다. 뭐 사실 전체 다 모르겠다-_-

여하간 예전에 Joseph LeDoux 선생의 책[9]을 읽을 때 보니까, 사람의 뉴런이 태어난 이후로 연결 되었다 끊어졌다 하면서 학습을 하는 듯 하던데, 뇌의 뉴런 연결 상태가 딱히 결정론적으로 작용하지 않고 랜덤연결로도 대충 지성이 잘 작동할 수 있다는 근거의 하나가 될 수도 있지 않을까-_- 하는 헛 망상을 좀 해본다. ㅋㅋ 이게 진짜라면 랜덤 연결을 보면서 뇌의 이 부분이 왜 연결됐고, 어떻게 작동하고 이런 걸 따지는게 의미 없는 건가-_-??

.


2019.4.8

재생시간 39분 3초.

.


[1] Saining Xie, Alexander Kirillov, Ross Girshick, Kaiming He, “Exploring Randomly Wired Neural Networks for Image Recognition”, arXiv:1904.01569 [cs.CV]
[2] 내 백과사전 좁은 세상과 위키피디아 링크의 연결성 2018년 2월 28일
[3] Duncan J. Watts & Steven H. Strogatz, “Collective dynamics of ‘small-world’ networks”, Nature, volume 393, pages 440–442 (04 June 1998) doi:10.1038/30918
[4] Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, “Deep Residual Learning for Image Recognition”, arXiv:1512.03385 [cs.CV]
[5] Gao Huang, Zhuang Liu, Laurens van der Maaten, Kilian Q. Weinberger, “Densely Connected Convolutional Networks”, arXiv:1608.06993 [cs.CV]
[6] Cass Business School, Monkeys vs Fund managers – An evaluation of alternative equity indices Date published: Wednesday, 3 April, 2013
[7] Barron’s Monkeys Are Better Stockpickers Than You’d Think June 19, 2014
[8] 내 백과사전 [서평] 시장 변화를 이기는 투자 2017년 9월 30일
[9] 시냅스와 자아 – 신경세포의 연결 방식이 어떻게 자아를 결정하는가 조지프 르두 (지은이),강봉균 (옮긴이) 동녘사이언스 2005-10-28 원제 : Synaptic Self (2002년)

네이버 클로바vs아마존 알렉사vs구글 홈 실사용 평가

유튜브에서 스마트 스피커 비교하는 영상[1,2]이 있던데, 나름 재미있다. 재생시간 6분 10초[1], 6분 50초[2].

유튜브 등에 존재하는 스미트 스피커 리뷰영상들이 상당히 많은데, 실사용을 비교하는 영상보다는 구독자의 모으기를 유도하는 영상이 많아서 아쉽다. 그리하여 본인이 네이버 웨이브[3], 아마존 알렉사[4], 구글 홈[5]을 실사용한 후기를 실제로 써볼 테니 구매에 참조하기 바란다.

사실 컴퓨터의 입출력 장비로는 키보드/마우스보다 음성/터치가 훨씬 자연스럽다. 프로그래머나 작가 등등 특수 직업군의 입장에서는 키보드가 자연스럽지만, 궁극적으로 사람의 의도를 파악하여 자동적으로 입력을 하게 되는 날이 온다면, 음성 입력이나 뇌파 입력이 훨씬 편할 날이 올 것이다. 근데 이런건 초초초 먼 미래일 듯 하다. ㅋㅋㅋㅋ

일단 특수 직업군을 제외한 일반 대중의 관점에서, 미래에는 틀림없이 컴퓨터에게 어떤 지시를 내릴 때, 키보드로 할 가능성 보다는 음성으로 할 가능성이 훨씬 높다고 본다. 실제로 스마트 스피커의 사용자수는 급속히 증가하고 있고[6], 아직 불완전하긴 하지만, 터치 인터페이스가 컴퓨터를 모르는 사람에게도 사용성을 가져왔듯이[7], 궁극적으로는 음성 명령이 일반 대중의 관점에서 컴퓨터 입출력의 대세가 될 것이라고 본다. 먼 과거(?)에 마우스라는 입출력기기가 해커들에게 컴퓨팅 파워의 낭비라고 비난을 받았던 일[8]을 돌이켜보면, 직관적 입출력 인터페이스는 컴퓨터 입출력의 궁극적인 지향임을 느낄 수 있다. 뭐 스마트 스피커가 필요없다고 생각하는 사람은 당연히 필요없다. 스마트폰이 대세가 되어도 피쳐폰으로 만족하는 사람은 언제나 있기 마련이다. ㅋ

여하간 세 개의 스마트 스피커를 수 개월 실사용 했으니, 유튜브의 구독자 구걸을 하는 어중이 떠중이들 보다는 나만큼 실사용에 대해 실용적 평가를 할 수 있는 사람은 드물다고 자부한다. ㅎㅎㅎ

.


//아마존 에코 (본인은 일본어로 설정해서 사용하고 있음.)

다양한 서드 파티의 호환성이 장점이긴 하지만, 그런 장점들은 한국에서 서비스 하고 있지 않으므로 체감하기 힘들다. 이것을 제외해도, 아마존 에코는 음성 인식 그 자체 본연의 성능만으로도 뛰어나다. 예를 들어, 방 안에서 아무 방향을 향해, 술먹은 듯 불명확하게, 힘없이, 대충 アレックサ、部屋をつけて라고 말하면 필립스 휴[9]가 켜진다! 다른 스피커를 써보니 이게 대단한 거다. 사람이 편하자고 쓰는 물건인데, 퇴근한 후에 피곤해 죽겠는데, 스마트 스피커에게 이것 저것 시켜서 말을 안 들어 스트레스를 받으면 완전히 주객전도다.

그리고 아마존 에코는 시기에 따라 적절한 컨텐츠를 항상 제공한다. 예를 들어 연말이 되면 크리스마스에 대한 알렉사 오리지널 스토리를 제공하고, 칠석이 되면 칠석과 관련된 이야기가 새로 준비 되어 있으니 사용해보라는 메시지를 준다. 또한 월드컵이 되면, 월드컵에 맞는 컨텐츠를 제공한다. 즉, 계절에 맞는 컨텐츠를 지속적으로 제공해서 사용을 유도한다. 확실히 디바이스 사업은 컨텐츠를 동반하지 않으면 성공하기 어렵다는 걸 실감한다. 아이폰도 앱스토어가 없으면 절대 성공 못했을 거라고 장담한다.

본인은 에코 중에서 가장 비싼 모델인 에코 플러스를 쓰고 있는데, 가장 비싼 물건이라 그런지 블루투스 스피커로서는 최고의 성능이다. 나름 블루투스 스피커/헤드셋을 많이 사봤다고 자부하는데(돈도 많이 날렸다-_-) 블루투스 버전이 올라가면서 요새는 끊김이나 기기 상성 같은게 많이 덜해졌지만, 그래도 은근 남아있다. 블루투스 스피커로서 각종 상황(물건을 가린다든지 빠르게 움직인다든지 등)에도 안 끊기고, 멀티 디바이스 지원하고, 편의성이 있으면 거의 최고급이라 말할 수 있다. ㅎㅎㅎ

근래에 일본에서 에코 쇼가 출시 됐길래 유튜브로 실 사용 영상을 꽤 많이 봤는데, 확실히 비주얼 인터페이스를 가지고 있으니 나름 사용성이 낫다. 향후 스마트 스피커는 이쪽 방향으로 가지 않을까 싶다.

//네이버 웨이브

본인은 네이버 클로바의 다양한 라인업 중에서 conical frustum 모양의 웨이브를 가지고 있다. 외양은 제일 멋있는데-_- 성능은 아마존 에코보다 한 수 아래인 듯 하다. ㅋ 구매 초기에는 사소한 오작동이 있었는데, 업데이트 이후에는 없어졌다.

하지만 음성 인식력이 가장 떨어진다. 아마존 에코나 구글 홈은 방안에서 아무 방향이나 말해도 거의 알아듣는데, 클로바는 반드시 스피커를 향해서 일정 크기의 힘을 줘서 말해야 알아 듣는다. 이게 나름 꽤 귀찮은데, 아마존 에코나 구글 홈에서 아무 방향을 향해 아무렇게나 말해도 인식하고 작동한다는 메리트가 대단히 크다. 아마 오작동에 대한 비난을 피하고자 마이크의 감도를 낮춘게 아닐까 싶긴 한데, 실제로 써보면 불러도 대답없고, 그래서 또 불러야 되는 행위 자체가 되게 불편하다.

블루투스 스피커로서의 성능으로는 조금 불만이 있다. 은근히 소소한 끊김이 있어서 음악 감상에 훼방이 된다. 그리고 음악이 나오지 않고 블루투스만 연결된 상태에서 뉴스를 읽어 달라고 하면, 블루투스 연결이 꾾긴다. 이유는 모르겠음. 여하간 꽝이다. 그리고 이퀄라이저 설정이 없다.

한국어로 사용가능하다는 것은 최고의 장점이다. ㅎㅎㅎㅎ 나름 스마트 허브의 기능을 제공하고 있어서 mBox[10]를 활용하면 적외선 리모컨 기기까지 사용 가능하다. 직류전압 아답터가 작아서 머리가 큰 에코나, 구글 홈 보다 멀티탭에 꽂기 용이하다. 이게 (네이버 웨이브의 장점은 아닐지 몰라도 여하간) 나름 대단한 장점임. ㅋ

//구글 홈 (본인은 일본어로 설정해서 사용하고 있음.)

한국어로 설정하면 똥같은 남자 목소리가 나와서-_- 여자 목소리가 나오는 일본어로 쓰고 있다. ㅋㅋㅋㅋ 크롬캐스트를 말로 제어할 수 있는 건 마음에 든다. 근데, 크롬캐스트로 추천하는 유튜브 영상을 틀어보라고 시키면 성능이 너무 똥이다-_- 분명히 내가 다운보트 누른 영상인데, 계속 나온다. 이건 스피커의 능력인지, 구글의 능력인지 여하간 초 멍청함.

블루투스 스피커로서는 완전 꽝인데, 왜냐하면 블루투스 스피커의 볼륨이 스피커 자체의 볼륨과 연동된다. (극초창기 안드로이드도 이랬음) 그래서 음악의 볼륨을 올리면 다른 컨텐츠의 볼륨도 올라가는데, 이거 여간 불편한게 아닐 수 없다. 이거 실제로 써 본 사람도 없나??? 그리고 저음이 지나치게 강해서, 이퀄라이저 설정에서 베이스 볼륨만 최소로 낮추어 쓰고 있다. 이게 음악 들을 때는 괜찮은데, 뉴스라든지 사람의 목소리를 들을 때는 소리가 탁해서 불편하다.

그리고 구글홈 홍보에 2개국어 기능을 강조하던데, 실제로 2개국어 써보면 오인식이 많아서 열라 불편하다. 이건 좀 이해해 줄 수 있는 부분인데, 아무래도 한/일/중 3개 언어권은 한자어가 발음이 비슷한 게 많아서 그렇긴 한데, 여하간 결국 단어만 말하면 오작동을 일으킨다. 예를 들어, 네이버 클로바나 아마존 에코는 단어만 말하면(날씨) 알아 듣는데, 구글 홈을 2개 국어로 설정할 경우 문장까지 통째로 말해야 (날씨 알려줘) 비로소 알아 듣는다. 사람이 편하자고 쓰는 건데 이런 건 주객전도다. 그래서 처음에 일/한 2개국어로 쓰다가 나중에는 일본어로만 쓰게 됐다. 그리고 구글의 명성 답지 않게, 다른 스피커들에 비해 은근 오작동이 많다.

언어를 일본어로 설정해도, 뉴스에서 Reuters나 한국의 YTN 등 해외 언론이 재생가능한 것은 꽤 장점이다. 일본 아마존 에코는 아마 미국 아마존과 분리된 스킬 마켓을 가지고 있는 듯한데, 해외 언론 매체는 재생이 되지 않는다.

마지막으로 다른 스피커와는 다르게 아답터가 16.5V로 흔하지 않은 전압을 쓴다. 에코는 15V, 웨이브는 12V로서 상대적으로 구하기 쉽다. 만악 아답터가 고장나면 곤란해진다. 뭐 사실 가만히 세워 놓고 쓰는 물건이라서 고장날 일은 거의 없을 듯 하긴 하다. ㅋ 아답터가 너무 커서 멀티탭에 꽂기가 불편하다. 에코도 머리가 엄청나게 크다. 아답터 크기의 편의성은 웨이브가 제일 낫다.

.


주변 iot 기기 제어를 제외하면, 오래 쓰다보면 결국 스마트 스피커에게 날씨와 뉴스를 묻는 게 사용의 전부가 되는 듯 하다. 결국 사용자가 특정한 것을 원하여, 그러한 기능을 인지하여 불러내는 기능을 가지는 스피커들 보다는, 알아서 스케줄에서 어떤 일정이 예정되어 있고, 오늘은 역사 속의 어떤 사건이 있었던 날이며, 이러한 이벤트를 이용해 보시라고 권하는 아마존 에코가 종합적 측면에서 여러모로 가장 뛰어나다고 생각한다. 전자제품의 초창기는 플랫폼이 중요하지만, 대중성을 확보하려면 컨텐츠가 더 중요하다는 반복되는 진리를 다시 확인해 보는 것이라고나 할까.

.


2019.1.2
술 깨고 보니 내가 이런 글을 썼네-_- 왜 썼지… 삭제하고 싶지만, 뭐 놔둬도 상관없나. ㅎ

.


2019.7.3
근래 오큘러스 퀘스트를 샀는데[11], VR 게임하는 사람들에게는 스마트 스피커 강추다. 기기를 벗지 않고 음성명령으로 에어컨이나 선풍기, 조명제어가 가능하다 ㅋㅋㅋ

뉴스 매체 목록을 최대한 많이 넣어놓고 매일 자기전에 뉴스를 들려달라고 하면 잠이 잘온다-_- 잠 안 올 때 자주 써먹었음.

.


2019.8.31
지디넷 [핫문쿨답] AI스피커 보급 3년…“쓸만해요?” 물었더니 2019/08/29 15:48

.


[1] 구글홈vs카카오미니vs클로바 퀴즈 대결! 과연 1위는? ‘전국 AI스피커 자랑’ 1탄 (주리를틀어라) (youtube 6분 10초)
[2] 구글홈vs카카오미니vs클로바 중 반응속도가 가장 빠른 스피커는? AI스피커 퀴즈 대결 2탄 (주리를틀어라) (youtube 6분 50초)
[3] 내 백과사전 네이버 wave 사용 소감 2018년 9월 8일
[4] 내 백과사전 아마존 에코로 선풍기 음성 제어 ㅋㅋ 2018년 4월 7일
[5] 내 백과사전 구글 홈 간단 사용기 2018년 9월 21일
[6] 포브스 Smart Speaker Users Growing 48% Annually, To Hit 90M In USA This Year May 29, 2018, 04:56pm
[7] 내 백과사전 아이패드의 직관적 인터페이스 2011년 11월 19일
[8] 내 백과사전 [서평] FREE 프리 : 비트 경제와 공짜 가격이 만드는 혁명적 미래 2010년 6월 3일
[9] 내 백과사전 필립스 휴 3.0 사용소감 2018년 8월 1일
[10] 내 백과사전 mBox : 음성으로 적외선 리모컨 신호 제어 2018년 12월 8일
[11] 내 백과사전 오큘러스 퀘스트 30분 사용 소감 2019년 6월 25일