분류 전체보기(38)
-
[정보] 예술 사진 만들기 - NVIDIA GauGAN (고갱) - GAN
▶ 인공지능이 실제와 같은 사진을 자동으로 만들어 줍니다. 링크를 따라서 들어가면, 직접 만들어 볼 수 있습니다. → http://nvidia-research-mingyuliu.com/gaugan/ 화면 아래쪽 체크박스를 선택해서, 이용약관에 동의해야 동작합니다. ◎ 사용법 데모 동영상 엔비디아는 AI를 기반으로 한, 이미지 크리에이터 소프트웨어 GauGAN (고갱)을 선보였는데, 스케치를 몇 초안에 매우 사실적인 이미지로 만들어 준다. NVIDIA Research는 생성적 적대 신경망(GAN)을 기반으로, 이를 실연하기 위해 개발하였다. GAN은 ‘Generative Adversarial Network’ 의 약자로, 첫 단어인 ‘Generative’는 생성 모델을 뜻한다. 생성 모델이란 ‘그럴듯한 가짜..
2021.02.05 -
[파이썬] 이메일 보내기 - SMTP / MIME ( gmail )
smtplib은 SMTP를 사용하기 위한 모듈이고, MIMEText는 메일을 보낼 때 메시지의 제목과 본문을 설정하기 위한 모듈이다. ▶ SMTP 는 간이 우편 전송 프로토콜 (Simple Mail Transfer Protocol) 의 약자로, 이메일 전송에 사용되는 네트워크 프로토콜이다. 인터넷에서 메일 전송에 사용되는 표준이다. SMTP는 보안과 호환성의 문제로 그대로는 사용하지 않는 경우가 많다. 일반적으로 쓰이는 확장 프로그램은 SMTP-AUTH (송신자 인증 서비스), ESMTP (SASL을 이용한 보안 연결), MIME (non-ascii 데이터 전송 포맷)가 있다. SMTP는 25/tcp 와 587/tcp 포트를 사용하며, SMPTS는 465/tcp 포트를 사용한다. SMTP는 연결지향적이고..
2021.01.30 -
[파이썬] 토픽 모델링 - 잠재 디리클레 할당 LDA ( 자연어 처리 / 주제 분류)
※ 토픽 모델링 ( Topic modeling ) 토픽 모델 (Topic model) 이란, 문서 집합의 추상적인 주제를 발견하기 위한 통계적 모델. 문헌 내에 어떤 주제가 들어있고, 주제 간의 비중이 어떤지는 문헌 집합 내의 단어 통계를 수학적으로 분석함으로써 알아낼 수 있다. 토픽 모델링의 중요한 특징은 레이블이 된 데이터가 필요 없다는 점이며, 스스로 패턴을 식별하는 비지도학습 방식이다. ◎ 토픽 모델링에 대한 사용 사례 • 문서 토픽 요약 : 문서의 토픽을 요약할 수 있어서, 신속하게 분류할 수 있도록 도와줌. 준다. • 검색엔진 최적화 : 토픽과 관련 키워드를 식별하여, 온라인 기사, 블로그 및 문서를 쉽게 태그 할 수 있으므로 검색 결과 최적화가 향상됨. • 고객 지원 개선 : 제품 및 서비스..
2021.01.25 -
[파이썬] 특성추출 - 단어임베딩 ( 자연어처리 / 벡터화 ) - word2vec
※ 단어 임베딩 ( Word Embedding ) 원-핫 인코딩( one-hot encoding ) 방식에서는 텍스트의 단어를 벡터로 표현하며, 단어에 해당하는 항목만이 1이고, 다른 모든 항목은 0으로 표기한다. 이 방식에서는 단어가 같은 단어인지 아닌지를 비교하는 작업만 할 수 있다. ( 희소벡터 / 희소행렬 ) 또한, 새로운 단어를 추가하려고 하면 벡터의 차원이 증가된다. 연구자들은 이러한 단점을 극복하기 위해 단어를 다차원 공간에서 벡터화하는 방식을 고안하게 되었으며, 다차원에서 벡터화하는 것뿐만 아니라 연산처리까지 할 수 있게 하는 단어의 분산표현인 단어 임베딩 ( Word Embedding )이라는 방식을 제안하게 된다. 이것을 학습하기 위해서 만들어진 효율적인 예측 모델이 구글의 word2v..
2021.01.25 -
[파이썬] 특성 추출 - TF-IDF ( 자연어 처리 / 벡터화 )
◎ TF - IDF ( Term Frequency - Inverse Document Frequency ) : 단어의 빈도(Term Frequency)와 역 문서 빈도(Inverse Document Frequency)를 토대로, 특정 문서 내에 어떤 단어가 얼마나 중요한 지를 나타내는 통계적 수치. >> 다른 문서에는 잘 등장하지 않지만, 이 문서에는 유독 많이 쓰인 단어가 이 문서의 키워드 ▷ TF (Term Frequency) 는 단어 빈도를 나타내며 문서 내에서 특정 단어가 몇 번 발견되었는지를 계산. 문서-단어 행렬이 곧 단어들의 TF 값을 구한 것임. ▷ IDF (Inverse Document Frequency) 는 DF 의 역수이며, 특정 단어가 발견되는 문서의 수를 뜻한다. 다시 말해, 특정 ..
2021.01.20 -
[파이썬] 특성 추출 - Bag of Words ( 자연어 처리 / 벡터화 )
※ 특성 추출 : 원시 데이터에서 핵심 특성을 추출하는 과정. 가공한 토큰들을 컴퓨터가 이해할 수 있는 벡터 데이터로 바꾸는 과정. ◎ Bag of Words : 문서 내 모든 단어들 (토큰)을 가방 하나에 모두 집어넣고 사용. 자주 언급된 단어일수록 가방에서 나올 확률이 높아진다. 중요한 것은 단어의 등장 빈도이며, 단어의 순서는 상관없음. · 문장 - "나는 학교에 간다. 나는 회사에 간다." 이 문장으로 단어 사전을 구성하면 다음과 같다. 단어는 오름차순의 가나다순으로 정렬. · 사전: {'간다', '나', '학교', '회사'} 이 사전 순서에 따라 각 단어가 문장에서 몇 번 발생했는지 빈도 수를 기록. → 이 예에 따르면 문서 내에 ‘간다’와 ‘나’는 2번 발견되었고 ‘학교’와 ‘회사’는 1번씩 ..
2021.01.20