DeepSeek 딥시크 홈페이지 바로가기 www.deepseek.com 및 이용 안내입니다. DeepSeek 딥시크는 600B 이상의 파라미터를 가진 획기적인 모델로 구동되는 첨단 AI로 글로벌 표준을 선도하고 있으며, 빠른 속도와 포괄적인 기능을 통해 질문에 답변하고 삶을 효율적으로 개선할 수 있습니다.
목차
DeepSeek 딥시크 홈페이지
바로가기

딥시크 홈페이지에는 딥시크 제품과 애플리케이션(다양한 버전이 포함될 수 있음), 타사 웹사이트 및 애플리케이션을 위한 소프트웨어 개발 키트(SDK), 애플리케이션 프로그래밍 인터페이스(API) 및 기술 개발과 함께 등장하는 혁신적인 형태를 통해 제공되는 제품과 서비스가 포함됩니다. 여기에는 기타 기능(이하 “서비스”라고 함)과 함께 생성적 인공 지능 서비스를 핵심으로 하는 플랫폼이 포함됩니다.
딥시크 버전별 소개
딥시크 R1 (DeepSeek R1)
딥시크 R1은 수학, 코드 및 추론 작업에서 OpenAI-o1과 비슷한 성능을 달성합니다. 연구 커뮤니티를 지원하기 위해 DeepSeek-R1-Zero, DeepSeek-R1, 그리고 Llama와 Qwen을 기반으로 DeepSeek-R1에서 추출한 6개의 밀집 모델을 오픈 소스로 공개했습니다. DeepSeek-R1-Distill-Qwen-32B는 다양한 벤치마크에서 OpenAI-o1-mini보다 우수한 성능을 보이며, 밀도 모델에 대해 최첨단 결과를 달성합니다.
딥시크 V3 (DeepSeek V3)
딥시크 V3는 부하 분산을 위한 보조 손실 없는 전략을 도입하고, 다중 토큰 예측 학습 목표를 설정해 성능을 강화합니다. 14.8조 개의 고품질 토큰으로 사전 학습한 후, 지도 학습과 강화 학습을 거쳐 최적화됩니다.
평가 결과, DeepSeek-V3는 오픈 소스 모델보다 뛰어나며, 폐쇄 소스 모델과 유사한 성능을 보입니다. 전체 학습에 2,788M H800 GPU 시간이 소요되었으며, 훈련 과정은 안정적이어서 손실 급증이나 롤백 없이 진행되었습니다.
딥시크 코더 V2 (DeepSeek Coder V2)
딥시크 코더 V2는 GPT-4 Turbo와 유사한 성능을 달성하는 오픈소스 MoE 코드 언어 모델입니다. DeepSeek-V2의 중간 체크포인트에서 추가로 6조 토큰을 학습해 코딩 및 수학적 추론 기능을 크게 향상시켰습니다.
DeepSeek-Coder-33B보다 코드 작업과 추론 성능이 발전했으며, 지원하는 프로그래밍 언어를 86개에서 338개로, 컨텍스트 길이를 16K에서 128K로 확장했습니다.
딥시크 VL (DeepSeek VL)
딥시크 VL은 실제 세계 비전 및 언어 이해 애플리케이션을 위해 설계된 오픈 소스 Vision-Language(VL) 모델 버전입니다. DeepSeek-VL은 복잡한 시나리오에서 논리적 다이어그램, 웹 페이지, 수식 인식, 과학 문헌, 자연 이미지 및 구체화된 지능을 처리할 수 있는 일반적인 멀티모달 이해 기능을 보유하고 있습니다.
딥시크 V2 (DeepSeek V2)
딥시크 V2는 경제적인 훈련과 효율적인 추론이 특징인 강력한 MoE 언어 모델입니다. 총 236B개의 매개변수 중 21B개가 활성화되며, DeepSeek 67B보다 뛰어난 성능을 발휘합니다. 또한 훈련 비용을 42.5% 절감하고, KV 캐시를 93.3% 줄이며, 생성 처리량을 5.76배 향상시켜 효율성을 극대화했습니다.
딥시크 코더 (DeepSeek Coder)
딥시크 코더는 2T 토큰에서 학습된 코드 언어 모델로, 87%는 코드, 13%는 영어와 중국어로 구성됩니다. 1B~33B까지 다양한 크기의 모델을 제공하며, 16K 창 크기와 빈칸 채우기 기능을 활용해 프로젝트 수준의 코드 완성과 채우기를 지원합니다. 여러 프로그래밍 언어에서 오픈 소스 코드 모델 중 최첨단 성능을 자랑합니다.
딥시크 Math
딥시크 Math는 DeepSeek-Coder-v1.5 7B를 기반으로 학습되었으며, 수학 관련 데이터와 500B 토큰의 자연어 및 코드 데이터를 추가 학습했습니다. 외부 툴 없이도 MATH 벤치마크에서 51.7%를 기록하며 GPT-4 수준에 근접한 성능을 보였습니다.
딥시크 LLM
딥시크 LLM은 670억 개의 매개변수를 가진 고급 언어 모델로, 영어와 중국어 2조 개 토큰으로 학습되었습니다. 연구 지원을 위해 7B/67B Base 및 Chat 버전을 오픈 소스로 공개했습니다.
- 뛰어난 일반 역량: DeepSeek LLM 67B Base는 추론, 코딩, 수학, 중국어 이해 등의 분야에서 Llama2 70B Base보다 우수한 성과를 보입니다.
- 코딩 및 수학에 능숙: DeepSeek LLM 67B Chat은 코딩(HumanEval Pass@1: 73.78) 및 수학(GSM8K 0-shot: 84.1, Math 0-shot: 32.6)에서 뛰어난 성과를 보였습니다. 또한 헝가리 국립 고등학교 시험에서 65점이라는 뛰어난 점수를 받은 것처럼 놀라운 일반화 능력도 보여줍니다.
- 중국어 능력: 당사의 평가에 따르면, DeepSeek LLM 67B Chat은 중국어 능력에서 GPT-3.5를 능가합니다.
이상입니다.
[다른글]