Microsoft, pisándole los talones a Google que ha liberado un framework de aprendizaje de máquina de código abierto, publicó un proyecto similar llamado DMLT (Distributed Machine Learning Toolkit). Éste simplifica el trabajo del aprendizaje de máquina en sistemas distribuidos, permitiendo que los modelos puedan ser entrenados (un componente central del aprendizaje de máquina) en varios nodos a la vez.
“Los modelos más grandes tienden a generar mejores precisiones en diversas aplicaciones”, señaló Microsoft en su introducción al framework. “Sin embargo, sigue siendo un desafío para los investigadores y profesionales promedio del aprendizaje de máquina aprender modelos grandes”.
El núcleo del DMLT es un SDK de C++ para una arquitectura cliente-servidor. “Varias instancias de servidor se ejecutan en diversos equipos y son responsables de mantener los parámetros del modelo global”, señaló Microsoft en su documentación. “Las rutinas de entrenamiento acceden y actualizan los parámetros con algunas API de cliente que requieren los servicios de comunicación subyacentes”.
Microsoft quiere que DMLT haga que sea más fácil para los científicos de datos llevar a cabo el entrenamiento de modelos en varios nodos de máquina sin tener que preocuparse por el meollo del asunto en cuanto a la gestión de hilos o cargas de trabajo. Simplifica la comunicación entre procesos, también, ya que se tienen disponibles para ello dos librerías diferentes (MPI y ZMQ) que se pueden utilizar indistintamente.
Dos importantes algoritmos de entrenamiento de modelos se encuentran incluidos en DMLT. El más comúnmente utilizado probablemente sea LightLDA, para el entrenamiento rápido de modelos de datos de gran tamaño. Microsoft afirmó que ha podido entrenar los modelos con “miles de millones de parámetros” en solo un sistema de ocho nodos con LightLDA. También se incluyen los algoritmos de Distributed Word Embedding y Distributed Multisense Word Embedding, para determinar las relaciones de las palabras entre sí.
A DMLT se le dio un lanzamiento de muy bajo perfil por parte de Microsoft. La única fanfarria parece haber sido las entradas del blog en el sitio de DMLT que anuncian que el código fuente había sido puesto a disposición del público a partir del 9 de noviembre. Dicho esto, Microsoft afirmó que esto es solo el comienzo de lo que planea ofrecer con DMLT, ya que otros algoritmos están por llegar.